登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書

『簡體書』现代数据科学(R语言·第2版)

書城自編碼: 3737625
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: [美]本杰明·S.鲍默[Benjamin S. Baumer
國際書號(ISBN): 9787302598794
出版社: 清华大学出版社
出版日期: 2022-03-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 160.0

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
重建:美利坚未完成的革命(1863—1877)
《 重建:美利坚未完成的革命(1863—1877) 》

售價:HK$ 202.8
复辟:查理二世和他的王国,1660—1685
《 复辟:查理二世和他的王国,1660—1685 》

售價:HK$ 165.6
向上社交:拿捏分寸 跨越社交圈层的底层逻辑 让优秀的人主动靠近你
《 向上社交:拿捏分寸 跨越社交圈层的底层逻辑 让优秀的人主动靠近你 》

售價:HK$ 70.8
九州天下:中国文化与中国人
《 九州天下:中国文化与中国人 》

售價:HK$ 69.6
Hadoop大数据集群部署及数据存储项目化教程
《 Hadoop大数据集群部署及数据存储项目化教程 》

售價:HK$ 57.6
隐藏的文脉:北京书院述微( 作家解玺璋文化随笔   溯源北京文脉,追摹文士遗风)
《 隐藏的文脉:北京书院述微( 作家解玺璋文化随笔 溯源北京文脉,追摹文士遗风) 》

售價:HK$ 57.6
哲学、历史与僭政——重审施特劳斯与科耶夫之争
《 哲学、历史与僭政——重审施特劳斯与科耶夫之争 》

售價:HK$ 114.0
Xilinx FPGA权威设计指南:基于Vivado 2023设计套件
《 Xilinx FPGA权威设计指南:基于Vivado 2023设计套件 》

售價:HK$ 237.6

 

建議一齊購買:

+

HK$ 133.7
《 Oracle DBA手记 4,数据安全警示录(修订版) 》
+

HK$ 208.6
《 数据治理:工业企业数字化转型之道 》
+

HK$ 111.3
《 MATLAB 2020中文版完全实战一本通 》
+

HK$ 131.7
《 Power BI商业数据分析项目实战 》
+

HK$ 130.7
《 MySQL是怎样运行的 从根儿上理解MySQL 》
+

HK$ 249.8
《 Oracle PL SQL程序设计(第6版)(上下册) 》
編輯推薦:
《现代数据科学(R语言●第2版)》是面向本
科生的综合性数据科学教材,通过结合使用统计
和计算方式来解决现实中的数据问题。本书不
仅专注于案例或编程语法,还讲述如何利用
R/RStudio计算环境中的统计编程,从各种数据中
提取有意义的信息,进而解决重大问题。
內容簡介:
本书对上一版做了全面更新,与日益强 大的tidyverse套包保持同步,纳入sf、purrr、 tidymodels和tidytext等包中的新功能。代码的内 容和格式都经过修改,以方便阅读和理解。部分 章节被拆分、重新组织和重新构思,以适应不断 变化的实践环境。
關於作者:
Benjamin S. Baumer是美国史密斯学院
统计与数据科学专业的副教授。Benjamin 于
2004年成为纽约大都会队位全职统计分析
师,此后一直担任应用数据科学家。Benjamin
曾荣获美国棒球研究学会颁发的2019年Waller
教育奖和2016年突出贡献者奖,参与撰写了The
Sabermetric Revolution-书。
Daniel T. Kaplan是美国玛卡莱斯特学院数
学和计算机科学系的名誉教授,是多本统计建
模和统计计算教科书的作者。Daniel获 得2006
年玛卡莱斯特学院卓越教学奖和2017年终身成
就奖。
Nicholas J. Horton是美国阿默斯特学院统
计和数据科学系的教授,是ASA和AAAS的高级会
员,美国国家科学院应用与理论统计委员会的联
合主席,多项美国国家教学奖的获得者,一系列
统计计算书籍的作者,并积极参与编写数据科学
课程,帮助学生“用数据思考\。
目錄
第Ⅰ部分 数据科学简介
第1章 序言:为什么有数据科学? 2
1.1 数据科学是什么 3
1.2 案例学习:棒球资料统计分析
的演变 5
1.3 数据集 6
1.4 扩展资源 7
第2章 数据可视化 8
2.1 2012年联邦大选周期 8
2.1.1 这两组数据有区别吗? 10
2.1.2 图形变化 11
2.1.3 检查变量之间的关系 12
2.1.4 网络 14
2.2 组成数据图形 15
2.2.1 数据图形分类 15
2.2.2 颜色 17
2.2.3 剖析数据图形 19
2.3 数据图形的重要性:
挑战者号 21
2.4 创建有效的演示 25
2.5 更广阔的数据可视化世界 25
2.6 扩展资源 27
2.7 练习题 28
2.8 附加练习 29
第3章 图形语法 30
3.1 数据图形语法 30
3.1.1 画面 31
3.1.2 刻度 33
3.1.3 指南 35
3.1.4 方面 35
3.1.5 层次 36
3.2 R中的规范数据图形 38
3.2.1 单变量显示 38
3.2.2 多元显示 40
3.2.3 地图 46
3.2.4 网络 46
3.3 扩展示例:历史婴儿名字 47
3.3.1 至今仍活着的人口的
百分比 48
3.3.2 普通的女性名字 53
3.4 扩展资源 56
3.5 练习题 56
3.6 附加练习 58
第4章 在一张表中整理数据 59
4.1 数据整理语法 59
4.1.1 select()和filter() 59
4.1.2 mutate()和rename() 62
4.1.3 arrange() 64
4.1.4 用group_by()进行
summarize() 66
4.2 扩展示例:Ben在大都会队
(Mets)的时间 67
4.3 扩展资源 75
4.4 练习题 76
4.5 附加练习 79
第5章 多张表的数据整理 80
5.1 inner_join() 80
5.2 left_join() 82
5.3 扩展示例:Manny Ramirez 83
5.4 扩展资源 90
5.5 练习题 90
5.6 附加练习 92
第6章 数据规整 93
6.1 规整数据 93
6.1.1 动机 93
6.1.2 规整的数据是什么 95
6.2 重塑数据 101
6.2.1 用于从宽到窄以及从窄到
宽转换的数据动词 103
6.2.2 pivot_wider()函数 103
6.2.3 pivot_longer()函数 103
6.2.4 list-column 104
6.2.5 示例:中性姓名 108
6.3 命名约定 110
6.4 数据获取 111
6.4.1 数据表友好的格式 111
6.4.2 API 115
6.4.3 清洗数据 115
6.4.4 示例:日本核反应堆 121
6.5 扩展资源 124
6.6 练习题 124
6.7 附加练习 127
第7章 迭代 128
7.1 向量化操作 128
7.2 利用dplyr实现across() 131
7.3 map()函数族 132
7.4 在一维向量上迭代 133
7.4.1 迭代已知函数 133
7.4.2 迭代任意函数 134
7.5 在子组上迭代 135
7.5.1 示例:期望获胜率 136
7.5.2 示例:年度领导者 138
7.6 仿真 140
7.7 扩展示例:与BMI相关的
因子 142
7.8 扩展资源 145
7.9 练习题 145
7.10 附加练习 145
第8章 数据科学伦理学 146
8.1 引言 146
8.2 真实的谎言 146
8.2.1 坚持你的立场 147
8.2.1 全球温度 147
8.2.3 COVID-19报道 148
8.3 数据科学在社会中的作用 149
8.4 职业道德的一些设置 150
8.4.1 CEO 150
8.4.2 就业歧视 150
8.4.3 “Gaydar” 151
8.4.4 种族预测 151
8.4.5 数据爬取 152
8.4.6 可重复的电子表格分析 152
8.4.7 药物危害 152
8.4.8 法律谈判 153
8.5 道德行为的一些指导性原则 153
8.5.1 CEO 154
8.5.2 就业歧视 154
8.5.3 “Gaydar” 154
8.5.4 种族预测 154
8.5.5 数据爬取 155
8.5.6 可重复的电子表格分析 155
8.5.7 药物危害 155
8.5.8 法律谈判 156
8.6 算法偏差 157
8.7 数据与泄露 157
8.7.1 重新识别和泄露避免 157
8.7.2 安全的数据存储 158
8.7.3 数据爬取和使用条款 158
8.8 再现性 159
8.9 集体的道德准则 160
8.10 职业道德行为准则 161
8.11 扩展资源 161
8.12 练习题 162
8.13 附加练习 163
第Ⅱ部分 统计与建模
第9章 统计基础 166
9.1 样本和总体 166
9.2 样本统计 169
9.3 自举 173
9.4 异常值 176
9.5 统计模型:方差解释 178
9.6 混淆和解释其他因素 181
9.7 p值的风险 184
9.8 扩展资源 186
9.9 练习题 187
9.10 附加练习 187
第10章 预测建模 188
10.1 预测建模 189
10.2 简单的分类模型 190
10.3 评价方法 197
10.3.1 权衡偏差与方差 197
10.3.2 交叉验证 197
10.3.3 混淆矩阵和ROC
曲线 198
10.3.4 定量响应的预测误差
测量 200
10.3.5 示例:收益模型评估 201
10.4 扩展示例:谁患有
糖尿病? 204
10.5 扩展资源 207
10.6 练习题 207
10.7 附加练习 208
第11章 监督学习 209
11.1 非回归分类器 209
11.1.1 决策树 210
11.1.2 随机森林 217
11.1.3 近邻 218
11.1.4 朴素贝叶斯 221
11.1.5 人工神经网络 222
11.1.6 集成方法 224
11.2 参数调整 224
11.3 示例:收入模型redux的
评价 226
11.4 扩展示例:这次谁得了
糖尿病? 230
11.5 正则化 235
11.6 扩展资源 237
11.7 练习题 238
11.8 附加练习 239
第12章 无监督学习 240
12.1 聚类 240
12.1.1 层次聚类 241
12.1.2 k-means 245
12.2 降维 246
12.2.1 直觉法 248
12.2.2 奇异值分解 249
12.3 扩展资源 254
12.4 练习题 254
12.5 附加练习 255
第13章 仿真 256
13.1 逆向推理 256
13.2 扩展示例:癌症分组 257
13.3 随机化函数 259
13.4 仿真可变性 261
13.4.1 部分计划的会合 261
13.4.2 工作报告 262
13.4.3 餐厅健康卫生等级 264
13.5 随机网络 267
13.6 仿真关键原则 267
13.6.1 设计 267
13.6.2 模块化 267
13.6.3 再现性和随机数种子 267
13.7 扩展资源 270
13.8 练习题 270
13.9 附加练习 271
第Ⅲ部分 数据科学专题
第14章 动态定制数据图形 274
14.1 使用D3.js和htmlwidgets
丰富Web内容 274
14.1.1 Leaflet 275
14.1.2 Plot.ly 275
14.1.3 DataTables 276
14.1.4 dygraphs 277
14.1.5 streamgraphs 277
14.2 动画 278
14.3 flexdashboard 279
14.4 基于Shiny的交互式Web
应用程序 281
14.4.1 示例:披头士名字的
交互展示 281
14.4.2 反应式编程的更多
知识 282
14.5 ggplot2图形的定制 285
14.6 扩展示例:吃热狗 289
14.7 扩展资源 294
14.8 练习题 294
14.9 附加练习 295
第15章 使用SQL查询数据库 296
15.1 从dplyr 到SQL 296
15.2 平面文件数据库 300
15.3 SQL 302
15.4 SQL数据操作语言 303
15.4.1 SELECT...FROM 305
15.4.2 WHERE 307
15.4.3 GROUP BY 310
15.4.4 ORDER BY 312
15.4.5 HAVING 313
15.4.6 LIMIT 315
15.4.7 JOIN 316
15.4.8 UNION 321
15.4.9 子查询 321
15.5 扩展示例:FiveThirtyEight
航班 323
15.6 SQL与R 331
15.7 扩展资源 331
15.8 练习题 331
15.9 附加练习 333
第16章 数据库管理 334
16.1 构建高效的SQL数据库 334
16.1.1 创建新的数据库 334
16.1.2 创建表 335
16.1.3 键 336
16.1.4 索引 337
16.1.5 查询计划 338
16.1.6 分区 340
16.2 更改SQL数据 340
16.2.1 更改数据 341
16.2.2 增加数据 341
16.2.3 从文件导入数据 342
16.3 扩展示例:创建数据库 342
16.3.1 抽取 342
16.3.2 转换 342
16.3.3 载入MySQL数据库 343
16.4 可扩展性 346
16.5 扩展资源 346
16.6 练习题 346
16.7 附加练习 347
第17章 使用地理空间数据 348
17.1 动机:地理空间数据有什么了不起的? 348
17.2 空间数据结构 351
17.3 制作地图 353
17.3.1 静态地图 353
17.3.2 投影 354
17.3.3 基于leaflet的动态地图 360
17.4 扩展示例:国会选区 362
17.4.1 选举结果 362
17.4.2 国会选区 365
17.4.3 整合所有数据 367
17.4.4 使用ggplot2 368
17.4.5 使用leaflet 369
17.5 有效的地图:如何避免撒谎 370
17.6 投影多边形 371
17.7 有效利用其他技术 373
17.8 扩展资源 374
17.9 练习题 374
17.10 附加练习 374
第18章 地理空间计算 375
18.1 地理空间操作 375
18.1.1 地理编码、路线和距离 375
18.1.2 几何运算 378
18.2 地理空间聚合 384
18.3 地理空间联接 386
18.4 拓展示例:MacLeish中的路径海拔 387
18.5 扩展资源 391
18.6 练习题 391
18.7 附加练习 392
第19章 文本数据 393
19.1 使用Macbeth的正则表达式 393
19.1.1 解析苏格兰戏剧文本 393
19.1.2 Macbeth中的生与死 397
19.2 扩展示例:分析arXiv.org的文本数据 399
19.2.1 语料库 402
19.2.2 词云 404
19.2.3 情感分析 405
19.2.4 bigrams和N-grams 407
19.2.5 文档词项矩阵 408
19.3 获取文本 412
19.4 扩展资源 415
19.5 练习题 416
19.6 附加练习 418
第20章 网络科学 419
20.1 网络科学引言 419
20.1.1 定义 419
20.1.2 网络科学简史 420
20.2 扩展示例:Kristen Stewart的六度空间理论 424
20.2.1 收集好莱坞数据 424
20.2.2 构建好莱坞网络 427
20.2.3 建立Kristen Stewart预言 430
20.3 PageRank 433
20.4 扩展示例:1996年男子大学篮球赛 435
20.5 扩展资源 442
20.6 练习题 442
20.7 附加练习 443
第21章 结束语:走向“大数据” 444
21.1 大数据的一些概念 444
21.2 更大数据的工具 446
21.2.1 大数据的数据和内存结构 446
21.2.2 编译 447
21.2.3 并行和分布式计算 447
21.2.4 SQL的替代方案 454

21.3 R的替代方案 455
21.4 结束语 456
21.5 扩展资源 456
第Ⅳ部分 附录
附录A 本书使用的包 458
附录B R和RStudio简介 465
附录C 算法思维 483
附录D 可再现性分析和工作流程 495
附录E 回归建模 504
附录F 安装数据库服务器 524
內容試閱
背景和动机
不断增长的数据量和复杂性给分析人员提出了新挑战,他们需要能够对复杂的数据集进行转换来回答重要的统计问题。一份关于本科生数据科学的调查报告[National Academies of Science, Engineering, and Medicine, 2018]指出,数据科学正在彻底改变科学和工作场所。他们将数据科学家定义为“主要从事复杂和海量数据资源分析的知识工作者”。
Michael I. Jordan将数据科学描述为计算思想和推理(统计)思想的结合。如果没有能够整理(wrangle)或维护(marshal)我们周围日益丰富和复杂的数据的技能,分析师将无法使用这些数据做出更好的决策。
对具备这些技能的毕业生的需求非常迫切。根据公司评级网站Glassdoor的报告,2016—2019年间,每年“数据科学家”都是美国薪酬的工作[Columbus, 2019]。
新的数据技术使从比以往更多的来源提取数据成为可能。流线型的数据处理库使数据科学家能够表达如何将这些数据重组为适合分析的形式。数据库系统能使存储和检索越来越多的数据成为可能。的工作流工具有助于形成良好的文档和可再现的分析。现代统计和机器学习方法允许分析者拟合和评估模型,并进行有监督或无监督的学习以提取现实中内在的信息。现代数据科学需要将统计、计算、数据以及通信技能进行紧密结合。
目标受众
《现代数据科学(R语言·第2版)》是为那些想要学习适当技能来处理复杂数据科学项目和“用数据思考”(由谷歌的Diane Lambert 创造)的读者而写的。使用数据解决问题的愿望是《现代数据科学(R语言·第2版)》介绍的方法的核心。
我们承认,不可能在一本书中涵盖所有这些主题的细节层次:许多章节可以有效地构成一门课程或一系列课程的基础。相反,我们的目标是为现实世界数据的分析打下基础,并确保分析师看到统计和数据分析的作用。阅读《现代数据科学(R语言·第2版)》后,读者将极大地扩展他们处理这些数据的技能,并对他们不断地学习新技术的能力树立新的信心。
《现代数据科学(R语言·第2版)》初是为了支持一个学期(13周)的数据科学高年级课程。我们还认为,《现代数据科学(R语言·第2版)》对于相关学科的更高年级的学生也非常有用,而且对于那些想要提高数据科学技能的分析师也很有用。同时,没有编程或统计经验的普通读者可以阅读《现代数据科学(R语言·第2版)》的第Ⅰ部分。
《现代数据科学(R语言·第2版)》的主要特点
关注案例研究和扩展示例
我们以一系列复杂的、现实世界的扩展案例研究和示例为特色,这些案例研究和示例来自广泛的应用领域,包括政治、交通、体育、环境科学、公共卫生、社交媒体和娱乐。这些丰富的数据集需要使用复杂的数据抽取技术、现代数据可视化方法和精确的计算方法。
背景是这些问题的核心,我们撰写这本书的目的是促进统计思维、数据相关技能和沟通能力的平行发展。每章侧重的应用扩展示例各不相同,而章节练习题可让读者巩固和完善该章中所学的知识。
结构
这本书有三个主要部分和补充附录。第Ⅰ部分介绍数据科学,包括数据可视化的介绍、数据管理(或“整理”)的基础和职业道德伦理。第Ⅱ部分扩展了基础统计的关键建模概念,包括回归建模、分类、预测、统计基础和仿真。第Ⅲ部分介绍更高级的主题,包括交互式数据可视化、SQL、关系数据库、地理空间数据、文本挖掘和网络科学。
后,我们在附录中介绍《现代数据科学(R语言·第2版)》的R包、R语言、RStudio、算法思想的一些关键方面、可再现性分析、回归方法,以及如何安装一个本地SQL数据库。
相关材料
除了许多例子和扩展的案例研究外,《现代数据科学(R语言·第2版)》第2~20章的每章末尾都包含了练习题以及在线提供的补充练习。许多练习都是开放式的,旨在让学生探索在解决数据科学问题时的创造力(可从出版商处获得教师参考答案手册)。
《现代数据科学(R语言·第2版)》的网站是https://mdsr-book.github.io/mdsr2e,网站内容包括《现代数据科学(R语言·第2版)》目录、各章全文、参考文献、主题和R索引。教师网站是https://mdsr-book.github.io/,网站内容包含代码示例、补充练习、附加练习和勘误表。
第2版的变化
数据科学发展迅速,而且自从我们写了第1版以来,已发生了很多变化。我们已经更新了所有章节的内容,以详细解释其中的许多变化,并采用了的R程序包。
首先,对使用地理空间数据的内容进行了扩展,并分为两章(第17章和第18章)。第17章的重点是处理地理空间数据,第18章的重点是地理空间计算。现在,这两章都使用sf包和ggplot2中的新函数geom_sf()。这些变化使学生能够更深入地了解地理空间数据分析。
其次,关于规整数据的一章(第6章)经历了重大修订。增加了新的关于list-column的一节,而关于迭代的部分已经扩展为完整的一章(第7章)。第7章全部使用了purrr包提供的函数式编程风格。这些变化有助于学生养成一种弹性思维习惯:如果复制和粘贴代码超过两次,那么可能有一种更有效的方法。
另外,关于监督学习的内容被分为两章(第10章和第11章),并更新为使用tidymodels系列包。第10章概括介绍模型评估,第11章介绍几种模型。tidymodels生态系统以与tidyverse一致的方式为拟合、解释和评估各种机器学习模型提供了相应的语法。这些更改显著减少了本章代码的认知开销。
其他几章的内容做了较小但具有实质性的一些修订。《现代数据科学(R语言·第2版)》中的所有代码都经过了修改,以更加符合tidyverse语法和风格。我们还修订了第1版的练习题和解答,并添加了新的练习题。每章的代码现在都可从配书网站上找到。这本书已被移植到bookdown,因此可以在以下网站上找到完整版本:https://mdsr-book.github.io/mdsr2e。
技术的关键角色
虽然许多工具可有效地用于开展数据科学研究,分析技术也在迅速变化,但R和Python已经成为两个非常强大且可扩展的环境。虽然对于一个数据科学家来说,能够使用多种技术进行分析是很重要的,但我们在《现代数据科学(R语言·第2版)》选择使用R和RStudio来避免认知过载。我们描述一个强大的和有机联系的工具集,可以在一个学期的范围内学完,这为数据整理和探索提供了基础。
我们充分利用RStudio环境。这个强大且易于使用的前端为R添加了许多特性,包括对包的支持、代码补全、集成帮助、调试器和其他编码工具。根据我们的经验,RStudio的使用能极大地提高R用户的生产率,并且通过紧密集成可再现的分析工具,有助于避免容易出错的“剪切粘贴”工作流。我们的学生和同事发现RStudio有一个非常舒适的界面。使用该界面不需要具备R或RStudio方面的知识或经验,附录对此提供了简单介绍。
如前所述,我们全面整合了tidyverse的许多实质性改进。tidyverse是一套基础的程序包,提供了与R更一致的接口[Wickham,2019h]。tidyverse软件包中嵌入的许多设计决策解决了传统上使R难以用于数据分析的问题。这些决策允许新手用户更快地取得进展并养成良好习惯。
我们使用了一个可再现的分析系统(knitr)来生成《现代数据科学(R语言·第2版)》中的示例代码和输出。该书的网站上提供了从这些文件中提取的代码。我们详细讨论了这些系统的原理和用法。特别是,我们认为与RStudio紧密集成的knitr和markdown包应该成为每个R用户的工具箱的一部分。无法想象,在没有它们的情况下如何从事一个项目。
现代数据科学是一项团队工作。为能充分参与,分析师必须能够提出问题,找出解决问题的数据,将其融入计算环境,建立模型,进行探索,然后交流结果。这是一个迭代过程,需要统计和计算技能的混合。
如何使用《现代数据科学(R语言·第2版)》
《现代数据科学(R语言·第2版)》的材料迄今为止已经支撑了Amherst学院、Smith学院和Macalester学院,以及世界上其他学校的多门课程。据我们所知,这些课程包括数据科学的一门中级课程(Smith学院,2013年和2014年;Amherst学院,自2017年以来的学年)、数据科学的一门入门课程(Smith学院,2016年)和高级数据分析的一门课程(Amherst学院,多个学年)。
Smith学院数据科学入门课程没有任何先决条件,它主要包括以下材料子集。
● 数据可视化:三周,包括第1~3章。
● 数据整理:五周,包括第4~7章。
● 职业伦理道德:一周,包括第8章。
● 数据库查询:两周,包括第15章。
● 地理空间数据:两周,包括第17章和第18章的部分内容。
Amherst学院的中级课程采用了[Baumer,2015b]的方法,该方法要求先修一些统计学和计算机科学课程,还有一个期末综合项目。本课程一般包括以下章节:
● 数据可视化:两周,包括第1~3章以及第14章。
● 数据整理:四周,包括第4~7章。
● 职业伦理道德:一周,包括第8章。
● 无监督学习:一周,包括第12章。
● 数据库查询:一周,包括第15章。
● 地理空间数据:一周,包括第17章和第18章的部分内容。
● 文本挖掘:一周,包括第19章。
● 网络科学:一周,包括第20章。
Amherst学院的“”课程更深入地回顾了其中大部分内容:
● 数据可视化:三周,包括第1~3章以及第14章。
● 数据整理:两周,包括第4~7章。
● 职业伦理道德:一周,包括第8章。
● 仿真:一周,包括第13章。
● 统计学习:两周,包括第10~12章。
● 数据库:一周,包括第15章和附录F。
● 文本挖掘:一周,包括第19章。
● 空间数据:一周,包括第17章。
● 大数据:一周,包括第21章。
我们期望《现代数据科学(R语言·第2版)》可作为其他各类课程的主要资料,无论是否有额外的补充材料。
第Ⅰ部分的内容,特别是第3章介绍的ggplot2可视化概念和第4章介绍的dplyr数据整理操作是基本内容,是第Ⅱ部分和第Ⅲ部分内容的前提。第Ⅲ部分内容中的每一个主题都彼此独立,与第Ⅱ部分内容中的材料无关。因此,尽管大多数教师希望在所有课程中涵盖第Ⅰ部分的大部分或全部内容,但第Ⅱ部分和第Ⅲ部分的内容几乎可以完全自由地添加。
第Ⅱ部分内容中的材料旨在让初学者了解统计学(即基本的推理和线性回归)知识,让学生走进更丰富多彩的统计建模和统计推理世界。
彩图
《现代数据科学(R语言·第2版)》是黑白印刷,无法显示彩图效果。读者可扫描封底二维码,下载彩色图片。
参考资料
正文所涉及参考资料的形式是[*],即方括号中加编号。读者可扫描封底二维码,下载“参考资料”文档,从中找到编号对应的资料。
致谢
感谢Informa CRC/Chapman和Hall的John Kimmel对我们的支持和指导。感谢Jim Albert、Nancy Boynton、Jon Caris、Mine ?etinkaya-Rundel、Jonathan Che、Patrick Frenett、Scott Gilman、Maria-Cristiana G?rj?u、Johanna Hardin、Alana Horton、John Horton、Kinari Horton、Azka Javaid、Andrew Kim、Eunice Kim、Caroline Kusiak、Ken Kleinman、Priscilla (Wencong) Li、Amelia McNamara、Melody Owen、Randall Pruim、Tanya Riseman、Gabriel Sosa、Katie St. Clair、Amy Wagaman、Susan (Xiaofei) Wang、Hadley Wickham、J. J. Allaire,感谢RStudio的开发者们、匿名评论员、Smith 和Amherst学院的多个班级,感谢其他许多对R环境、RStudio环境、手稿提出有用建议的人士。Rose Porta对于校对和简化从Sweave到R Markdown的过渡过程发挥了重要作用。Jessica Yu将第1版的大部分练习转换为基于etude的新格式,并添加了标签。
尤其需要提出的是,我们非常感谢Cory、Maya以及Julia的耐心和支持。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.