新書推薦:

《
从“四夷”到“外国”:《宋史·外国传》研究 国家社科基金后期资助项目
》
售價:HK$
96.8

《
苏格拉底的虔敬:读柏拉图《游叙弗伦》笔记
》
售價:HK$
86.9

《
思辨者的罗盘:从逻辑谬误到严谨表达
》
售價:HK$
61.6

《
面具之下:近代日本报人对华情报活动
》
售價:HK$
96.8

《
广东省博物馆藏品大系 端砚卷
》
售價:HK$
547.8

《
你的降落伞是什么颜色:就业市场不是一场录用游戏,而是一场淘汰游戏,直到准备充分的人胜出
》
售價:HK$
82.5

《
美国军事战略研究
》
售價:HK$
184.8

《
一对一沟通
》
售價:HK$
120.9
|
| 編輯推薦: |
1.【权威】一作为R社区领军Hadley Wickham,国内知名R专家张敬信领衔翻译 2.【经典】数据分析与数据科学领域经典作品,Amazon 4.7星评,豆瓣评分9.4 3.【升级】新版根据tidyverse全面更新,tidyverse是R数据科学的现代标准 4.【实用】覆盖80%数据科学工作场景,提供高质量代码示例,开箱即用 5.【简单】自学宝典,图示丰富,打通数据科学全流程,学习轻松10倍
|
| 內容簡介: |
本书是数据科学与数据分析领域经典作品,由R社区领军人物Hadley Wickham领衔打造。第2版全面更新,结合tidyverse及RStudio,通过实战示例和练习,帮助读者快速掌握数据处理、可视化与编程等核心数据科学技能。全书分为六大部分——全流程、可视化、变换、导入、编程与交流——完整覆盖数据科学全流程。來源:香港大書城megBookStore,http://www.megbook.com.hk
本书适合统计、数据科学和机器学习专业的学生,以及数据分析师、数据科学家及其他有数据处理与可视化需求的读者。
|
| 關於作者: |
|
哈德利·威克姆(Hadley Wickham) RStudio首席科学家,统计学家,斯坦福大学、奥克兰大学、莱斯大学兼职统计学教授。已被下载数百万次的ggplot2等多款知名R包的开发者,一直致力于让普罗大众更容易上手数据分析,被R社区誉为“改变了R的人”。另著有《R包开发》等书。 米内·切廷卡亚?伦德尔(Mine ?etinkaya-Rundel) 杜克大学统计科学系实践教授、R 数据科学教育专家。她专注于统计学和数据科学教育,参与编写多部开源教材,如《OpenIntro Statistics》,致力于让学习统计和 R 语言变得轻松有趣。 加勒特·格罗勒芒德(Garrett Grolemund) RStudio 顾问、R 语言教育专家。Garrett 擅长将复杂的数据科学概念以直观、有趣的方式呈现,是全球数据科学学习者熟悉的 R 教师和教材作者。
|
| 目錄:
|
目录
译者序xix 引言xxi
第一部分 全流程 第1章 数据可视化3 1.1 引言3 1.2 起步阶段4 1.2.1 penguins数据框4 1.2.2 终极目标6 1.2.3 创建ggplot图形6 1.2.4 添加美学和图层9 1.2.5 练习题13 1.3 ggplot2调用15 1.4 可视化分布15 1.4.1 分类变量15 1.4.2 数值变量17 1.4.3 练习题18 1.5 可视化关系19 1.5.1 数值变量与分类变量19 1.5.2 两个分类变量21 1.5.3 两个数值变量23 1.5.4 三个及三个以上变量23 1.5.5 练习题24 1.6 保存图形25 1.7 常见问题26 1.8 小结26 第2章 工作流:基础27 2.1 编程基础27 2.2 注释28 2.3 命名对象29 2.4 调用函数29 2.5 练习题30 2.6 小结31 第3章 数据变换32 3.1 引言32 3.1.1 准备工作32 3.1.2 nycflights1333 3.1.3 dplyr基础34 3.2 操作行34 3.2.1 filter()35 3.2.2 常见错误36 3.2.3 arrange()37 3.2.4 distinct()37 3.2.5 练习题39 3.3 操作列39 3.3.1 mutate()39 3.3.2 select()41 3.3.3 rename()42 3.3.4 relocate()42 3.3.5 练习题43 3.4 管道43 3.5 分组45 3.5.1 group_by()45 3.5.2 summarize()46 3.5.3 slice_*函数47 3.5.4 根据多个变量分组48 3.5.5 解除分组48 3.5.6 .by参数49 3.5.7 练习题50 3.6 案例研究:聚合与样本量51 3.7 小结53 第4章 工作流:代码风格54 4.1 命名55 4.2 空格55 4.3 管道56 4.4 ggplot257 4.5 分节注释58 4.6 练习题58 4.7 小结59 第5章 数据整理60 5.1 引言60 5.2 整洁数据61 5.3 转换为长数据63 5.3.1 列名中包含变量值64 5.3.2 转换为长数据是如何实现的67 5.3.3 列名中包含多个变量值68 5.3.4 列名中包含变量值和变量名70 5.4 转换为宽数据71 5.5 小结75 第6章 工作流:脚本和项目76 6.1 脚本76 6.1.1 运行代码77 6.1.2 RStudio诊断78 6.1.3 保存与命名78 6.2 项目79 6.2.1 分析的真实源头是什么80 6.2.2 如何存放分析项目81 6.2.3 RStudio项目81 6.2.4 相对路径与绝对路径83 6.3 练习题83 6.4 小结84 第7章 数据导入85 7.1 引言85 7.2 从文件中读取数据85 7.2.1 实用建议86 7.2.2 其他参数88 7.2.3 其他文件类型90 7.2.4 练习题90 7.3 控制列类型91 7.3.1 猜测类型91 7.3.2 缺失值、列类型与问题92 7.3.3 列类型93 7.4 从多个文件中读取数据94 7.5 写入文件95 7.6 数据录入96 7.7 小结97 第8章 工作流:获取帮助98 8.1 Google是良师益友98 8.2 创建最小可复现示例98 8.3 投资自己100 8.4 小结100 第二部分 可视化 第9章 图层103 9.1 引言103 9.2 美学映射104 9.3 几何对象107 9.4 分面113 9.5 统计变换115 9.6 位置调整119 9.7 坐标系124 9.8 分层图形语法125 9.9 小结126 第10章 探索性数据分析127 10.1 引言127 10.2 问题128 10.3 变动128 10.3.1 正常的取值129 10.3.2 异常的取值130 10.3.3 练习题132 10.4 异常的取值133 10.5 协变135 10.5.1 分类变量和数值变量135 10.5.2 两个分类变量139 10.5.3 两个数值变量141 10.6 模式和模型144 10.7 小结146 第11章 呈现147 11.1 引言147 11.2 标签148 11.3 标注150 11.4 标度155 11.4.1 默认标度155 11.4.2 坐标轴刻度和图例标签155 11.4.3 图例布局158 11.4.4 替换标度160 11.4.5 缩放165 11.4.6 练习题167 11.5 主题168 11.6 布局171 11.7 小结174 第三部分 变换 第12章 逻辑向量177 12.1 引言177 12.2 比较178 12.2.1 浮点数比较179 12.2.2 缺失值179 12.2.3 is.na()180 12.2.4 练习题181 12.3 布尔运算181 12.3.1 缺失值182 12.3.2 运算符优先级182 12.3.3 %in%183 12.3.4 练习题184 12.4 汇总函数184 12.4.1 逻辑汇总184 12.4.2 逻辑向量的数值汇总185 12.4.3 逻辑子集185 12.4.4 练习题186 12.5 条件变换187 12.5.1 if_else()187 12.5.2 case_when()188 12.5.3 兼容类型189 12.5.4 练习题190 12.6 小结190 第13章 数值191 13.1 引言191 13.2 生成数值191 13.3 计数192 13.4 数值变换194 13.4.1 算术和循环补齐规则194 13.4.2 最小值和最大值196 13.4.3 模运算196 13.4.4 对数函数198 13.4.5 四舍五入198 13.4.6 将数值切割成范围数据199 13.4.7 累积与滚动聚合200 13.4.8 练习题200 13.5 一般变换200 13.5.1 排名200 13.5.2 偏移201 13.5.3 连续分组标识202 13.5.4 练习题203 13.6 数值汇总函数204 13.6.1 中心204 13.6.2 最小值、最大值和分位数205 13.6.3 分散度206 13.6.4 分布206 13.6.5 位置208 13.6.6 使用mutate()209 13.6.7 练习题209 13.7 小结209 第14章 字符串210 14.1 引言210 14.2 创建字符串211 14.2.1 转义211 14.2.2 原始字符串212 14.2.3 其他特殊字符212 14.2.4 练习题213 14.3 创建多个字符串213 14.3.1 str_c()213 14.3.2 str_glue()214 14.3.3 str_flatten()214 14.3.4 练习题215 14.4 从字符串中提取数据215 14.4.1 拆分为多行216 14.4.2 拆分为多列217 14.4.3 诊断变宽问题218 14.5 字母220 14.5.1 长度220 14.5.2 子集221 14.5.3 练习题222 14.6 非英语文本222 14.6.1 编码222 14.6.2 字母变体224 14.6.3 依赖区域设置的函数224 14.7 小结225 第15章 正则表达式226 15.1 引言226 15.2 模式基础227 15.3 关键函数229 15.3.1 检测匹配229 15.3.2 计算匹配次数230 15.3.3 修改匹配项231 15.3.4 提取变量232 15.3.5 练习题233 15.4 模式细节233 15.4.1 转义233 15.4.2 锚点234 15.4.3 字符类235 15.4.4 量词236 15.4.5 运算符优先级和括号237 15.4.6 分组和捕获237 15.4.7 练习题239 15.5 模式控制239 15.5.1 正则表达式标志239 15.5.2 固定匹配241 15.6 实践241 15.6.1 检查当前工作241 15.6.2 布尔运算242 15.6.3 使用代码创建模式244 15.6.4 练习题245 15.7 正则表达式的其他使用场景245 15.7.1 tidyverse245 15.7.2 基础R246 15.8 小结246 第16章 因子247 16.1 引言247 16.2 因子基础247 16.3 综合社会调查249 16.4 修改因子顺序250 16.5 修改因子水平254 16.6 有序因子257 16.7 小结257 第17章 日期和时间258 17.1 引言258 17.2 创建日期/时间259 17.2.1 导入过程259 17.2.2 从字符串中提取261 17.2.3 从多列组件创建262 17.2.4 从其他类型转换264 17.2.5 练习题264 17.3 日期时间组件265 17.3.1 获取组件265 17.3.2 取整268 17.3.3 修改组件270 17.3.4 练习题271 17.4 时间跨度271 17.4.1 持续时间271 17.4.2 时段273 17.4.3 区间274 17.4.4 练习题275 17.5 时区275 17.6 小结277 第18章 缺失值278 18.1 引言278 18.2 显式缺失值278 18.2.1 末次观测值前推278 18.2.2 固定值279 18.2.3 NaN279 18.3 隐式缺失值280 18.3.1 长宽数据转换280 18.3.2 补全281 18.3.3 连接282 18.3.4 练习题282 18.4 因子和空组282 18.5 小结285 第19章 连接286 19.1 引言286 19.2 键286 19.2.1 主键和外键287 19.2.2 检查主键289 19.2.3 代理键289 19.2.4 练习题290 19.3 基本连接291 19.3.1 修改连接291 19.3.2 指定连接键293 19.3.3 过滤连接294 19.3.4 练习题296 19.4 连接是如何工作的296 19.4.1 行匹配299 19.4.2 过滤连接300 19.5 非等值连接301 19.5.1 交叉连接302 19.5.2 不等连接303 19.5.3 滚动连接304 19.5.4 重叠连接305 19.5.5 练习题306 19.6 小结307 第四部分 导入 第20章 电子表格311 20.1 引言311 20.2 Excel311 20.2.1 准备工作311 20.2.2 入门312 20.2.3 读取Excel312 20.2.4 读取工作表315 20.2.5 读取工作表的一部分317 20.2.6 数据类型318 20.2.7 写入Excel319 20.2.8 格式化输出320 20.2.9 练习题321 20.3 Google表格323 20.3.1 准备工作323 20.3.2 入门323 20.3.3 读取Google表格324 20.3.4 写入Google表格326 20.3.5 身份验证326 20.3.6 练习题326 20.4 小结327 第21章 数据库328 21.1 引言328 21.2 数据库基础329 21.3 连接到数据库329 21.3.1 本书的选择330 21.3.2 加载一些数据330 21.3.3 DBI基础331 21.4 dbplyr基础332 21.5 SQL333 21.5.1 SQL基础334 21.5.2 SELECT335 21.5.3 FROM336 21.5.4 GROUP BY336 21.5.5 WHERE337 21.5.6 ORDER BY338 21.5.7 子查询339 21.5.8 连接339 21.5.9 其他动词340 21.5.10 练习题340 21.6 函数翻译341 21.7 小结343 第22章 arrow344 22.1 引言344 22.2 获取数据345 22.3 查看数据345 22.4 Parquet格式346 22.4.1 Parquet的优势347 22.4.2 分区347 22.4.3 重写西雅图公共图书馆数据347 22.5 使用dplyr和arrow348 22.5.1 性能349 22.5.2 其他优势350 22.6 小结350 第23章 层级数据351 23.1 引言351 23.2 列表351 23.2.1 层级结构352 23.2.2 列表列354 23.3 展开356 23.3.1 unnest_wider()356 23.3.2 unnest_longer()357 23.3.3 不一致的类型357 23.3.4 其他函数358 23.3.5 练习题358 23.4 案例研究359 23.4.1 非常宽的数据359 23.4.2 关系数据361 23.4.3 深层嵌套的数据363 23.4.4 练习题366 23.5 JSON367 23.5.1 数据类型367 23.5.2 jsonlite367 23.5.3 开始矩形化过程368 23.5.4 练习题369 23.6 小结370 第24章 网页爬取371 24.1 引言371 24.2 网页爬取的伦理和法律问题372 24.2.1 服务条款372 24.2.2 个人可识别信息372 24.2.3 版权373 24.3 HTML基础知识373 24.3.1 元素374 24.3.2 属性374 24.4 提取数据374 24.4.1 定位元素375 24.4.2 嵌套选择376 24.4.3 文本和属性377 24.4.4 表格378 24.5 写出正确的选择器378 24.6 整合运用379 24.6.1 星球大战379 24.6.2 IMDb最佳电影381 24.7 动态网页383 24.8 小结384 第五部分 编程 第25章 函数387 25.1 引言387 25.2 向量函数388 25.2.1 编写函数388 25.2.2 改进函数390 25.2.3 修改函数390 25.2.4 汇总函数391 25.2.5 练习题392 25.3 数据框函数393 25.3.1 间接引用与整洁求值393 25.3.2 何时使用间接引用394 25.3.3 常用范例395 25.3.4 数据屏蔽与整洁选择397 25.3.5 练习题398 25.4 图形函数399 25.4.1 更多变量400 25.4.2 结合其他tidyverse函数402 25.4.3 添加标签403 25.4.4 练习题404 25.5 编程风格404 25.6 小结406 第26章 迭代407 26.1 引言407 26.2 修改多列408 26.2.1 使用.cols选择列408 26.2.2 调用单个函数409 26.2.3 调用多个函数410 26.2.4 列名411 26.2.5 筛选行412 26.2.6 在函数中使用across()413 26.2.7 across()与pivot_longer()414 26.2.8 练习题416 26.3 批量读取文件416 26.3.1 列出目录中的文件417 26.3.2 结果列表417 26.3.3 purrr::map()与list_rbind()418 26.3.4 路径中的数据419 26.3.5 保存结果421 26.3.6 多次简单迭代421 26.3.7 异质数据422 26.3.8 处理失败情况423 26.4 批量保存结果424 26.4.1 写入数据库424 26.4.2 写入多个CSV文件426 26.4.3 保存图形427 26.5 小结428 第27章 基础R应用指南429 27.1 引言429 27.2 用[取子集430 27.2.1 对向量取子集430 27.2.2 对数据框取子集431 27.2.3 dplyr中的等同操作432 27.2.4 练习题433 27.3 用$和[[取内容433 27.3.1 对于data.frame433 27.3.2 对于tibble434 27.3.3 对于列表435 27.3.4 练习题436 27.4 apply函数族436 27.5 for循环438 27.6 基础绘图439 27.7 小结440 第六部分 交流 第28章 Quarto443 28.1 引言443 28.2 Quarto基础444 28.3 可视化编辑模式447 28.4 源码编辑模式449 28.5 代码块450 28.5.1 代码块标签451 28.5.2 代码块选项452 28.5.3 全局选项453 28.5.4 行内代码453 28.5.5 练习题454 28.6 图像454 28.6.1 图像大小调整454 28.6.2 其他重要选项456 28.6.3 练习题456 28.7 表格457 28.8 缓存458 28.9 错误调试459 28.10 YAML头460 28.10.1 自包含文档460 28.10.2 参数460 28.10.3 引用和参考文献461 28.11 工作流462 28.12 小结463 第29章 Quarto格式465 29.1 引言465 29.2 输出选项465 29.3 文档466 29.4 演示文稿467 29.5 交互性467 29.5.1 htmlwidgets467 29.5.2 Shiny468 29.6 网站和图书469 29.7 其他格式470 29.8 小结471
|
|