登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』R语言大数据分析

書城自編碼: 4068595
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 董东,高峰
國際書號(ISBN): 9787302677017
出版社: 清华大学出版社
出版日期: 2024-12-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 86.9

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
我很可爱,绝对可爱
《 我很可爱,绝对可爱 》

售價:HK$ 107.8
溺爱之罪
《 溺爱之罪 》

售價:HK$ 54.9
走出无力感 : 解锁生命力量的成长密码(跟随心理咨询师找回积极能量!)
《 走出无力感 : 解锁生命力量的成长密码(跟随心理咨询师找回积极能量!) 》

售價:HK$ 65.8
藩屏:明代藩王的艺术与权力(柯律格代表作,一部逆转“边缘”与“他者”的明代藩王物质文化史,填补研究空白)
《 藩屏:明代藩王的艺术与权力(柯律格代表作,一部逆转“边缘”与“他者”的明代藩王物质文化史,填补研究空白) 》

售價:HK$ 118.8
《史记》纵横新说
《 《史记》纵横新说 》

售價:HK$ 65.8
放不下的痛:运用脑科学修复创伤的40种方法(神经科学专家带你深入了解创伤背后的脑机制,开启全面康复之旅!)
《 放不下的痛:运用脑科学修复创伤的40种方法(神经科学专家带你深入了解创伤背后的脑机制,开启全面康复之旅!) 》

售價:HK$ 65.8
经典力学的数学方法(第4版)
《 经典力学的数学方法(第4版) 》

售價:HK$ 86.9
从鸦片战争到五四运动 跟随历史的足迹 见证一个民族的觉醒与抗争
《 从鸦片战争到五四运动 跟随历史的足迹 见证一个民族的觉醒与抗争 》

售價:HK$ 65.8

 

建議一齊購買:

+

HK$ 107.4
《普洱茶学》
+

HK$ 152.9
《现代医学仪器设计原理 》
+

HK$ 74.8
《农学概论(第二版)》
+

HK$ 75.9
《市场营销学(第8版·数字教材版)(高等学校经济管理类核心课程》
+

HK$ 65.8
《ECharts数据可视化》
+

HK$ 69.0
《乒乓球教学与训练(第6版)》
編輯推薦:
本书介绍基于R语言的大数据分析解决方案。可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。
內容簡介:
大数据分析包括查询型分析、描述性分析、探索性分析、挖掘型分析等。本书介绍基于R语言的大数据分析解决方案。全书分3篇共18章。第1篇R语言,包括第1~10章,分别为R语言概览、表达式、字符串与正规表达式、函数、向量、矩阵、数据框、列表、面向对象程序设计、数据存储;第2篇可视化,包括第11、12章,分别为统计绘图、图形文法ggplot2;第3篇数据分析,包括第13~18章,分别为数据分析基础、查询型分析与数据表、描述性统计与探索性分析、挖掘型分析、离群点检测、文本挖掘。
本书力求通俗易懂、简单实用,示例丰富,可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。
目錄
第1篇R语言
第1章R语言概览/31.1下载和安装R4
1.2安装和加载R程序包6
1.3R的基本使用7
1.4工作文件夹与工作空间10
1.5数据集12
第2章表达式/18
2.1字面量18
2.2运算符和表达式20
2.3日期时间23
第3章字符串与正规表达式/27
3.1字符串处理27
3.1.1字符个数27
3.1.2子串28
3.1.3拆分29
3.1.4连接30
3.1.5查找31
3.1.6替换31
3.1.7大小写转换32
3.1.8格式化32
3.2正规表达式33
第4章函数/37
4.1函数声明和调用37
4.2环境40
4.2.1环境的嵌套40
4.2.2访问环境42〖1〗R语言大数据分析目录〖3〗〖3〗4.2.3与函数相关的环境44
4.3控制结构46
第5章向量/51
5.1创建向量51
5.1.1枚举法51
5.1.2描述法52
5.1.3数列法53
5.1.4向量元素的命名54
5.1.5类型判断与类型转换54
5.2访问向量55
5.3算术运算57
5.4逻辑运算和关系运算60
5.5查询62
5.5.1条件查询62
5.5.2聚合查询63
5.6面向集合的查询66
5.7面向向量的程序设计67
5.8因子69
第6章矩阵/72
6.1创建矩阵72
6.2访问矩阵75
6.3矩阵运算77
第7章数据框/81
7.1创建数据框81
7.2访问数据框82
7.3tibble对象87
第8章列表/90
8.1创建列表90
8.2访问列表91
8.3泛函数93
第9章面向对象程序设计/102
9.1类的定义102
9.2静态属性104
9.3面向对象的R脚本设计107
第10章数据存储/113
10.1导入导出113
10.1.1函数read.table和write.table113
10.1.2函数read.csv和write.csv114
10.1.3函数readLines和writeLines116
10.1.4读取Excel工作表116
10.1.5ODBC数据源117
10.2持久化R数据对象119
10.3格式化输出120
10.4虚拟内存121
10.5操作文件和文件夹125
第2篇可视化
第11章统计绘图/13111.1绘图设备131
11.2布局133
11.3绘图函数135
11.4常用绘图参数145
11.5散点图148
11.6核密度图150
11.7箱线图151
11.8柱形图152
11.9饼图155
11.10直方图156
11.11折线图157
第12章图形文法ggplot2/158
12.1ggplot2简介158
12.2散点图170
12.3直方图175
12.4箱线图180
12.5柱形图182
12.6折线图187
12.7标注192
12.8统计变换197
12.9位置调整200
12.10尺度变换202
12.11切面212
12.12主题216
12.13色彩与构成217
12.13.1颜色与颜色的属性217
12.13.2色彩搭配218
12.14调色板218
12.15案例研究221
第3篇数 据 分 析
第13章数据分析基础/22913.1数据质量的度量229
13.2数据清洗变换230
13.2.1缺失值230
13.2.2重复232
13.2.3有效性233
13.2.4统计量233
13.3可视化234
13.4查询型大数据分析241
13.5探索性大数据分析242
13.6挖掘型大数据分析245
第14章查询型分析与数据表/247
14.1数据表247
14.2创建和引用数据表248
14.2.1创建数据表248
14.2.2引用数据表250
14.3查询数据表250
14.3.1按行号查询250
14.3.2条件查询251
14.3.3查询结果的类型252
14.3.4分组汇总254
14.3.5键和索引256
14.3.6应用只读变量查询258
14.3.7其他260
14.4去重263
14.5上卷266
14.6连接268
14.7集合运算271
14.8更新272
14.9行列变换276
第15章描述性统计与探索性分析/278
15.1总体与样本278
15.2概率分布280
15.3联合分布281
15.4可视化分布283
15.5样本平均数的分布285
15.6描述性统计287
15.6.1集中趋势287
15.6.2变异性287
15.7探索性数据分析292
15.7.1皮尔逊相关292
15.7.2斯皮尔曼等级相关297
15.7.3肯德尔相关299
15.8z分数301
15.9假设检验302
15.10卡方检验306
15.11抽样309
第16章挖掘型分析/312
16.1数据挖掘任务312
16.2决策树分类314
16.3朴素贝叶斯分类318
16.4K最近邻分类321
16.5一元线性回归324
16.6Logistic回归329
16.7分类算法的性能评估333
16.7.1查准率和查全率333
16.7.2ROC曲线334
16.8K均值聚类338
16.9EM聚类345
16.10Apriori关联规则347
16.11序列模式挖掘350
第17章离群点检测/354
17.1基于统计的检测356
17.2基于最近邻的方法360
17.3基于划分的算法361
17.3.1隔离森林算法362
17.3.2扩展的隔离森林算法364
17.4基于聚类的方法367
17.5多变量离群点检测371
17.6单变量离群点检测374
17.7贡献分析377
第18章文本挖掘/381
18.1文本挖掘简介381
18.2语篇分析382
18.3词嵌入383
18.4影评分类案例385
18.4.1基于词汇表的向量化386
18.4.2修剪词汇388
18.4.3Ngrams389
18.4.4特征哈希390
18.4.5变换DTM391
参考文献/392
內容試閱
大数据(big data)由极其宽泛的数据形成,体量大、流量大、多种多样、变化不定,需要可伸缩的体系结构以实现高效存储、操作和分析。简单来说,大数据就是体量超出了内存容量,甚至超出了本地磁盘容量的数据。
一个大数据分析项目由四个阶段组成: 数据收集(collection)、数据预处理(preparation)、数据分析(analysis)和行动(action)。数据收集是从数据源汇集数据的过程;数据预处理包括清洗、变换等;数据分析就是洞察数据,发现类别、规则、关联、相关、因果等知识;行动就是应用分析的结果为社会创造价值。
“分而治之”是解决复杂问题的基本策略。大数据分析是一个复杂问题。把大规模数据分解成N个小规模数据,得到N个分析结果,然后再把N个分析结果约简为一个综合的结果是大数据分析的一种范式。Hadoop生态系统实现了这种范式,提供了基于分布式文件系统的解决方案,并且算力能够无限线性叠加。但是,对于超出了内存限制但未超出磁盘容量限制的数据来说,需要更为廉价、方便、可移动的大数据分析解决方案。
同质并且成批收集的数据,称为“成块”(chunked)数据。大数据分析通常在一定的时间间隔(每年、每月、每天等)内按单独的数据文件从不同数据源收集数据,其累积的数据文件作为大数据分析的输入。
本书讨论面向成块数据的大数据分析解决方案,应用共享磁盘存储和虚拟内存技术解决数据“体量大”的问题,应用可扩展的R语言实现全生命周期的大数据分析。R是统计学专家和计算机科学与技术专家喜爱的计算机语言,也是一个开源免费的数据分析平台,其最大的优势在于可扩展性。几乎每天都有新的R扩展包加入R语言,这使得R语言途径的大数据分析成为众多的大数据分析解决方案之一。
本书受到教育考试院“十四五”规划支撑专项课题“互联网 ”环境中机考平台的设计与应用(批准号: NEEA2021064)的支持;并受到河北省教育厅教育发展专项“数字化背景下河北省青少年学生体质健康促进研究”(课题号: WTZX202421)的支持。
河北师范大学高峰博士参与了例题设计;河北师范大学刘志华教授审阅了第15章并提出了修改意见;河北师范大学2020级计算机技术专业硕士杨文浩、刘俊成、王志超等通读了全文并提出了修改意见。在此一并表示感谢。同时感谢我的家人对我的理解和支持。
董东
2024年5月于河北师范大学

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.