《数据科学与大数据技术导论》 - 陈明 - Meg Book Store - 香港.大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書

『簡體書』数据科学与大数据技术导论

書城自編碼： 3644455
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：陈明
國際書號(ISBN)： 9787302566762
出版社：清华大学出版社
出版日期： 2021-06-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 73.8

我要買件

** 我創建的書架 **
未登入.

新書推薦：

犯罪心理X档案：法医精神科医生真实办案手记（第一季）法医精神科医师心理解剖手记

《犯罪心理X档案：法医精神科医生真实办案手记（第一季）法医精神科医师心理解剖手记》
售價：HK$ 57.6

台湾农业产业发展研究

《台湾农业产业发展研究》
售價：HK$ 117.6

流风回雪：六朝名士的庙堂与山林（论衡系列）

《流风回雪：六朝名士的庙堂与山林（论衡系列）》
售價：HK$ 81.6

妈妈，我想为自己而活

《妈妈，我想为自己而活》
售價：HK$ 69.6

再造大唐：郭子仪评传

《再造大唐：郭子仪评传》
售價：HK$ 93.6

人性的博弈：为什么做个好人这么难

《人性的博弈：为什么做个好人这么难》
售價：HK$ 81.6

不完美的自我：接纳与放手，让自己活得更有韧性

《不完美的自我：接纳与放手，让自己活得更有韧性》
售價：HK$ 70.8

苏菲的世界（漫画版）：寻找自我的旅程

《苏菲的世界（漫画版）：寻找自我的旅程》
售價：HK$ 94.8

建議一齊購買：

+

HK$ 80.7
《 Java程序设计教程——基于华为云DevCloud 》

+

HK$ 55.4
《三维GIS建模技术》

+

HK$ 66.3
《汽车专业英语》

+

HK$ 87.0
《 Web系统开发与实践（高等院校信息技术规划教材）》

+

HK$ 144.6
《 C#.NET企业级项目开发教程（高等院校信息技术规划教材）》

編輯推薦：

本书主要介绍大数据的基本概念和技术，是数据科学与大数据专业的门专业基础教材。

內容簡介：

大数据技术凝集了多学科的研究成果，是一门多学科的交叉融合技术。随着科学技术的发展，大数据技术发展更为迅速，应用更为深入与广泛，并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。本书主要介绍数据科学与大数据技术的基本知识。全书共分11章，包括数据科学与大数据技术概述、Hadoop大数据处理平台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。本书语言精练，内容完整，案例丰富，可作为高等院校“数据科学与大数据技术导论”课程的教材，也可作为学习数据科学与大数据技术人员的参考书。

關於作者：

教授，博士生导师。研究领域为分布计算、计算智能、大数据技术等。中国石油大学（北京）计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。

目錄：

第1章数据科学与大数据技术概述/1
知识结构1
1.1数据科学简介1
1.1.1数据科学的产生与发展1
1.1.2数据科学的定义与方法2
1.1.3数据科学的知识体系6
1.1.4数据科学、数据技术与数据工程7
1.2大数据的生态环境与概念8
1.2.1大数据的生态环境8
1.2.2大数据的概念9
1.3大数据处理周期12
1.3.1大数据处理的全过程12
1.3.2大数据技术的特征13
1.4大数据处理模式13
1.4.1离线处理模式14
1.4.2在线处理模式14
1.4.3交互处理模式19
1.5科学研究第四范式19
1.5.1科学研究范式产生与发展19
1.5.2数据密集型科学研究第四范式20
1.6大数据应用25
1.6.1大数据应用趋势25
1.6.2大数据应用评价与应用实例26
本章小结28
第2章Hadoop大数据处理ping台/29
知识结构29
2.1MapReduce分布编程模型29
2.1.1MapReduce计算过程30
2.1.2基于MapReduce的计算举例30数据科学与大数据技术导论目录2.2基于Hadoop的分布计算30
2.2.1作业服务器31
2.2.2计算流程31
2.2.3MapReduce程序的执行过程33
2.3MapReduce程序设计分析35
2.3.1MapReduce模型编程方法35
2.3.2单词计数程序设计36
2.4YARN大数据处理ping台40
2.4.1Hadoop 1.0版本的缺点40
2.4.2轻量级弹性计算ping台41
2.4.3基本概念与术语42
2.4.4MapReduce框架43
2.4.5编程模型44
2.4.6YARN基本架构与工作流程45
2.5Spark大数据处理框架48
2.5.1Spark的主要特点48
2.5.2软件栈48
2.5.3核心概念50
2.5.4RDD51
本章小结58
第3章大数据采集与存储管理/59
知识结构59
3.1大数据采集概述59
3.1.1大数据采集的定义与特点60
3.1.2大数据采集的挑战60
3.1.3传统数据采集与大数据采集的比较61
3.2大数据采集的方法61
3.2.1传感器采集数据61
3.2.2系统日志采集62
3.2.3数据库采集系统62
3.2.4网页数据采集62
3.3大数据存储架构与系统79
3.3.1数据层79
3.3.2分布式文件系统80
3.4基于大数据的数据库系统82
3.4.1大数据存储管理技术82
3.4.2大数据库83
3.4.3大数据存储管理的核心算法88
3.5HBase数据库94
3.5.1HBase概述94
3.5.2HBase的数据模型97
3.5.3HBase的逻辑实体98
3.5.4HBase的工作原理100
3.6Hive数据仓库100
3.6.1Hive主要功能101
3.6.2Hive的数据单元与数据类型101
3.6.3Hive的特性102
3.6.4Hive应用举例102
3.6.5HBase与Hive的比较102
本章小结103
第4章大数据抽取/104
知识结构104
4.1大数据抽取概述105
4.1.1数据抽取的定义105
4.1.2数据抽取程序105
4.1.3数据抽取方式106
4.2增量数据抽取技术106
4.2.1增量数据抽取的特点与策略106
4.2.2基于时间戳的增量数据抽取方式107
4.2.3全表比对抽取方法107
4.3数据源109
4.3.1公开数据库109
4.3.2利用网络爬虫获得数据110
4.3.3数据交易ping台110
4.3.4网络指数110
4.4基于Hadoopping台的大数据抽取110
4.4.1将数据导入Hadoopping台110
4.4.2将数据从CSV文件导入Hive表111
4.4.3将关系数据导入HDFS的方法114
4.4.4CSV文件的读取和写入119
4.4.5Flume获取日志文件123
4.5大数据抽取的应用126
4.5.1应用实例126
4.5.2非关系数据库中的数据抽取软件简介126
本章小结128
第5章大数据清洗/129
知识结构129
5.1数据质量与数据清洗129
5.1.1数据质量129
5.1.2数据质量提高技术132
5.1.3数据清洗算法的标准135
5.1.4数据清洗的过程与模型136
5.2不完整数据清洗136
5.2.1基本方法136
5.2.2基于kNN近邻缺失数据的填充算法138
5.3异常数据清洗140
5.3.1异常值的检测141
5.3.2统计学方法141
5.3.3基于邻近度的离群点检测145
5.4重复数据清洗146
5.4.1使用字段相似度识别重复值算法146
5.4.2快速去重算法147
5.5文本清洗149
5.5.1字符串匹配算法149
5.5.2文本相似度度量方法153
5.6数据清洗的实现157
5.6.1数据清洗的步骤157
5.6.2数据清洗程序158
本章小结160
第6章数据转换/161
知识结构161
6.1基本的数据转换161
6.1.1对数转换161
6.1.2ping方根转换163
6.1.3ping方转换163
6.1.4倒数变换163
6.2数据ping滑163
6.2.1移动ping均法164
6.2.2指数ping滑法166
6.2.3分箱ping滑法171
6.3数据规范化172
6.3.1#小#大规范化方法173
6.3.2z分数规范化方法173
6.3.3小数定标规范化方法174
6.3.4数据规范化程序174
本章小结176
第7章大数据约简/177
知识结构177
7.1特征约简178
7.1.1特征构造178
7.1.2特征提取179
7.1.3特征选择180
7.2样本约简187
7.2.1随机抽样187
7.2.2系统抽样187
7.2.3分层抽样187
7.3数据立方体188
7.3.1多维数据模型188
7.3.2多维数据模型的模式190
7.3.3数据立方体聚集191
7.4属性子集选择算法192
7.4.1逐步向前选择属性193
7.4.2逐步向后删除属性193
7.4.3混合式选择193
7.4.4判定树归纳193
7.5数值约简194
7.5.1有参数值约简194
7.5.2无参数值约简195
7.6概念分层与数值离散化196
7.6.1概念分层196
7.6.2数值离散化方法198
本章小结202
第8章大数据集成/203
知识结构203
8.1数据集成技术概述203
8.1.1数据集成的概念与相关问题204
8.1.2数据集成的核心问题206
8.1.3数据集成的分类207
8.2数据迁移209
8.2.1在组织内部移动数据210
8.2.2非结构化数据集成211
8.2.3将处理移动到数据端212
8.3数据集成模式213
8.3.1联邦数据库集成模式213
8.3.2中间件集成模式214
8.3.3数据仓库集成模式215
8.4数据集成系统216
8.4.1全局模式217
8.4.2语义映射217
8.4.3查询重写218
8.5数据集成系统的构建218
8.5.1模式之间映射关系的生成218
8.5.2适应性查询219
8.5.3XML219
8.5.4P2P数据管理219
本章小结220
第9章大数据分析/221
知识结构221
9.1大数据分析概述221
9.1.1几种常用的大数据分析方法222
9.1.2数字特征223
9.1.3统计方法229
9.1.4常用的抽样组织形式230
9.2相关分析230
9.2.1相关系数231
9.2.2相关分析的任务231
9.2.3相关分析的过程232
9.3回归分析233
9.3.1回归分析过程233
9.3.2回归分析类型233
9.3.3回归模型与应用中的问题233
9.4判别分析234
9.4.1判别函数234
9.4.2判别分析方法235
9.5显著性检验238
9.5.1显著性检验的基本思想238
9.5.2检验步骤与检验方法239
9.6主成分分析240
9.6.1主成分分析原理240
9.6.2主成分分析方法举例240
9.6.3主成分分析Python程序243
本章小结246
第10章大数据挖掘/247
知识结构247
10.1大数据挖掘概述247
10.1.1数据统计分析与数据挖掘的主要区别248
10.1.2数据挖掘的定义与相关概念248
10.1.3数据挖掘的理论基础248
10.1.4基于数据存储方式的数据挖掘249
10.2关联规则251
10.2.1关联规则生成描述251
10.2.2频繁项目集生成算法252
10.3分类256
10.3.1分类的定义与典型的分类算法256
10.3.2分类的基本步骤258
10.3.3k近邻分类算法258
10.4聚类方法260
10.4.1聚类的概念260
10.4.2聚类算法的特点261
10.4.3聚类算法分类262
10.4.4距离与相似性的度量263
10.4.5划分聚类方法264
10.4.6层次聚类方法267
10.5序列模式268
10.5.1时间序列268
10.5.2时间序列挖掘的常用方法268
10.5.3序列模式挖掘269
10.6非结构化文本数据挖掘271
10.6.1用户反馈文本271
10.6.2用户反馈文本挖掘过程272
10.6.3文本的自然语言处理274
本章小结275
第11章数据可视化与可视分析/276
知识结构276
11.1数据可视化概述276
11.1.1数据可视化概念277
11.1.2感知与认知277
11.1.3可视化突出点与设计原则279
11.2大数据可视化工具与软件280
11.2.1Matplotlib简介281
11.2.2多图形和多坐标系284
11.2.3创建子图285
11.3绘制图形286
11.3.1折线绘制286
11.3.2散点图289
11.3.3泡泡图绘制290
11.3.4条形图绘制293
11.3.5直方图绘制295
11.3.6饼图绘制297
11.3.7轮廓图绘制300
11.3.8雷达图300
11.4大数据可视化302
11.4.1文本可视化302
11.4.2网络（图）可视化303
11.4.3时空数据可视化305
11.4.4多维数据可视化306
11.5大数据可视分析307
11.5.1可视分析的理论基础308
11.5.2大数据可视分析技术312
本章小结315
参考文献/316

內容試閱：

大数据技术的精髓是从大数据中产生新见解，识别复杂关系和做出越来越精准的预测。
大数据技术是现代科学与技术发展，尤其是计算机科学技术发展的重要成果和结晶，是计算机科学发展史的又一个新的里程碑。大数据的出现对计算机等许多领域产生了挑战与冲击，推动了计算机科学技术的发展。
大数据技术凝集了多学科的研究成果，是一门多学科交叉融合的技术。随着科学技术的发展，大数据技术发展更为迅速，应用更为深入与广泛，并凸显其巨大潜力和应用价值。
“数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。为此，本书内容的组织宽泛，以大数据技术为核心展开。从大数据的基本概念与特点到大数据处理平台(Hadoop、Spark)，从数据获取、清洗、抽取、约简、转换、集成、统计分析、挖掘，到获得结果的全过程都进行了介绍。学生通过上述内容的学习，可以为后续课程的学习奠定坚实的基础。
本书在内容方面，注重大数据技术的基本概念、模型、结构和方法的清晰描述。对主要的算法，如分类算法、聚类算法等典型重要的算法给出了形式化描述，并给出了Python代码。
本书在结构上为积木状，各章内容独立地进行概念性与方法性论述。出于篇幅考虑，书中所提及定理没有给出证明，如需要可以查阅相关文献。
由于作者水平有限，书中不足之处在所难免，敬请读者批评指正。
编者
2021年1月

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　大陸用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.