《Hadoop大数据实战权威指南》 - 黄东军 - Meg Book Store - 香港.大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書

『簡體書』Hadoop大数据实战权威指南

書城自編碼： 3022992
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：黄东军
國際書號(ISBN)： 9787121318214
出版社：电子工业出版社
出版日期： 2017-07-01
版次： 1 印次： 1
頁數/字數： 380/
書度/開本： 16开釘裝：平塑

售價：HK$ 98.6

我要買件

** 我創建的書架 **
未登入.

新書推薦：

示人以真：健康组织这样开展业务

《示人以真：健康组织这样开展业务》
售價：HK$ 82.8

格林童话：1812/1815初版合集（权威全译本）

《格林童话：1812/1815初版合集（权威全译本）》
售價：HK$ 117.6

思想会·军力：现代战争的胜败解释

《思想会·军力：现代战争的胜败解释》
售價：HK$ 117.6

边界之外：海外社会研究（第一辑）

《边界之外：海外社会研究（第一辑）》
售價：HK$ 82.8

好销售，不违心：在你的舒适区内拿订单

《好销售，不违心：在你的舒适区内拿订单》
售價：HK$ 70.8

阿富汗史：骑驰在风暴中的国度

《阿富汗史：骑驰在风暴中的国度》
售價：HK$ 117.6

背影2

《背影2 》
售價：HK$ 82.8

她的罪名

《她的罪名》
售價：HK$ 59.8

建議一齊購買：

+

HK$ 140.6
《 Python+Spark 2.0+Hadoop机器学习与大数据实战》

+

HK$ 143.6
《深入分布式缓存：从原理到实践》

+

HK$ 100.1
《 Hadoop+Spark生态系统操作与实战指南》

+

HK$ 187.1
《数据挖掘与分析概念与算法》

+

HK$ 214.6
《 Hadoop权威指南：大数据的存储与分析（第4版）》

+

HK$ 129.1
《 Hadoop构建数据仓库实践》

內容簡介：

大数据贵在落实！本书是一本讲解大数据实战的图书，按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇，*篇为大数据的基本概念和技术，主要介绍大数据的背景、发展及关键技术；第二篇为Hadoop大数据平台搭建与基本应用，内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等；第三篇为大数据处理与项目开发，包括交互式数据处理、协同过滤推荐系统、销售数据分析系统，并就*的部分销售数据应用大数据进行处理分析。

關於作者：

黄东军，男，教授，博士，博士生导师。毕业于中南大学计算机应用技术，先工作于中南大学信息科学与工程学院。中国计算机学会高级会员，教育部计算机科学与技术专业教学指导委员会"物联网工程专业教学研究专家组”成员。

目錄：

目录
第一篇大数据的基本概念和技术
第1章绪论3
1.1时代背景3
1.1.1全球大数据浪潮3
1.1.2我国的大数据国家战略5
1.2大数据的概念7
1.2.1概念7
1.2.2特征8
1.3技术支撑体系9
1.3.1概览9
1.3.2大数据采集层9
1.3.3大数据存储层10
1.3.4大数据分析（处理与服务）层11
1.3.5大数据应用层11
1.3.6垂直视图13
1.4大数据人才及其能力要求14
1.4.1首席数据官14
1.4.2数据科学家（数据分析师）15
1.4.3大数据开发工程师16
1.4.4大数据运维工程师17
1.5本章小结17
第2章Hadoop大数据关键技术19
2.1Hadoop生态系统19
2.1.1架构的基本理论19
2.1.2主要组件及其关系21
2.2数据采集24
2.2.1结构化数据采集工具24
2.2.2日志文件采集工具与技术25
2.3大数据存储技术29
2.3.1相关概念29
2.3.2分布式文件存储系统34
2.3.3数据库与数据仓库38
2.4分布式计算框架43
2.4.1离线计算框架43
2.4.2实时流计算平台50
2.5数据分析平台与工具57
2.5.1面向大数据的数据挖掘与分析工具57
2.5.2机器学习61
2.6本章小结66
第二篇Hadoop大数据平台搭建与基本应用
第3章Linux操作系统与集群搭建69
3.1Linux操作系统69
3.1.1概述69
3.1.2特点70
3.1.3Linux的组成72
3.2Linux安装与集群搭建75
3.2.1安装VMware Workstation75
3.2.2在VMware上安装Linux（CentOS7）79
3.3集群的配置91
3.3.1设置主机名91
3.3.2网络设置93
3.3.3关闭防火墙98
3.3.4安装JDK99
3.3.5免密钥登录配置102
3.4Linux基本命令105
3.5本章小结112
第4章HDFS安装与基本应用113
4.1HDFS概述113
4.1.1特点113
4.1.2主要组件与架构114
4.2HDFS架构分析114
4.2.1数据块114
4.2.2NameNode115
4.2.3DataNode116
4.2.4SecondaryNameNode117
4.2.5数据备份117
4.2.6通信协议118
4.2.7可靠性保证118
4.3文件操作过程分析119
4.3.1读文件119
4.3.2写文件120
4.3.3删除文件122
4.4Hadoop HDFS安装与配置122
4.4.1解压Hadoop安装包122
4.4.2配置Hadoop环境变量123
4.4.3配置Yarn环境变量124
4.4.4配置核心组件文件125
4.4.5配置文件系统125
4.4.6配置yarn-site.xml文件126
4.4.7配置MapReduce计算框架文件128
4.4.8配置Master的slaves文件129
4.4.9复制Master上的Hadoop到Slave节点129
4.5Hadoop集群的启动130
4.5.1配置操作系统环境变量130
4.5.2创建Hadoop数据目录131
4.5.3格式化文件系统132
4.5.4启动和关闭Hadoop133
4.5.5验证Hadoop是否启动成功133
4.6Hadoop集群的基本应用136
4.6.1HDFS基本命令136
4.6.2在Hadoop集群中运行程序139
4.7本章小结141
第5章MapReduce与Yarn143
5.1MapReduce程序的概念143
5.1.1基本编程模型143
5.1.2计算过程分析144
5.2深入理解Yarn147
5.2.1Yarn的基本架构147
5.2.2Yarn的工作流程151
5.3在Linux平台安装Eclipse152
5.3.1Eclipse简介153
5.3.2安装并启动Eclipse154
5.4开发MapReduce程序的基本方法155
5.4.1为Eclipse安装Hadoop插件156
5.4.2WordCount：第一个MapReduce程序160
5.5本章小结175
第6章Hive和HBase的安装与应用177
6.1在CentOS7下安装MySQL177
6.1.1下载或复制MySQL安装包177
6.1.2执行安装命令178
6.1.3启动MySQL179
6.1.4登录MySQL179
6.1.5使用MySQL181
6.1.6问题与解决办法182
6.2Hive安装与应用183
6.2.1下载并解压Hive安装包183
6.2.2配置Hive184
6.2.3启动并验证Hive187
6.2.4Hive的基本应用189
6.3ZooKeeper集群安装190
6.3.1ZooKeeper简介190
6.3.2安装ZooKeeper191
6.3.3配置ZooKeeper191
6.3.4启动和测试193
6.4HBase的安装与应用195
6.4.1解压并安装HBase195
6.4.2配置HBase196
6.4.3启动并验证HBase199
6.4.4HBase的基本应用200
6.4.5应用HBase中常见问题及其解决办法203
6.5本章小结204
第7章Sqoop和Kafka的安装与应用205
7.1安装部署Sqoop205
7.1.1下载或复制Sqoop安装包205
7.1.2解压并安装Sqoop206
7.1.3配置Sqoop206
7.1.4启动并验证Sqoop208
7.1.5测试Sqoop与MySQL的连接209
7.2安装部署Kafka集群211
7.2.1下载或复制Kafka安装包211
7.2.2解压缩Kafka安装包211
7.2.3配置Kafka集群211
7.2.4Kafka的初步应用213
7.3本章小结218
第8章Spark集群安装与开发环境配置219
8.1深入理解Spark219
8.1.1Spark系统架构219
8.1.2关键概念221
8.2安装与配置Scala224
8.2.1下载Scala安装包225
8.2.2安装Scala225
8.2.3启动并应用Scala226
8.3Spark集群的安装与配置226
8.3.1安装模式226
8.3.2Spark的安装227
8.3.3启动并验证Spark230
8.3.4几点说明234
8.4开发环境安装与配置236
8.4.1IDEA简介236
8.4.2IDEA的安装236
8.4.3IDEA的配置238
8.5本章小结243
第9章Spark应用基础245
9.1Spark程序的运行模式245
9.1.1Spark on Yarn-cluster245
9.1.2Spark on Yarn-client246
9.2Spark应用设计247
9.2.1分布式估算圆周率248
9.2.2基于Spark MLlib的贷款风险预测265
9.3本章小结285
第三篇数据处理与项目开发术
第10章交互式数据处理289
10.1数据预处理289
10.1.1查看数据289
10.1.2数据扩展291
10.1.3数据过滤292
10.1.4数据上传293
10.2创建数据仓库294
10.2.1创建Hive数据仓库的基本命令294
10.2.2创建Hive分区表296
10.3数据分析299
10.3.1基本统计299
10.3.2用户行为分析301
10.3.3实时数据303
10.4本章小结304
第11章协同过滤推荐系统305
11.1推荐算法概述305
11.1.1基于人口统计学的推荐305
11.1.2基于内容的推荐306
11.1.3协同过滤推荐307
11.2协同过滤推荐算法分析308
11.2.1基于用户的协同过滤推荐308
11.2.2基于物品的协同过滤推荐310
11.3Spark MLlib推荐算法应用312
11.3.1ALS算法原理312
11.3.2ALS的应用设计315
11.4本章小结329
第12章销售数据分析系统331
12.1数据采集331
12.1.1在Windows下安装JDK331
12.1.2在Windows下安装Eclipse334
12.1.3将WebCollector项目导入Eclipse335
12.1.4在Windows下安装MySQL336
12.1.5连接JDBC339
12.1.6运行爬虫程序340
12.2在HBase集群上准备数据342
12.2.1将数据导入到MySQL342
12.2.2将MySQL表中的数据导入到HBase表中344
12.3安装Phoenix中间件347
12.3.1Phoenix架构347
12.3.2解压安装Phoenix348
12.3.3Phoenix环境配置349
12.3.4使用Phoenix350
12.4基于Web的前端开发353
12.4.1将Web前端项目导入Eclipse353
12.4.2安装Tomcat355
12.4.3在Eclipse中配置Tomcat355
12.4.4在Web浏览器中查看执行结果359
12.5本章小结361

內容試閱：

前言
本书内容
本书分为三篇，共有12章。
（1）第一篇大数据的基本概念和技术
第1章绪论，描述大数据的时代背景与国家大数据战略，探讨大数据的概念和特性，重点阐述大数据支撑体系，包括数据采集、存储、分布式计算和应用，并讨论大数据人才特点与能力要求。
第2章 Hadoop大数据关键技术，详细介绍大数据系统涉及的主流技术，主要包括数据采集与生成、数据分布式存储、分布式计算框架、数据分析与挖掘等方面的技术和工具。
（2）第二篇 Hadoop大数据平台搭建与基本应用
第3章 Linux操作系统与集群搭建，介绍Linux集群的安装、Java开发包JDK的安装，以及集群的配置方法。
第4章 HDFS安装与基本应用，介绍Hadoop
HDFS的架构、工作原理，以及Hadoop安装、配置、启动和程序的运行。
第5章 MapReduce与YARN，介绍MapReduce的工作原理，描述MapReduceV2（也就是YARN）的架构和执行流程。本章重点介绍如何设计MapReduce程序，给出了在Eclipse中实现Java语言MapReduce程序的具体过程。
第6章 Hive和HBase的安装与应用，主要介绍Hive和HBase的安装配置和应用方法，同时也介绍MySQL和ZooKeeper的安装与应用。
第7章 Sqoop和Kafka，介绍Sqoop和Kafka组件的安装及其基本应用方法。
第8章 Spark集群安装与开发环境配置，介绍Spark架构及其工作原理，详细介绍Spark开发环境的安装与配置，包括热门的IntelliJ IDEA集成开发环境的安装与基本应用。
第9章 Spark应用基础，介绍Spark程序的运行模式和应用设计方法，通过编写计算圆周率Pi、基于随机森林模型的贷款风险预测Scala程序，展示了在集成开发环境IDEA中编写Spark程序的流程。
（3）第三篇大数据处理与项目开发
第10章交互式数据处理，介绍如何利用Hive进行大数据处理和分析。Hive是建立在Hadoop MapReduce基础上的数据仓库工具，用户借助SQL语句，可完成很多处理和分析，因此，对实际工作者有很大帮助。
第11章协同过滤推荐系统，介绍推荐算法的基本概念和应用，展示基于Spark的机器学库MLlib实现的协同推荐应用。
第12章销售数据分析系统，通过一个完整的销售数据分析系统设计，展示如何利用Hadoop的各种组件开发实际的大数据应用系统。本章运用到的组件包括HDFS、MySQL、Eclipse、Phoenix、HBase、WebCollector、Sevlet、Tomcat等，所展示的数据和应用均来自真实场景，对读者有较高参考价值。
本书特点
把原理、架构、运行流程分析与实际应用融合起来介绍，融合性阐述框架优于单纯的原理分析，因为原理最终要付诸应用。
本书高度重视实践能力的培养，对系统安装、配置和应用过程给出了十分详细的描述，所有实验都是基于实际完成的操作介绍的，并配有现场截图，为读者展示了真实、详尽、可重现的场景，十分方便读者自学和钻研。
与很多大数据技术书籍不同，本书突出了数据处理本身，深入介绍了如何运用技术进行实际的数据分析，所采用的数据样本来自生产一线，所展示的项目具有实用的参考价值，读者掌握这些技术之后，就可以开始进行项目开发了。
本书的读者群
本书十分适合初学者入门和进阶。
本书也可供那些已经学习过Hadoop组件技术，但希望全面、系统地理解并掌握实际应用的读者参考。
本书对从事大数据项目开发的专业人员也有参考价值，书中所描述的Hadoop组件应用中遇到的各种问题及其解决办法，十分实用。
本书特别适合自学，读者完全可以利用本书给出的资源和示例，一步一步地完成各项操作和应用，体验一种登堂入室的成就感。
致谢
感谢大数据时代，感谢开源社区，感谢Apache基金会，感谢Google，感谢所有关心和热爱大数据的人们！
作者在创作本书中借鉴了中科普开（北京）科技公司的部分培训资源，在此谨表示衷心的感谢。特别感谢中南大学郑瑾副教授，本书的部分内容使用了她编撰的书稿。由衷地感谢王建新教授、李建彬教授、张祖平教授，他们耐心地审阅了本书，提出了中肯的意见和建议。非常感谢电子工业出版社田宏峰编辑，他细心专业的工作方式，给作者留下深刻印象，并为本书的高质量印装提供了保障。
由于作者水平有限，本书的错误和疏漏在所难免，恳请广大读者提出宝贵意见和建议。联系邮箱：djhuang@csu.edu.cn。

作者
2017年5月于长沙

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　大陸用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.