登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』Hadoop海量数据处理+Spark性能优化实战(套装共2册)

書城自編碼: 4066350
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: 许政
國際書號(ISBN): 9000302002956
出版社: 清华大学出版社
出版日期: 2024-11-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 219.6

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
我们如何学习:学习与教学的科学方法      (西班牙)艾克托尔·鲁伊兹·马丁
《 我们如何学习:学习与教学的科学方法 (西班牙)艾克托尔·鲁伊兹·马丁 》

售價:HK$ 86.9
感受的力量--像艺术家一样观看
《 感受的力量--像艺术家一样观看 》

售價:HK$ 57.2
知宋·宋代之交通
《 知宋·宋代之交通 》

售價:HK$ 86.9
知宋·宋代之君主
《 知宋·宋代之君主 》

售價:HK$ 97.9
民国时期京剧名伶专集汇编(全4册)
《 民国时期京剧名伶专集汇编(全4册) 》

售價:HK$ 4378.0
量子力学 恩利克·费米
《 量子力学 恩利克·费米 》

售價:HK$ 52.8
银行业刑事风险防控与应对
《 银行业刑事风险防控与应对 》

售價:HK$ 96.8
语言、使用与认知
《 语言、使用与认知 》

售價:HK$ 69.3

 

建議一齊購買:

+

HK$ 108.9
《数据主权与治理模式辨析 中国科协创新战略研究院智库系列丛书》
+

HK$ 125.4
《MySQL是怎样运行的 从根儿上理解MySQL》
+

HK$ 65.7
《大数据可视化技术与应用-微课视频版》
+

HK$ 64.7
《SQL必知必会 第5版》
+

HK$ 157.4
《一本书讲透数据治理:战略 方法 工具与实践》
+

HK$ 186.3
《MySQL 5.7从入门到精通(视频教学版)(第2版)》
編輯推薦:
国内某一线大厂资深大数据架构师多年项目实战经验的总结,理论结合实践,深入剖析Hadoop海量数据处理的核心技术。
内容全面:全面涵盖Hadoop基础知识和Hadoop分布式文件系统(HDFS),以及MapReduce分布式编程框架和YARN资源调度器等内容,帮助读者全面掌握Hadoop海量数据处理的核心技术。
讲解深入:不仅系统地剖析Hadoop海量数据处理技术原理,还从代码层面深入地分析Hadoop系统的实现过程,并分析HDFS和MapReduce的每一步操作,帮助读者洞悉其工作机制与运行原理。
实用性强:讲解理论知识时穿插100多个典型示例,帮助读者深入理解Hadoop海量数据处理技术的精髓。另外,通过Hadoop高可用集群搭建和经典的统计TopN案例构建两个实战项目,帮助读者上手实践,从而提高实际项目开发水平。
适用面广:无论是Hadoop初学者,还是开发人员、数据分析人员、大数据工程师和数据科学家等相关从业人员,都可以从本书中获得需要的知识和技能。
前瞻性强:基于Hadoop 3.x版写作,内容新颖,技术前瞻,不但介绍纠删码和NameNode Federation联邦
內容簡介:
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。
《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。
《Hadoop海量数据处理》通俗易懂、案例丰富、实用性强,适合Hadoop初学者和进阶人员阅读,也适合大数据工程师、数据分析工程师和数据科学家等大数据技术从业人员和爱好者阅读,还适合作为高等院校和相关培训机构的大数据教材。
《Spark性能优化实战:突破性能瓶颈,遨游数据重洋》全面、系统、深入地介绍Apache Spark性能优化的相关技术和策略,涵盖从Spark性能优化的基础知识到核心技术,再到应用实践的方方面面。本书不但系统地介绍各种监控工具的使用,而且还结合实战案例,详细介绍Spark性能优化的各种经验和技巧,提升读者的实际应用技能。
《Spark性能优化实战:突破性能瓶颈,遨游数据重洋》共8章。第1章从性能优化的基本概念出发,介绍Spark的基础知识,并介绍如何进行性能优化;第2章介绍Spark性能优化的几个方面,包括程序设计优化、资源优化、网络通信优化和数据读写优化等;第3章深入介绍Spark任务执行过程优化;第4章介绍Spark SQL性能优化;第5章结合实战案例全面解析Spark性能优化的核心技术与应用;第6章详细介绍不同应用场景的性能优化策略;第7章介绍Spark集成Hadoop、Kafka和Elasticsearch使用时的性能优化,从而提供更实用的Spark性能提升方案;第8章介绍Spark应用程序开发与优化,以及集群管理实践。
《Spark性能优化实战:突破性能瓶颈,遨游数据重洋》内容丰富,讲解深入浅出,适合Apache Spark开发人员、数据工程师和数据科学家阅读,也适合需要处理大规模数据集和对Spark性能优化感兴趣的技术人员阅读,还可作为高等院校大数据专业的教材和相关培训机构的教学用书。
關於作者:
许政:毕业于哈尔滨工业大学,获硕士学位。现居深圳,任某一线大厂大数据架构师。参加工作以来,带领团队完成了多个百亿级大数据平台的建设。在实时计算方面有深厚的实践经验。熟悉多种大数据技术框架,如Hadoop、Spark、Flink、Elasticsearch、Kafka、HBase、ZooKeeper等。被CSDN评为优秀博主,撰写了大数据技术相关博文100余篇,博客访问量高达240多万。运维自己的独立博客网站。在大数据实时处理技术和人工智能算法方面有深入的研究,申请发明专利10余项。
谢雪葵: 资深研发工程师,CCF会员,阿诚网络创始人。有多年的软件设计和开发经验,专注于大数据技术与服务。近年来主持和参与多个大型银行和互联网公司的大数据项目,累积了丰富的大数据项目开发及性能优化经验。为多家企业提供技术支持,帮助其降低成本和提高效率。
目錄
第1篇 Hadoop基础知识
第1章 大数据概述 2
1.1 大数据简介 2
1.2 大数据的特点 2
1.3 大数据的发展前景 3
1.4 大数据技术生态体系 4
1.5 大数据部门的组织架构 6
1.6 小结 7
第2章 Hadoop概述 8
2.1 Hadoop简介 8
2.2 Hadoop的发展历史 8
2.3 Hadoop的三大发行版本 9
2.4 Hadoop的优势 10
2.5 Hadoop各版本之间的区别 10
2.6 Hadoop的组成 11
2.7 小结 14
第3章 Hadoop环境搭建与配置 15
3.1 搭建开发环境 15
3.2 配置本地运行模式 22
3.3 配置伪分布式模式 26
3.4 配置完全分布式模式 38
3.5 小结 52
第2篇 Hadoop分布式存储技术
第4章 HDFS概述 54
4.1 HDFS的背景和定义 54
4.2 HDFS的优缺点 55
4.3 HDFS的组成架构 56
4.4 设置HDFS文件块的大小 58
4.5 小结 59
第5章 HDFS基础操作 60
5.1 HDFS的Shell命令操作 60
5.2 HDFS的API调用操作 69
5.3 小结 79
第6章 HDFS的读写原理和工作机制 80
6.1 剖析HDFS的写数据流程 80
6.2 剖析HDFS的读数据流程 83
6.3 剖析NameNode和SecondaryNameNode 的工作机制 85
6.4 剖析DataNode 100
6.5 小结 112
第7章 Hadoop 3.x的新特性 113
7.1 纠删码技术 113
7.2 复制HDFS集群间的数据 116
7.3 解决海量小文件的存储问题 116
7.4 配置HDFS回收站 118
7.5 HDFS快照管理 121
7.6 小结 122
第3篇 MapReduce分布式编程框架
第8章 MapReduce概述 124
8.1 MapReduce的定义 124
8.2 MapReduce的优缺点 124
8.3 MapReduce的核心编程思想 126
8.4 官方的WordCount源码解析 128
8.5 小结 131
第9章 MapReduce开发基础 132
9.1 Hadoop的序列化概述 132
9.2 数据序列化的类型 132
9.3 如何开发MapReduce程序 143
9.4 小结 152
第10章 MapReduce框架的原理 153
10.1 InputFormat数据输入解析 153
10.2 解析MapReduce的工作流程 194
10.3 剖析Shuffle的工作机制 198
10.4 剖析MapTask的工作机制 247
10.5 剖析ReduceTask的工作机制 248
10.6 OutputFormat数据输出类详解 249
10.7 Join的多种应用 258
10.8 小结 277
第11章 MapReduce数据压缩 278
11.1 数据压缩概述 278
11.2 MapReduce支持的压缩编码器 278
11.3 选择压缩方式 279
11.4 配置压缩参数 281
11.5 压缩实战案例 281
11.6 小结 290
第12章 YARN资源调度器 291
12.1 解析YARN的基本架构 291
12.2 剖析YARN的工作机制 292
12.3 作业提交全过程 295
12.4 资源调度器的分类 296
12.5 任务的推测执行 298
12.6 小结 299
第13章 Hadoop企业级优化 300
13.1 HDFS优化 300
13.2 MapReduce优化 301
13.3 小结 304
第4篇 项目实战
第14章 Hadoop高可用集群搭建实战 306
14.1 HA高可用简介 306
14.2 HDFS-HA的工作机制 307
14.3 搭建HDFS-HA集群 310
14.4 搭建YARN-HA集群 320
14.5 小结 323
第15章 统计TopN经典项目案例实战 324
15.1 项目案例构建流程 324
15.2 小结 336

目 录
第1章 性能优化基础 1
1.1 Spark简介 1
1.2 什么是Spark性能优化 1
1.3 Spark应用程序性能指标 2
1.4 自带的Spark Web UI 5
1.5 自带的Spark历史服务器 21
1.6 Spark事件日志 23
1.7 Spark驱动程序日志 27
1.8 Spark Executor日志 28
1.9 Linux系统监控工具 31
1.10 JVM监控工具 36
1.11 第三方工具Prometheus 42
1.12 第三方工具Grafana 48
1.13 Spark性能测试与验证 56
1.14 Spark执行计划 77
1.15 Spark任务性能瓶颈的定位 94
第2章 Spark应用程序性能优化 107
2.1 程序设计优化 107
2.2 资源优化 118
2.3 网络通信优化 133
2.4 数据读写优化 147
第3章 Spark任务执行过程优化 169
3.1 调度优化 169
3.2 任务执行器优化 206
第4章 Spark SQL性能优化 223
4.1 常用的查询优化 223
4.2 Spark 3.0的新特性 236
4.3 Spark SQL数据倾斜优化 245
4.4 特定场景优化 259
第5章 Spark性能优化案例分析 281
5.1 基于Spark的短视频推荐系统性能优化 281
5.2 基于Spark的航空数据分析系统性能优化 297
第6章 不同场景的Spark性能优化 309
6.1 批处理模式的优化策略 309
6.2 流式处理场景的优化策略 327
第7章 Spark集成其他技术的
性能优化 333
7.1 Spark与Hadoop整合优化 333
7.2 Spark与Kafka整合优化 336
7.3 Spark与Elasticsearch的整合优化 339
第8章 Spark性能优化实践 344
8.1 Spark应用程序开发建议 344
8.2 Spark应用程序优化建议 349
8.3 Spark集群管理的优化建议 352
结束语 356
內容試閱
随着企业业务数据的日益增多,如何存储和分析海量数据成为每个企业急需解决的问题。Hadoop的出现使得企业仅用多台计算机便可组成分布式集群,对海量数据资源进行分布式存储和并行计算。这样不仅能够满足企业存储海量数据的需求,而且能够极大地提升并行处理数据的速度。
  在过去的10多年中,Hadoop经历了多个版本的更新迭代,逐渐变得成熟和稳定,其在大数据处理方面的性能也更加卓越。尤其随着Hadoop 3.x版的发布,其整个生态系统也愈加完善,很多企业基于Hadoop 3.x开发自己的大数据处理平台。
  Hadoop 3.x版对MapReduce进行了拆分,独立出一个资源调度模块YARN。拆分后,MapReduce只负责任务的计算,而YARN只负责资源的调度。这种机制大大降低了系统间的耦合性。另外,Hadoop 3.x版还增加了许多新特性:解决了海量小文件存储的问题;通过纠删码技术提高了磁盘的有效使用率;HDFS的快照管理功能解决了数据备份文件;Hadoop-HA的高可用机制保证了Hadoop集群的高可靠性和高容错性;NameNode Federation联邦机制解决了NameNode的横向扩展问题。
  为了帮助广大想要进入大数据领域的读者全面、系统地学习Hadoop,笔者结合自己多年的大数据项目开发经验编写了本书。本书基于Hadoop 3.2.2版写作,详解Hadoop海量数据处理技术的基本理论知识,并结合多个典型示例和两个项目实战案例带领读者实践,帮助读者更加全面、深入地理解Hadoop的运行原理和工作机制,从而能够在较短的时间里掌握Hadoop。
本书特色
* 内容全面:全面涵盖Hadoop的基础知识及其分布式文件系统(HDFS),以及MapReduce分布式编程框架和YARN资源调度器等内容,帮助读者全面掌握Hadoop海量数据处理的核心技术。
* 讲解深入:不仅系统地剖析Hadoop海量数据处理技术原理,还从代码层面深入地分析Hadoop系统的实现过程,并分析HDFS和MapReduce的每一步操作,帮助读者洞悉其工作机制与运行原理。
* 实用性强:讲解理论知识时穿插100多个典型示例,帮助读者深入理解Hadoop海量数据处理技术的精髓。另外,通过Hadoop高可用集群搭建和统计TopN经典项目案例两个项目,帮助读者上手实践,从而提高实际项目开发水平。
* 适用面广:无论是Hadoop初学者,还是开发人员、数据分析人员、大数据工程师和数据科学家等相关从业人员,都可以从本书中获得需要的知识和技能。
* 前瞻性强:基于Hadoop 3.2.2版写作,内容新颖,技术前瞻,不但介绍纠删码和NameNode Federation联邦机制等Hadoop 3.x的新特性,而且对比Hadoop不同版本之间的差异。
本书内容
  第1篇 Hadoop基础知识
  第1章主要介绍大数据的基本概念、特点、应用场景和生态体系等。
  第2章简要介绍Hadoop的基本概念、发展历史和主流发行版本,同时分析Hadoop的优势及其不同版本之间的区别。
  第3章从零开始搭建Hadoop开发环境,并介绍如何配置Hadoop分布式系统的3种运行模式。
  第2篇 Hadoop分布式存储技术
  第4章主要介绍Hadoop分布式文件系统(HDFS)的定义、产生背景、优缺点及其组成架构。
  第5章主要从Shell命令操作和API调用操作两个方面讲解HDFS的基本使用方法。
  第6章深入剖析HDFS的数据读写原理和工作机制,包括HDFS的写数据流程、HDFS的读数据流程、NameNode与Secondary NameNode的工作机制、DataNode的工作机制等。
  第7章主要介绍Hadoop 3.x的新特性,如纠删码技术、HDFS集群间的数据复制、海量小文件的存储、HDFS的配置、HDFS快照管理等。
  第3篇 MapReduce分布式编程框架
  第8章主要介绍MapReduce的定义、优缺点及其核心编程思想,并对官方的WordCount源码进行简单的解析。
  第9章主要介绍MapReduce开发的基础知识,包括Hadoop序列化、数据序列化类型和MapReduce的编码规范等。
  第10章深度剖析MapReduce的运行原理,涵盖InputFormat数据输入、MapReduce工作流程、Shuffle的工作机制、MapTask的工作机制、ReduceTask的工作机制、OutputFormat数据输出类详解和Join的多种应用等。
  第11章主要介绍MapReduce的数据压缩工作机制、几种数据压缩方式和压缩参数的配置,并详解3个数据压缩实战案例。
  第12章主要介绍YARN资源调度器的基本架构和工作机制、MapReduce作业提交全过程、资源调度器的分类和任务的推测执行等相关内容。
  第13章主要介绍Hadoop企业级优化的相关知识,包括HDFS优化和MapReduce优化。
  第4篇 项目实战
  第14章详细介绍如何搭建一个Hadoop高可用集群,并保证该集群能够7×24小时持续工作。
  第15章详细介绍如何构建经典的统计TopN案例,并通过MapReduce编程框架实现。
读者对象
* 大数据初学者;
* Hadoop入门与进阶人员;
* 想要提升海量数据处理性能的大数据从业人员;
* 大数据工程师、数据分析工程师和数据科学家;
* 需要作为大数据技术手册的人员;
* 对大数据感兴趣的技术人员;
* 高等院校相关专业的学生;
* 大数据培训班的学员。
配套资源获取
  本书提供的源代码和配套教学PPT有两种获取方式:一是关注微信公众号“方大卓越”,回复数字“27”获取下载链接;二是在清华大学出版社网站(www.tup.com.cn)上搜索本书,然后在本书页面上找到“资源下载”栏目,单击“网络资源”或“课件下载”按钮进行下载。
售后支持
  由于笔者水平所限,书中存在疏漏与不足在所难免,恳请广大读者批评与指正。读者在阅读本书的过程中若有疑问,可发送电子邮件到bookservice2008@163.com获取帮助。
致谢
  在过去的10多年中,Hadoop得到了人们广泛的关注,并取得了快速的发展,同时也经历了多个版本的更新迭代,诞生了三大发行版本,包括Apache、Cloudera和Hortonworks。这都得益于广大厂商和独立开发者的努力付出。在此首先感谢为Hadoop系统贡献源码的软件工作者!
  Hadoop的大规模应用促进了整个大数据生态圈的构建。该生态圈为很多中小企业和初创团队提供了一整套大数据解决方案。在此感谢为大数据生态圈构建而付出辛勤劳动的工作者!
  还要感谢清华大学出版社的相关工作人员!没有他们的努力,本书不会顺利出版。
  最后感谢我的家人、朋友和同事们!本书在编写的过程中得到了他们的大力支持。
  
  许政
  2024年4月

前 言
  随着大数据处理需求的日益增长,Apache Spark在大数据处理领域中的地位也在不断提升。Apache Spark因其高效的分布式计算能力、对大规模数据的处理能力和对各种数据处理任务(如批处理、流处理和机器学习等)的广泛支持而得到了广泛使用。
  为了进一步挖掘和利用Spark的潜力,对其进行性能优化是至关重要的。对Spark进行性能优化,不但可以大大提高应用程序的运行效率,提高系统的稳定性和可靠性,而且还可以减少资源的使用,从而降低运行成本。
  虽然Spark社区提供了许多性能优化的建议和技巧,但是对于许多开发人员和数据工程师而言,如何在实际项目中应用这些建议和技巧,尤其是如何根据特定的应用场景和需求进行性能优化,依然是一大挑战。
  基于此背景,笔者编写了本书。本书旨在全面、系统、深入地介绍Spark性能优化的核心技术,并结合实战案例,帮助读者理解并掌握Spark性能优化的各种技术和策略,从而更好地应对实际项目中性能优化的需求。
本书特色
* 内容全面:全面涵盖从Spark性能优化的基础知识到核心技术,再到应用实践的方方面面,对Spark性能优化进行全面、系统的探讨。
* 实用性强:不但介绍理论知识,而且结合实战案例全面解析Spark性能优化的核心技术与应用,帮助读者提高实际动手能力,从而在实际工作中能更好地实施优化策略。
* 适用面广:无论是初学Spark性能优化的人员,还是Spark开发人员、数据工程师和数据科学家等,都可以从本书中获得需要的知识和技能。
* 前瞻性强:基于Spark的新版本写作,不但介绍其新特性,而且介绍其集成Hadoop、Kafka和Elasticsearch使用时的性能优化方法,便于读者了解新技术的发展趋势。
* 讲解深入:对Spark性能优化的核心技术与工作原理进行深入讲解,以便让读者能够理解Spark的内部结构和运行机制,从而更有效地对其性能进行优化。
本书内容
  第1章性能优化基础,详细介绍Spark的基本概念、性能优化的意义,以及如何使用各
种工具监控和优化Spark的性能。
  第2章Spark应用程序性能优化,详细介绍Spark性能优化的几个方面,包括程序设计优化、资源优化、网络通信优化和数据读写优化等。
  第3章Spark任务执行过程优化,详细介绍如何对Spark的任务调度和执行过程进行优化,以提高任务执行的效率。
  第4章Spark SQL性能优化,详细介绍如何针对Spark SQL进行性能优化,包括常用的查询优化、Spark 3.0的新特性、数据倾斜优化和特定场景优化。
  第5章Spark性能优化案例分析,通过短视频推荐系统和航空数据分析系统的性能优化两个应用案例,详细介绍如何在实际项目中对Spark进行性能优化。
  第6章不同场景的Spark性能优化,详细介绍基于批处理、流式处理和机器学习场景的Spark性能优化策略。
  第7章Spark集成其他技术的性能优化,详细介绍Spark与Hadoop、Kafka和Elasticsearch整合使用时的性能优化方法,从而提供更实用的Spark性能提升方案。
  第8章Spark性能优化实践,详细介绍Spark应用程序开发和优化,以及Spark集群管理方面的实践,从而提高读者的实际动手能力。
读者对象
* Spark开发人员;
* 数据工程师和科学家;
* 大数据架构师;
* 对Spark性能优化感兴趣的人员;
* 高等院校的学生;
* 相关培训机构的学员。
配书资料获取
  本书涉及的源代码需要读者自行下载。请在清华大学出版社网站(www.tup.com.cn)上搜索到本书,然后在本书页面上找到“资源下载”模块,单击“网络资源”按钮即可进行下载;也可关注微信公众号“方大卓越”,回复“8”,即可获取下载链接。
致谢
  感谢在本书写作期间提供帮助的解莹和刘博老师!感谢清华大学出版社参与本书出版的所有人员!没有你们的精益求精,就没有本书的高质量出版!
售后支持
  由于笔者水平所限,加之写作时间仓促,书中可能会有一些疏漏和不足之处,敬请读者批评与指正。阅读本书时若有疑问,请发送电子邮件到bookservice2008@163.com,会有人定期解答。
  
  谢雪葵
  2023年10月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.