新書推薦:

《
好天气(茅盾文学奖得主苏童《黄雀记》后历时11年长篇新作)
》
售價:HK$
86.9

《
有兽焉.10
》
售價:HK$
65.8

《
人文传统一(“人文传统”系列丛书第七版,人文传统1:史前时期—中世纪,回溯人类文明的源头)
》
售價:HK$
140.8

《
西瓜船
》
售價:HK$
54.9

《
轻松阅读:如何高效阅读一本书
》
售價:HK$
65.8

《
帝都绘“图解世界文化遗产”三部曲(长城、中轴线、大运河)
》
售價:HK$
400.4

《
左岸译丛:袜子的哲学
》
售價:HK$
52.8

《
全球对话主义(第二版)
》
售價:HK$
107.8
|
編輯推薦: |
《Hadoop与Spark大数据全景解析:视频教学版》是一部深入探讨大数据、分布式计算和人工智能领域关键技术的书。通过专业的教学视频和一线开发经验,《Hadoop与Spark大数据全景解析:视频教学版》带领读者深入了解Hadoop、Spark和ChatGPT,帮助他们掌握实践技巧,提升数据处理能力,实现数据智能化应用。无论您是初学者还是资深专家,《Hadoop与Spark大数据全景解析:视频教学版》都将为您打开大数据与人工智能的新视野,助您把握未来发展趋势。精心编排的内容结构,浅显易懂的讲解方式,将使您获得丰富的学习收获。这本书将成为您学习与实践的得力伙伴,助您在技术领域腾飞。
|
內容簡介: |
《Hadoop与Spark大数据全景解析:视频教学版》结合作者多年在大数据领域的开发实践经验,采用“理论 实战”的形式,以大量实例全面介绍Hadoop和Spark的基础知识及其高级应用。作者将丰富的教学经验,融入为读者精心录制的配套教学视频中,并提供了书中所有实例的源码,方便读者学习和实践。
來源:香港大書城megBookStore,http://www.megbook.com.hk 《Hadoop与Spark大数据全景解析:视频教学版》分为4篇,共12章。第1篇(第1、2章)准备篇,主要介绍Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的学习环境。第2篇(第3~6章)入门篇,涵盖Hadoop的高级特性、Spark的基础知识与高级特性,以及大数据安全。第3篇(第7~10章)进阶篇,深入讲解数据采集与清洗、数据存储与管理、数据分析与挖掘以及实时数据处理。第4篇(第11、12章)项目实战篇,通过Hadoop和Spark实现一站式数据分析系统设计,以及ChatGPT赋能Hadoop与Spark大数据分析的项目实战。
《Hadoop与Spark大数据全景解析:视频教学版》内容全面、结构清晰、案例丰富,既适合初学者自学,也适合开发者阅读,还可作为培训机构和高校相关课程的教学参考书。
|
關於作者: |
邓 杰
计算机科学与技术专业学士,目前就职于vivo移动互联网公司,负责平台方向及A1大模型应用方向的开发。对Hadoop、Spark、Hive、Flink、Kafka等大数据生态组件有着深入的研究。AI大模型技术的实践者和研究者,撰写过多篇高质量Al和Hadoop与Spark相关技术的文章,著有《深入理解Hive:从基础到高阶》《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》等书籍。
|
目錄:
|
第1篇 准 备
第1章 了解Hadoop和Spark 2
1.1 什么是大数据处理 2
1.1.1 大数据概述 2
1.1.2 数据处理的挑战 4
1.2 为什么选择Hadoop和Spark 5
1.2.1 Hadoop的优势 5
1.2.2 Spark的优势 6
1.3 典型的大数据应用案例 8
1.3.1 行业应用案例 8
1.3.2 成功案例分析 10
1.4 Hadoop和Spark的设计理念 12
1.4.1 设计初衷 12
1.4.2 解读Hadoop和Spark的特性 13
1.5 本章小结 15
第2章 快速搭建Hadoop和Spark学习环境 16
2.1 Hadoop简介 16
2.1.1 起源与发展 16
2.1.2 核心组件介绍 17
2.2 基础环境的安装与配置 19
2.2.1 基础软件下载 19
2.2.2 实例:Linux操作系统的安装与配置 20
2.2.3 实例:SSH的安装与配置 22
2.2.4 实例:Java运行环境的安装与配置 24
2.2.5 实例:安装与配置Zookeeper 26
2.3 Hadoop和Spark环境搭建 30
2.3.1 实例:Hadoop环境搭建 31
2.3.2 实例:Spark环境搭建 46
2.4 Hadoop MapReduce基础 48
2.4.1 MapReduce编程模型之Map阶段 48
2.4.2 MapReduce编程模型之Reduce阶段 49
2.5 本章小结 51
2.6 习题 51
第2篇 入 门
第3章 Hadoop高级特性 54
3.1 HDFS架构深度解析 54
3.1.1 HDFS架构 54
3.1.2 数据块管理 56
3.1.3 命名空间 57
3.1.4 数据一致性 58
3.2 YARN调度器与资源管理 60
3.2.1 YARN基本原理 60
3.2.2 资源分配策略 62
3.3 Hadoop数据安全性 63
3.3.1 安全策略概述 64
3.3.2 Kerberos认证 65
3.4 Hadoop性能调优 68
3.4.1 集群性能监控 68
3.4.2 参数调优指南 69
3.5 Hadoop实战案例 71
3.5.1 实际问题解决 71
3.5.2 最佳实践分享 73
3.6 本章小结 77
3.7 习题 77
第4章 Spark基础特性 78
4.1 Spark简介 78
4.1.1 Spark发展历程 78
4.1.2 Spark核心思想 79
4.2 Spark核心组件 80
4.2.1 Spark Core 81
4.2.2 Spark SQL 83
4.3 Spark基本数据结构 85
4.3.1 RDD概述 85
4.3.2 DataFrame和DataSet介绍 88
4.4 内存管理 96
4.4.1 内存分配策略 96
4.4.2 内存回收机制 101
4.5 本章小结 104
4.6 习题 104
第5章 Spark高级特性 105
5.1 Spark SQL与结构化数据处理 105
5.1.1 使用Spark SQL进行数据查询和分析 105
5.1.2 Spark SQL数据类型与函数使用 109
5.2 Spark Streaming与实时数据处理 117
5.2.1 Spark Streaming的基本概念与架构 117
5.2.2 Spark Streaming与Kafka的集成与应用 122
5.3 Spark MLlib与机器学习 124
5.3.1 Spark MLlib的常用算法与应用场景 125
5.3.2 Spark MLlib与TensorFlow的比较与集成 132
5.4 Spark GraphX与图计算 134
5.4.1 图计算的基本概念与Spark GraphX的架构 134
5.4.2 Spark GraphX的常用算法与图数据处理 140
5.5 本章小结 147
5.6 习题 147
第6章 大数据安全 148
6.1 大数据安全性挑战 148
6.1.1 大数据安全的重要性 148
6.1.2 Hadoop与Spark安全特性 149
6.2 Hadoop安全架构 151
6.2.1 Hadoop安全模型 152
6.2.2 HDFS与YARN的安全机制 153
6.3 Spark安全实践 155
6.3.1 Spark的安全配置 155
6.3.2 Spark应用程序的访问控制 158
6.4 数据加密与隐私保护 164
6.5 身份认证与授权 174
6.6 本章小结 176
6.7 习题 176
第3篇 进 阶
第7章 数据采集与清洗 178
7.1 Hadoop数据采集 178
7.1.1 数据源与采集工具 178
7.1.2 Hadoop数据采集流程与案例 181
7.2 Spark数据采集 185
7.2.1 Spark数据源接入方式 185
7.2.2 Spark数据采集的实践与优化 193
7.3 Hadoop数据清洗 197
7.3.1 数据清洗的基本概念与策略 197
7.3.2 使用MapReduce进行数据清洗 198
7.4 Hadoop与Spark数据处理对比 202
7.5 本章小结 204
7.6 习题 204
第8章 数据存储与管理 205
8.1 大数据存储架构 205
8.1.1 存储架构的演变 205
8.1.2 存储架构选择指南 207
8.2 存储格式与压缩 214
8.2.1 数据格式比较 214
8.2.2 压缩算法分析 216
8.3 数据分区与分桶 217
8.3.1 数据分区 218
8.3.2 数据分桶 226
8.4 数据仓库设计 229
8.5 本章小结 231
8.6 习题 232
第9章 数据分析与挖掘 233
9.1 大数据分析 233
9.2 数据挖掘算法 237
9.2.1 数据挖掘算法的分类与应用场景 237
9.2.2 常见的大数据挖掘算法及其实现原理 239
9.3 特征工程 250
9.3.1 特征提取与构建 251
9.3.2 特征类型与数据分析方法 252
9.4 本章小结 256
9.5 习题 257
第10章 实时数据处理 258
10.1 实时处理概念 258
10.1.1 实时数据处理的定义 258
10.1.2 实时数据处理与批处理对比 260
10.2 Spark Streaming 262
10.2.1 DStream概述 263
10.2.2 实时数据处理模型 266
10.3 实时数据处理工具比较 271
10.3.1 Spark与Flink对比分析 271
10.3.2 Kafka实时计算引擎选型实践 275
10.4 本章小结 284
10.5 习题 284
第4篇 项 目 实 战
第11章 一站式数据分析系统设计与实现 286
11.1 大数据分析系统 286
11.1.1 大数据分析系统的价值 286
11.1.2 大数据分析系统的目的 287
11.1.3 大数据分析系统的应用场景 288
11.2 大数据分析系统架构 289
11.2.1 大数据分析系统的体系架构 289
11.2.2 设计大数据分析系统的核心模块 291
11.3 实现大数据分析系统 292
11.3.1 数据采集 292
11.3.2 数据存储 295
11.3.3 数据分析 302
11.3.4 数据服务 304
11.4 本章小结 306
11.5 习题 306
第12章 ChatGPT赋能Hadoop与Spark大数据分析 307
12.1 ChatGPT与大数据的智能融合探索 307
12.1.1 ChatGPT全面解析 307
12.1.2 ChatGPT在大数据分析中的角色 313
12.2 构建智能化的大数据处理引擎 316
12.2.1 ChatGPT与Spark的集成实现 316
12.2.2 ChatGPT与Spark应用案例分析 320
12.3 ChatGPT与Spark数据分析与挖掘实践 324
12.3.1 ChatGPT与Spark技术整合 324
12.3.2 ChatGPT在Spark数据分析中的应用 326
12.4 本章小结 328
12.5 习题 328
|
內容試閱:
|
在当今数据驱动的时代,随着大数据分析和人工智能技术的快速发展,企业和研究人员面临着前所未有的机遇与挑战。Hadoop和Spark作为大数据生态系统中的核心工具,分别为数据存储、处理与计算提供了强大且灵活的基础。同时,AI大模型作为智能分析的前沿技术,展现出卓越的预测、分类和模式识别能力。将Hadoop和Spark的分布式处理优势与AI的智能分析能力相结合,能够为企业和研究机构带来高效的数据分析方法,开辟全新的应用场景。
目前,企业和研究机构对大规模数据处理和实时分析的需求与日俱增。Hadoop和Spark的协同使用,为用户提供了高效、可扩展的数据处理和计算解决方案;AI技术则为数据挖掘和模式发现带来了智能化的交互方式。通过三者的结合应用,用户不仅能够高效处理海量数据,还能挖掘更深层次的数据洞察,从而显著提升决策的精准度和业务价值。
本书旨在帮助读者提升Hadoop和Spark在大数据领域的实战应用,并探索结合AI技术进行智能分析的多样化应用场景。通过丰富的实战案例和详尽的技术指南,读者将能深入理解如何有效融合大数据处理与智能分析技术,为业务创新和研究提供更强大的技术支持。
本书特色
1. 专业的教学视频
为帮助读者更好地掌握本书内容,作者为每个实战案例录制了教学视频。通过这些视频,读者可以更加轻松地学习和理解Hadoop与Spark的核心技术。作者曾在极客学院制作了多期大数据专题视频,广受好评。
2. 来自一线的开发经验与实战案例
本书的大部分代码和实例均源于作者多年积累的一线开发实践和技术分享经验。作为一名活跃的技术博主,作者在博客园等平台上发表了大量高质量的Hadoop和Spark技术文章。本书通过这些分享,帮助读者深入理解Hadoop和Spark的实际应用场景。
3. 通俗易懂的语言和循序渐进的知识体系
本书以通俗易懂的语言进行讲解,内容安排循序渐进。在介绍常见知识点时,还将Hadoop和Spark的操作命令与其他常用技术进行对比,帮助读者快速掌握核心要点。无论是初学者,还是有多年开发经验的程序员,都可以通过本书快速掌握Hadoop与Spark的关键技巧。
4. 内容全面,与时俱进
本书紧跟大数据与AI发展的最新趋势,结合作者在实际项目中的实践经验,深入探讨了Hadoop和Spark如何与AI技术结合。本书旨在帮助读者在大数据分析领域保持技术竞争力。
本书配套资源下载
本书配套资源包含本书源代码、PPT课件以及视频教学文件(请扫描正文中的二维码观看)。读者可以用微信扫描以下二维码下载。
源代码 PPT课件
如果下载有问题,请用电子邮件联系booksaga@126.com,邮件主题为“Hadoop与Spark大数据全景解析(视频教学版)”。
本书读者对象
Hadoop和Spark初学者。
编程初学者。
后端开发初学者。
前端转后端的开发人员。
熟悉Linux、Java并希望学习Hadoop和Spark的编程爱好者。
希望利用Hadoop和Spark结合AI大模型实现数据分析与挖掘的工程师。
大中专院校相关专业的学生。
鸣谢
感谢我的妻子对我的细心照顾与对琐事的包容,感谢父母的养育之恩,家人的支持与鼓励始终是我前行的动力。
同时,感谢出版社的编辑老师,他们一丝不苟、细致入微的审核和校对,使本书条理更加清晰,语言更加通俗易懂。在此表示由衷的感谢!
尽管本书在编写过程中倾注了作者大量心血,但因时间和水平有限,书中难免存在疏漏之处,敬请广大读者批评指正。
关于作者
邓杰 计算机科学与技术专业,现就职于维沃移动通信(深圳)有限公司,负责大数据方向及ChatGPT方向的开发。对Hadoop、Spark、Flink、Kafka、Hive等大数据生态组件有深入研究,并致力于ChatGPT大模型技术的实践和研究。已撰写多篇ChatGPT和大数据相关的高质量技术文章。另外,著有《深入理解Hive从基础到高阶》《Kafka并不难学》以及《Hadoop大数据挖掘从入门到进阶实战》。
作 者
2025年1月
|
|