登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』Flink大数据分析实战

書城自編碼: 3728068
分類:簡體書→大陸圖書→計算機/網絡程序設計
作者: 张伟洋
國際書號(ISBN): 9787302598183
出版社: 清华大学出版社
出版日期: 2022-02-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 111.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
正说清朝十二帝(修订珍藏版)
《 正说清朝十二帝(修订珍藏版) 》

售價:HK$ 105.6
黑海史:从历史涟漪到时代巨浪
《 黑海史:从历史涟漪到时代巨浪 》

售價:HK$ 115.2
楼边人似玉
《 楼边人似玉 》

售價:HK$ 56.2
我,毕加索
《 我,毕加索 》

售價:HK$ 60.0
投资真相
《 投资真相 》

售價:HK$ 81.6
非洲大陆简史(萤火虫书系)
《 非洲大陆简史(萤火虫书系) 》

售價:HK$ 93.6
和离:完结篇
《 和离:完结篇 》

售價:HK$ 63.4
知宋·宋代之军事
《 知宋·宋代之军事 》

售價:HK$ 94.8

 

建議一齊購買:

+

HK$ 121.2
《 HTML5从入门到精通(第3版) 》
+

HK$ 106.7
《 软件架构设计:大型网站技术架构与业务架构融合之道 》
+

HK$ 98.8
《 算法漫步 乐在其中的计算思维 》
+

HK$ 131.7
《 HTML5+CSS3+JavaScript从入门到精通(微视频精编版) 》
+

HK$ 129.1
《 MATLAB优化算法 》
+

HK$ 196.7
《 Java核心技术 卷II 高级特性(原书第11版) 》
編輯推薦:
Flink的基础知识,包括Flink应用场景、主要组件、编程模型等,通过单词计数示例带领读者快速体验Flink应用程序的编写。
Flink的多种运行时架构、任务调度原理、数据分区、Flink集群的安装部署,以及Flink命令行操作、应用程序提交、常用Shell命令等。
Flink流式计算DataStream API、关系型计算Table&SQL API、图计算框架Gelly等的基础知识和架构原理,以及API操作、内核源码剖析。
通过丰富的实际案例讲解了各个框架的具体应用以及与Hadoop生态系统框架Hive、Kafka的整合操作。
內容簡介:
本书由资深大数据专家精心编写,循序渐进地介绍了Flink生态系统主流的大数据开发技术。全书共7章,第1章讲解Flink的基础知识,包括Flink应用场景、主要组件、编程模型等,后通过一个单词计数示例带领读者快速体验Flink应用程序的编写;第2、3章讲解Flink的多种运行时架构、任务调度原理、数据分区以及Flink集群的安装部署,同时包括Flink命令行操作、应用程序提交、常用Shell命令等;第4~7章讲解了Flink流式计算DataStream API、关系型计算Table&SQL API以及图计算框架Gelly等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、Kafka的整合操作。 本书内容翔实,实例丰富,适合Flink新手、大数据开发人员阅读,也可作为培训机构和大专院校相关专业的教学用书。
關於作者:
张伟洋,大数据领域资深专家,拥有多年互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。先后多次为中国海洋大学、曲阜师范大学、青岛理工大学等高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有深入的研究。已出版《Hadoop大数据技术开发实战》《Spark大数据分析实战》等图书,公众号 “奋斗在IT” 的创办人。
目錄
第1章 初识Flink 1
1.1 大数据开发总体架构 1
1.2 什么是Flink 3
1.3 Flink的应用场景 5
1.4 流计算框架对比 6
1.5 Flink的主要组件 8
1.6 Flink编程模型 9
1.6.1 数据集 9
1.6.2 编程接口 11
1.6.3 程序结构 12
1.7 快速体验Flink程序 13
1.7.1 IntelliJ IDEA安装Scala插件 13
1.7.2 IntelliJ IDEA创建Flink项目 15
1.7.3 示例:批处理单词计数 17
1.7.4 示例:流处理单词计数 20
第2章 Flink运行架构及原理 23
2.1 Flink运行时架构 23
2.1.1 YARN集群架构 23
2.1.2 Flink Standalone架构 27
2.1.3 Flink On YARN的架构 29
2.2 Flink任务调度原理 30
2.2.1 任务链 30
2.2.2 并行度 31
2.2.3 共享Task Slot 32
2.2.4 数据流 33
2.2.5 执行图 34
2.2.6 执行计划 35
2.3 Flink数据分区 38
2.3.1 分区数量 38
2.3.2 分区策略 39
第3章 Flink安装及部署 41
3.1 Flink集群搭建 41
3.1.1 Flink本地模式搭建 42
3.1.2 Flink Standalone搭建 44
3.1.3 Flink On YARN搭建 46
3.2 Flink HA模式 54
3.2.1 Flink Standalone模式的HA
架构 55
3.2.2 Flink Standalone模式HA集群
搭建 56
3.2.3 Flink On YARN模式HA集群
搭建 60
3.3 Flink命令行界面 61
3.4 Flink应用提交 65
3.5 Flink Shell的使用 67
第4章 Flink DataStream API 72
4.1 基本概念 72
4.2 执行模式 73
4.3 作业流程 76
4.4 程序结构 77
4.5 Source数据源 79
4.5.1 基本数据源 79
4.5.2 高级数据源 81
4.5.3 自定义数据源 81
4.6 Transformation数据转换 85
4.7 Sink数据输出 97
4.8 数据类型与序列化 98
4.9 分区策略 100
4.9.1 内置分区策略 101
4.9.2 自定义分区策略 114
4.10 窗口计算 117
4.10.1 事件时间 117
4.10.2 窗口分类 118
4.10.3 窗口函数 124
4.10.4 触发器 133
4.10.5 清除器 134
4.11 水印 137
4.11.1 计算规则 138
4.11.2 允许延迟与侧道输出 140
4.11.3 生成策略 142
4.12 状态管理 147
4.12.1 Keyed State 149
4.12.2 Operator State 152
4.13 容错机制 156
4.13.1 Checkpoint 156
4.13.2 Barrier 162
4.13.3 重启与故障恢复策略 165
4.13.4 Savepoint 167
4.14 案例分析:计算5秒内输入的单词
数量 168
4.15 案例分析:统计5分钟内每个用户
产生的日志数量 170
4.16 案例分析:统计24小时内每个用户的
订单平均消费额 173
4.17 案例分析:计算5秒内每个信号灯
通过的汽车数量 177
4.18 案例分析:Flink整合Kafka计算
实时单词数量 183
4.19 案例分析:天猫双十一实时交易额
统计 188
4.19.1 创建自定义数据源 188
4.19.2 计算各个分类的订单总额 189
4.19.3 计算全网销售总额与
分类Top3 192
第5章 Flink Table API&SQL 196
5.1 基本概念 196
5.1.1 计划器 197
5.1.2 API架构 197
5.1.3 程序结构 199
5.2 动态表 200
5.2.1 流映射为动态表 201
5.2.2 连续查询 201
5.2.3 动态表转换为流 203
5.3 TableEnvironment API 205
5.3.1 基本概念 205
5.3.2 创建TableEnvironment 205
5.3.3 示例:简单订单统计 206
5.4 Table API 210
5.4.1 基本概念 210
5.4.2 示例:订单分组计数 211
5.4.3 示例:每小时订单分组求
平均值 213
5.4.4 关系操作 214
5.5 SQL API 217
5.5.1 DDL操作 218
5.5.2 DML操作 221
5.5.3 DQL操作 222
5.5.4 窗口函数 223
5.5.5 窗口聚合 230
5.5.6 分组聚合 233
5.5.7 OVER聚合 235
5.5.8 连接查询 237
5.6 TopN查询 240
5.6.1 OVER子句 240
5.6.2 示例:计算产品类别销
售额TopN 242
5.6.3 示例:搜索词热度统计 243
5.6.4 窗口TopN 246
5.7 Catalog元数据管理 248
5.8 Flink SQL整合Kafka 250
5.8.1 基本概念 250
5.8.2 示例:Flink SQL整合Kafka实现
实时ETL 253
5.9 Flink SQL CLI 258
5.9.1 启动SQL CLI 259
5.9.2 执行SQL查询 260
5.9.3 可视化结果模式 262
5.10 Flink SQL整合Hive 263
5.10.1 整合步骤 264
5.10.2 Table API操作Hive 272
5.10.3 示例:Flink SQL整合Hive分析
搜狗用户搜索日志 274
5.11 案例分析:Flink SQL实时单词
计数 279
5.12 案例分析:Flink SQL实时计算
5秒内用户订单总金额 283
5.13 案例分析:微博用户行为分析 288
5.13.1 离线与实时计算业务架构 288
5.13.2 Flume数据采集架构 291
5.13.3 Kafka消息队列架构 293
5.14 案例分析:Flink SQL智慧交通数据
分析 294
5.14.1 项目介绍 294
5.14.2 数据准备 295
5.14.3 统计正常卡口数量 297
5.14.4 统计车流量排名前3的
卡口号 299
5.14.5 统计每个卡口通过速度快的
前3辆车 300
5.14.6 车辆轨迹分析 302
第6章 Flink内核源码 304
6.1 流图 304
6.1.1 StreamGraph核心对象 305
6.1.2 StreamGraph生成过程 308
6.2 作业图 310
6.2.1 JobGraph的核心对象 312
6.2.2 JobGraph的生成过程 312
6.3 执行图 319
6.3.1 ExecutionGraph的核心对象 319
6.3.2 ExecutionGraph的生成过程 320
第7章 Gelly图计算 324
7.1 什么是Gelly 324
7.2 个Gelly程序 325
7.3 Gelly数据结构 328
7.4 如何使用Gelly 329
7.5 图操作 330
7.5.1 基本操作 330
7.5.2 属性操作 332
7.5.3 结构操作 335
7.5.4 连接操作 335
7.6 图常用API 337
7.6.1 创建图 337
7.6.2 图的转换 339
7.6.3 图的添加与移除 342
7.6.4 图的邻域方法 343
7.7 案例分析:Gelly计算社交网络中
粉丝的平均年龄 346
內容試閱
当今互联网已进入大数据时代,大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各行各业每天都在产生大量的数据,数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB级。预计未来几年,全球数据将呈爆炸式增长。谷歌、阿里巴巴、百度、等互联网公司都急需掌握大数据技术的人才,大数据相关人才出现了供不应求的状况。
Flink作为下一代大数据处理引擎,现已成为大数据领域继Spark之后活跃、效的大数据计算平台,是大数据产业中的一股不可或缺的力量。Flink提供了Java和Scala的高级API,支持一组丰富的高级工具,包括使用SQL进行结构化数据处理的Table API&SQL、用于机器学习的FlinkML、用于图处理的Gelly,以及用于实时流处理的DataStream API。这些高级工具可以在同一个应用程序中无缝地组合,大大提高了开发效率,降低了开发难度。
很多互联网公司都使用Flink来实现公司的核心业务,例如阿里巴巴的云计算平台、的推荐系统等,只要和海量数据相关的领域,都有Flink的身影。因此,Flink已经成为大数据开发和从业人员的工具。
本书内容特色
本书基于Flink 1.13.X新版本编写,主要使用函数式编程语言Scala进行讲解,知识面比较广,涵盖了当前整个Flink生态系统主流的大数据开发技术。全书内容共7章,各章内容概述如下:
第1章讲解Flink的基础知识,包括Flink应用场景、主要组件、编程模型等,后通过一个单词计数示例带领读者快速体验Flink应用程序的编写。
第2、3章讲解Flink的多种运行时架构、任务调度原理、数据分区、Flink集群的安装部署以及Flink命令行操作、应用程序提交、常用Shell命令等。
第4~7章讲解Flink流式计算DataStream API、关系型计算Table&SQL API以及图计算框架Gelly等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、Kafka的整合操作。
本书是一本真正提高读者动手能力、以实操为主的入门图书。通过对本书的学习,读者能够对Flink相关框架迅速理解并掌握,可以熟练使用Flink集成环境、成功搭建属于自己的Flink集群并进行大数据项目的开发。
如何学习本书
本书推荐的阅读方式是按照章节顺序从头到尾阅读,因为后面的很多章节是以前面的章节为基础的,而且这种一步一个脚印、由浅入深的阅读方式将使你更加顺利地掌握Flink的开发技能。
学习本书时,首先学习第1章的初识Flink,并使用Scala在IDEA中编写Flink程序;然后学习第2章,掌握Flink的运行架构及任务调度原理;后依次学习第3~7章,学习每一章时先了解该章的基础知识和框架的架构原理,再进行Shell命令、API操作等实操练习,这样学习效果更好。当书中的理论和实操知识都掌握后,可以举一反三,自己开发一个Flink应用程序,或者将所学的知识运用到自己的编程项目上,也可以到各种在线论坛与其他Flink爱好者进行讨论,互帮互助。
本书适合的读者
本书可作为Flink新手或大数据开发人员和从业者的学习用书,要求读者具备一定的Java、Linux、Hadoop基础。
源代码和PPT课件
为方便读者使用本书,本书还提供了源代码和PPT课件,读者扫描下述二维码即可获取本书源代码和PPT课件。如有疑问,请联系booksaga@126.com,邮件主题写“Flink大数据分析实战”。

尽管笔者已尽心竭力,但限于水平,书中难免存有疏漏,敬请同行专家和广大读者朋友斧正。

张伟洋
2021年10月于青岛

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.