登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書

『簡體書』Spark机器学习技术及应用

書城自編碼: 4121816
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 迟殿委,侯爱玲
國際書號(ISBN): 9787302688846
出版社: 清华大学出版社
出版日期: 2025-05-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 60.5

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
念遥遥 (口碑作者Further古言意难平之作)
《 念遥遥 (口碑作者Further古言意难平之作) 》

售價:HK$ 47.1
大清300年
《 大清300年 》

售價:HK$ 74.8
大学问·亦官亦商:明清时期天津的盐商与社会
《 大学问·亦官亦商:明清时期天津的盐商与社会 》

售價:HK$ 96.8
真希望父母能这样爱我
《 真希望父母能这样爱我 》

售價:HK$ 54.8
动画视频+全彩图解 人工智能与无人驾驶汽车
《 动画视频+全彩图解 人工智能与无人驾驶汽车 》

售價:HK$ 76.9
江恩时空理论:精华笔记图文版
《 江恩时空理论:精华笔记图文版 》

售價:HK$ 86.9
都市两极:北京14人
《 都市两极:北京14人 》

售價:HK$ 74.8
时刻人文·1368:中国与现代世界之形成
《 时刻人文·1368:中国与现代世界之形成 》

售價:HK$ 85.8

編輯推薦:
从基础入手,系统讲解Spark的数据结构和编程基础,逐步深入到复杂的机器学习算法和实际应用案例,最后通过两个综合项目提升实战水平。每个章节都通过具体的项目实例,帮助读者将理论知识应用于实践,确保学习的系统性与实用性相结合。既可作为从事大数据分析和人工智能开发工程师的参考用书,又可作为高等院校计算机科学与技术、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的教材。
內容簡介:
本书是基于Spark ML和Scala语言编写的机器学习实战书籍,基于目前新版本的Spark框架展开,内容包括机器学习准备、机器学习核心应用、综合项目提升三部分。首先是机器学习准备部分,包括第1~4章,分别介绍了大数据与Spark的基础知识、Spark安装和开发环境配置、Scala编程基础、Spark数据结构基础。然后是机器学习核心应用部分,包括第5~10章,分别介绍了Spark机器学习基础、线性回归及应用、分类算法及应用、数据降维及应用、聚类算法及应用、关联规则挖掘算法及应用。最后的综合项目提升部分包括第11和第12两章,分别通过综合实战项目案例进行巩固提升。 來源:香港大書城megBookStore,http://www.megbook.com.hk
本书配套较丰富的实战案例,并为案例提供了详细的操作步骤。另外,本书配套了程序源代码和PPT等。本书可作为从事大数据分析和人工智能工作的工程师的参考用书,也可作为高等学校计算机科学与技术、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材。
目錄
第1章大数据与Spark/1
1.1什么是大数据/1
1.2大数据的来源和数据分析的关键要素/2
1.3Spark概述/3
1.4Spark 机器学习库/4
1.5Spark前景/6
小结/6
第2章Spark 3.5安装和开发环境配置/7
2.1Spark的运行模式概述 /7
2.2单机模式下Spark环境安装与配置/9
2.2.1Java 8安装/9
2.2.2Scala安装/12
2.2.3IntelliJ IDEA开发环境安装/14
2.2.4Scala插件的安装/15
2.2.5编写Java程序/18
2.2.6编写Scala程序/21
2.2.7Spark 3.5单机版安装/23
2.3wordCount实例/26
2.3.1Spark 3.5实现wordCount/26
2.3.2MapReduce实现wordCount/28
小结/30
第3章Scala编程基础/31
3.1基础语法/31
3.2函数/34
3.3控制语句/36
3.4函数式编程/39
3.5模式匹配/44
3.6类和对象/46
3.7Scala 异常处理/49
3.8Trait(特征)/51
3.9Scala文件I/O/52
小结/53
第4章Spark数据结构基础/54
4.1RDD概述/54
4.1.1常见的转换算子/55
4.1.2常见的行动算子/59
4.2DataFrame概述/62
4.2.1DataFrame简介/62
4.2.2DataFrame的特性/63
4.2.3DataFrame与DataSet的差异/64
4.2.4DataFrame的缺点/65
4.3DataFrame工作机制/65
4.3.1DataFrame本质/65
4.3.2宽依赖与窄依赖/65
4.4DataFrame实战详解/66
4.4.1创建 DataFrame/66
4.4.2提前计算的cache()方法/69
4.4.3用于列筛选的select()和selectExpr()方法/70
4.4.4DataFrame的收集行collect()方法/71
4.4.5DataFrame计算行数count()方法/72
4.4.6DataFrame限制输出limit()方法/73
4.4.7除去数据集中重复项的distinct()方法/73
4.4.8过滤数据的filter()方法/74
4.4.9以整体数据为单位操作数据的flatMap()方法/75
4.4.10以单个数据为目标进行操作的map()方法/75
4.4.11分组数据的groupBy()和agg()方法/76
4.4.12删除数据集中某列的drop()方法/77
4.4.13随机采样方法和随机划分方法/77
4.4.14排序类型操作的sort()和orderBy()方法/79
4.4.15DataFrame和DataSet以及RDD之间的相互转换/80
小结/80
第5章Spark机器学习基础/81
5.1机器学习概述/81
5.1.1机器学习介绍/81
5.1.2机器学习架构和分类/82
5.2ML基本数据类型/85
5.2.1数据类型/85
5.2.2机器学习工作流程之管道技术/86
5.2.3管道中的主要概念/86
5.3ML数学基础/87
5.3.1统计指标/87
5.3.2统计量基本数据/87
5.3.3距离计算/89
5.3.4两组数据相关系数计算/90
5.3.5分层抽样/93
5.3.6假设检验/94
5.3.7随机数/96
小结/96
第6章线性回归及应用/97
6.1线性回归理论/97
6.2回归算法的评价指标/99
6.3梯度下降算法/99
6.3.1算法理解/100
6.3.2SGD算法理论/101
6.3.3SGD算法实战/101
6.4过拟合/102
6.4.1过拟合产生的原因/103
6.4.2常见线性回归正则化方法/103
6.5线性回归实战/104
6.5.1线性回归程序/104
6.5.2广义线性回归/106
小结/108第7章分类算法及应用/109
7.1逻辑回归理论与应用/109
7.1.1算法理论知识/109
7.1.2二分类算法实战/110
7.1.3多分类算法实战/112
7.2SVM理论及应用/115
7.2.1算法理论知识/115
7.2.2SVM算法实战/117
7.3朴素贝叶斯分类及应用/120
7.3.1算法理论/120
7.3.2朴素贝叶斯实战应用/121
7.4决策树分类及应用/124
7.4.1算法理论/124
7.4.2ID3算法基础/125
7.4.3决策树算法实战/128
小结/131
第8章数据降维及应用/132
8.1数据降维概述/132
8.2PCA降维算法/133
8.2.1PCA算法理论/133
8.2.2PCA算法实战/135
8.3SVD算法/136
8.3.1SVD理论/136
8.3.2SVD实战应用/137
小结/138
第9章聚类算法及应用/139
9.1聚类理论基础/139
9.2Kmeans算法基础及应用/140
9.2.1Kmeans算法理论/140
9.2.2Kmeans算法实战/141
9.3高斯混合聚类/143
9.3.1高斯聚类理论/143
9.3.2高斯混合聚类应用/145
9.4快速迭代聚类/146
9.4.1快速迭代聚类理论基础/146
9.4.2PIC实战/146
小结/148
第10章关联规则挖掘算法及应用/149
10.1关联规则挖掘算法理论/149
10.1.1大数据关联规则挖掘常识/149
10.1.2经典的Apriori算法/150
10.1.3FPgrowth算法/151
10.2关联规则挖掘算法实战/153
小结/155
第11章文本分类项目实战/156
11.1词向量化技术/156
11.1.1文本向量化理论/156
11.1.2Word2Vec词向量化实例/158
11.2多层感知器/159
11.3文本分类实战/160
小结/162
第12章电影分析项目实战 /163
12.1项目介绍/163
12.1.1数据集介绍/163
12.1.2需求分析/164
12.2数据统计分析模块实现/164
12.2.1公共代码开发/164
12.2.2需求1实现及结果/167
12.2.3需求2实现及结果/170
12.2.4需求3实现及结果/173
12.3机器学习影片推荐模块实现/175
12.3.1协同过滤概述/176
12.3.2关于物品间相似度计算/177
12.3.3关于ALS算法中的最小二乘法/178
12.3.4基于ALS算法影片推荐实战/178
小结/183
內容試閱
随着大数据技术的飞速发展和广泛应用,利用大数据进行高效的机器学习已成为当今数据科学领域的热点话题。Apache Spark作为一款优秀的通用大数据框架,因强大的数据处理能力和便捷的编程接口受到极大的关注和应用。本书旨在为读者提供一套系统而实用的学习指南,帮助读者掌握Spark在机器学习中的应用,重点掌握基于Spark ML和Scala语言的机器学习算法实战应用。
本书是一本面向广大数据科学爱好者、工程师和研究人员的既有一定理论深度又有实践指导的教材。通过学习本书,读者不仅可以深入理解Spark的数据结构和编程基础,还能学会利用Spark进行高效的机器学习模型构建和应用。本书不仅配套了较丰富的实战案例,并为案例提供了详细的操作步骤,而且配套了源代码和PPT等。本书可作为从事大数据分析和人工智能工作的工程师的参考用书,也可作为高等学校计算机科学与技术、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材。
全书基于目前新版本的Spark框架展开,内容包括机器学习准备、机器学习核心应用、综合项目提升三部分。首先是机器学习准备部分,包括第1~4章,分别介绍了大数据与Spark的基础知识、Spark的安装和开发环境配置、Scala编程基础、Spark数据结构基础。然后是机器学习核心应用部分,包括第5~10章,分别介绍了Spark机器学习基础、线性回归及应用、分类算法及应用、数据降维及应用、聚类算法及应用、关联规则挖掘算法及应用。最后的综合项目提升部分包括第10、11两章,分别通过综合实战项目案例进行巩固提升。
本书具有以下特点。
(1) 本书基于Spark ML和Scala语言编写机器学习经典算法,环境搭建步骤清晰、简洁,易于上手,重点放在机器学习算法理解和应用上,而不在环境搭建上花费过多时间。
(2) 本书重视理论与实践相结合,重点关注实战应用。本书核心部分在于机器学习算法讲解和实战应用,配套了较丰富的实战案例,并为案例提供了详细的操作步骤。主要内容包括框架搭建和开发环境安装、各种算法经典案例引入、算法原理讲解、综合项目实战提升等,并将实战与理论知识相结合,加深读者对理论的理解。
(3) 本书以应用型人才培养为目标,适合工程技术人员快速掌握机器学习实战技能。基于Spark ML和Scala语言,读者可以学习建立大数据环境下的机器学习工程化思维,在不必深究算法细节的前提下实现大数据分类、聚类、回归、协同过滤、关联规则、降维等算法,最后通过综合实战项目案例巩固提升。
(4) 本书基于Spark较新且稳定的版本展开,符合企业目前主流开发需要。在配套支持上,提供每章案例源码,并提供配套的PPT、项目代码等,满足教师开展大数据技术、人工智能相关课程的教学需要。读者可在清华大学出版社官方网站下载。
本书由迟殿委、侯爱玲共同编写。其中,迟殿委主导设计本书的整体结构和项目案例编写了第1~11章和各章项目案例,并统稿,侯爱玲参与编写了第1~4章。在编写过程中,部分内容参考了Apache Spark官方文档中机器学习的Spark ML部分,吸取了国内外教材的精髓,在此对这些作者的贡献表示由衷的感谢。本书在出版过程中,得到了清华大学出版社的大力支持,在此表示诚挚的感谢。
由于作者水平有限,书中难免有不妥和疏漏之处,恳请各位专家和读者不吝赐教和批评指正,并与作者讨论。

2024年7月于烟台

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.