新書推薦:

《
牛津西方哲学史(中文修订版)
》
售價:HK$
140.8

《
萤火虫全球史:西方人眼中的古代丝绸之路
》
售價:HK$
83.6

《
大宋300年(写尽三百载大宋繁华与沉浮、浪漫与风霜)
》
售價:HK$
75.9

《
没有明天的我们,在昨天相恋
》
售價:HK$
47.1

《
流动的白银(一部由白银打开的人类文明发展史)
》
售價:HK$
63.8

《
饮食的谬误:别让那些流行饮食法害了你
》
售價:HK$
63.8

《
三千年系列:文治三千年+武治三千年+兵器三千年
》
售價:HK$
197.3

《
甲骨文常用字字典(精) 新版
》
售價:HK$
74.8
|
編輯推薦: |
本书围绕大数据采集与挖掘,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。本书配套资源丰富,包括教学大纲、教学课件、电子教案、程序源码、习题答案、微课视频和在线题库。
|
內容簡介: |
本书围绕大数据采集与挖掘,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了45个与爬虫技术和应用相关的Python程序。全书共分为四部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分
(第1章)是概述,指出利用Python采集互联网大数据的重要性,介绍了相关技术研究、技术体系、
采集技术的合规性及应用现状等
,分析了大模型对互联网大数据技术的影响; 第二部分
(第2、3章)是基础篇,包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范; 第三部分
(第4~10章)是技术与实现篇,全面介绍普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖各种爬虫技术实现方法及Python实例; 第四部分
(第11、12章)是大数据挖掘与应用篇,介绍
文本、情感、社交网络和时间序列等典型大数据处理与挖掘技术
及应用模式,并以新闻舆情监测、
Web自动化测试、酒店评论文本挖掘
为例介绍Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。
|
目錄:
|
源码下载
额外赠送的资源
第一部分概述
第1章大数据采集与挖掘概述
1.1互联网大数据与采集
1.1.1互联网大数据来源
1.1.2互联网大数据的特征
1.2Python爬虫大数据采集技术的重要性
1.3爬虫技术研究及应用现状
1.4爬虫技术的应用场景
1.5爬虫大数据采集与挖掘的技术体系
1.5.1技术体系构成
1.5.2相关技术
1.5.3爬虫的5个技术特性
1.5.4技术评价方法
1.6爬虫大数据采集与挖掘的合规性
1.7爬虫大数据采集与挖掘技术展望
1.7.1爬虫采集技术展望
1.7.2大模型对互联网大数据技术的影响
思考题
第二部分基础篇
第2章Web页面及相关处理技术
2.1HTML规范
2.1.1HTML标签
2.1.2HTML整体结构
2.1.3CSS简述
2.1.4常用标签
2.1.5HTML的版本进化
2.2编码体系与规范
2.2.1ASCII
2.2.2gb2312/gbk
2.2.3unicode
2.2.4utf8
2.2.5网页中的编码和Python处理
2.3Python正则表达式
2.4相关的Python程序基础
思考题
第3章Web应用架构与协议
3.1常用的Web服务器软件
3.1.1流行的Web服务器软件
3.1.2在Python中配置Web服务器
3.2Web服务器的应用架构
3.2.1典型应用架构
3.2.2Web页面的类型
3.2.3页面文件的组织方式
3.3Robots协议
3.3.1Robots协议的来历
3.3.2Robots协议的规范与实现
3.4HTTP
3.4.1HTTP版本的技术特性
3.4.2HTTP报文
3.4.3HTTP头部
3.4.4HTTP状态码
3.4.5HTTPS
3.5状态保持技术
3.5.1Cookie
3.5.2Session
思考题
第三部分技术与实现篇
第4章普通爬虫页面采集技术与Python实现
4.1普通爬虫的体系架构
4.2Web服务器连接器
4.2.1整体处理过程
4.2.2DNS缓存
4.2.3requests/response的使用方法
4.2.4错误和异常的处理
4.3超链接及域名提取与过滤
4.3.1超链接的类型
4.3.2提取方法
4.3.3遵守Robots协议的友好爬虫
4.4爬行策略与实现
4.4.1爬行策略及设计方法
4.4.2深度优先策略和宽度优先策略
4.4.3基于PageRank的重要性排序
4.4.4其他策略
4.4.5爬行策略设计的综合考虑
4.5爬虫的多线程技术
思考题
第5章动态页面采集技术与Python实现
5.1动态页面内容的生成与交互
5.1.1页面内容的生成方式
5.1.2动态页面交互的实现
5.2动态页面采集技术类型
5.3使用带参数的URL
5.4利用Cookie和Session
5.5使用Ajax——以评论型页面为例
5.5.1获取URL地址
5.5.2获取并发送动态请求参数
5.6模拟浏览器——以自动登录邮箱为例
思考题
第6章Web信息提取与Python实现
6.1Web信息提取任务及要求
6.2Web页面内容提取的思路
6.2.1DOM树
6.2.2提取方法
6.3基于HTML结构的内容提取方法
6.3.1html.parser
6.3.2lxml
6.3.3html5lib
6.3.4BeautifulSoup
6.3.5PyQuery
6.4基于统计的Web内容提取方法
6.5基于JSON的Web信息提取
6.6Web信息存储
思考题
第7章主题爬虫页面采集技术与Python实现
7.1主题爬虫的使用场景
7.2主题爬虫技术框架
7.3主题及其表示
7.4相关度计算
7.4.1主题相关度计算
7.4.2链接相关度估算
7.4.3内容相关度计算
7.5实例: 特定新闻主题的采集
思考题
第8章Deep Web爬虫与Python实现
8.1相关概念
8.2Deep Web的特征和采集要求
8.3Deep Web内容获取技术架构
8.3.1领域本体知识库
8.3.2寻找表单
8.3.3表单处理
8.3.4结果处理
8.4图书信息采集
思考题
第9章微博信息采集与Python实现
9.1微博信息采集方法概述
9.2微博开放平台授权与测试
9.3在Python中调用微博API采集数据
9.3.1流程介绍
9.3.2微博API及使用方法
9.3.3采集微博用户个人信息
9.3.4采集微博博文
9.3.5微博API的限制
9.4通过爬虫采集微博信息
9.4.1爬虫采集微博的方法
9.4.2微博热搜的采集方法与Python实现
思考题
第10章反爬虫技术与爬虫对抗技术
10.1两种技术的概述
10.2反爬虫技术
10.2.1爬虫检测技术
10.2.2爬虫阻断技术
10.3爬虫对抗技术
思考题
第四部分大数据挖掘与应用篇
第11章互联网大数据处理与挖掘技术
11.1文本预处理
11.1.1词汇切分
11.1.2停用词过滤
11.1.3词形规范化
11.1.4Python开源库jieba的使用
11.2文本的向量空间模型
11.2.1特征选择
11.2.2模型表示
11.2.3使用Python构建向量空间表示
11.3文本的分布式表示
11.3.1相关方法
11.3.2Doc2Vec
11.4文本分类及实现技术
11.4.1分类技术概要
11.4.2分类器技术
11.4.3新闻分类的Python实现
11.5聚类算法
11.6主题及其实现技术
11.6.1主题的定义
11.6.2基于向量空间的主题构建
11.6.3LDA主题模型
11.6.4LDA主题模型的Python实现
11.7文本情感分析
11.7.1基于机器学习的方法
11.7.2基于规则的方法
11.8社交网络分析
11.8.1社交网络表示与可视化
11.8.2社区发现算法与使用
11.8.3分析工具Pajek
11.9时间序列挖掘
11.9.1时间序列及其挖掘任务
11.9.2时间序列预测的思路
11.9.3时间序列预测的例子
11.10大数据可视化技术
11.10.1大数据可视化方法概述
11.10.2Python开源库的使用
思考题
第12章互联网大数据采集与挖掘技术的应用
12.1常见应用模式
12.2新闻舆情监测
12.2.1目标任务
12.2.2总体思路
12.2.3新闻内容采集与提取
12.2.4新闻分析
12.3Web网站自动化测试
12.3.1目标任务
12.3.2总体思路
12.3.3Python程序设计
12.4酒店评论文本挖掘
12.4.1目标任务
12.4.2总体思路
12.4.3Python程序设计
思考题
附录A代码与数据
附录B相关包索引
附录C爬虫框架
参考文献
|
內容試閱:
|
党的二十大报告强调: “加快发展数字经济,促进数字经济和实体经济深度融合”,互联网大数据在数字经济中占据着核心地位,是推动经济社会发展的关键生产要素。互联网数据具有典型的大数据特征,即数据量大、数据类型多样化、数据流动性快,并且随着“互联网 ”和数字经济国家战略的推进,互联网大数据的应用价值变得多样化。因此,互联网大数据成为大数据技术教学和研究应用的重要数据源。
编者于2020年出版的《Python爬虫大数据采集与挖掘微课视频版》,以互联网大数据的采集与挖掘为主题,介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。本书(第2版)进一步丰富了多种互联网大数据的处理,完善了爬虫技术体系,提升了知识的完整性、逻辑性和实用性。
在内容安排上,本书涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以及应用技术。在爬虫技术上,本书涵盖各种不同类型的爬虫,包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫。在大数据处理方面,本书涵盖文本、社交网络、时间序列等不同类型数据处理。在应用方面,本书以三种典型的Web信息采集与处理为例,介绍了爬虫技术的应用模式与Python实现方法。
本书作为一本产学兼顾的教材,具有如下特色。
(1) 以互联网大数据技术为主线,将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等相关技术有机地结合在一起,涉及当前互联网Web空间的典型应用,构成完整的大数据采集和挖掘的知识体系。
(2) 在互联网大数据的采集技术中,完整系统地涵盖了普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博数据采集,既强调爬虫抓取数据的能力,也凸显爬虫采集互联网大数据的合规性技术,有利于读者全面理解网络爬虫大数据技术及其应用。
(3) 秉承“授人以鱼,不如授人以渔”的总体思路,本书将理论与实践相结合,书中既有相关技术原理的介绍,也包含大量的Python实现技术、开源架构等方面的介绍,提供了45个与大数据采集挖掘相关的Python程序,读者既能理解技术原理,又能动手实践。
本书分为四部分,共12章,涵盖互联网大数据采集与挖掘的基础、技术和应用,各章的内容安排如下。
第一部分为概述,包括第1章。
第1章对大数据采集与挖掘的重要性、技术体系、应用现状、合规性以及技术发展进行概述,强调了互联网大数据与大模型之间的紧密联系。
第二部分为基础篇,包括第2章和第3章。
第2章介绍Web页面及相关处理技术,包括HTML规范、编码体系与规范、正则表达式以及与爬虫程序设计相关的主要Python程序基础。
第3章对Web应用架构与协议进行介绍,包括常用的Web服务器软件、Web应用架构、Robots协议、HTTP协议、状态保持技术等与爬虫密切相关的技术。
第三部分为技术与实现篇,包括第4~10章。
第4章对普通爬虫页面采集技术与Python实现进行介绍,包括普通爬虫的体系架构、Web服务器连接器、超链接及域名提取与过滤、爬行策略与实现以及爬虫的多线程技术等。
第5章介绍动态页面采集技术与Python实现,包括动态页面内容的生成与交互、动态页面采集的若干种典型方法和Python实现技术。
第6章针对Web页面信息提取技术,介绍面向HTML和JSON类型文本的抽取技术原理、典型开源框架应用,同时给出三种Web数据存储方法。
第7章介绍主题爬虫页面采集技术与Python实现,涉及主题爬虫的使用场景与技术框架、主题表示和建模、主题相关度计算等。
第8章是关于Deep Web的数据采集技术及实现。
第9章是关于微博信息的采集方法及实现,主要包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。
第10章介绍反爬虫的常用技术,以及针对这些反爬虫技术的一些主要应对措施和爬虫对抗技术。
第四部分为大数据挖掘与应用篇,包括第11章和第12章。
第11章围绕互联网大数据处理与挖掘技术,介绍面向文本、社交网络、时间序列数据的处理方法,突出文本预处理、文本表示、文本情感分析、文本分类、聚类、主题建模等重点技术。
第12章介绍三种典型的大数据采集技术应用案例,包括新闻舆情监测、Web网站自动化测试和酒店评论文本挖掘。
为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、电子教案、程序源码、习题答案和微课视频。
资源下载提示
课件等资源: 扫描封底的“图书资源”二维码,在公众号“书圈”下载。
素材(源码)等资源: 扫描目录上方的二维码下载。
微课视频: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的视频讲解二维码,可以在线学习。
全书由曾剑平负责内容安排、统稿,由互联网大数据处理技术和应用研究领域的一线人员参与编写。段江娇参与编写了
第1、第4、第5章,廖含月编写了第2章的部分内容,孟元编写了第12章部分例子的程序及相关文字说明,曾睿编写了第11章部分例子的程序,肖杨实现了Web网站自动化测试方法,其他部分由曾剑平编写,曾睿对全书进行了校对。清华大学出版社的编辑们为本书的出版花费了很多心思。
本书的编写也得到了复旦大学计算机科学技术学院和复旦大学教务处的大力支持。
本书第1版获得第二届复旦大学优秀教材奖(2024)。
此外,在本书的编写过程中也采纳了读者对第1版的反馈意见,在此一并表示衷心的感谢。需要特别提到的是,为了便于读者理解相关技术,书中选择若干互联网网站页面采集作为实例,特别向这些网站表示感谢。
本次改版完善了爬虫采集与挖掘的技术体系,但仍难以完美,恳请读者不吝批评指正,以利于今后继续修订完善。
读者可关注微信公众号IntBigData(“互联网大数据处理技术与应用”),订阅编者在教学中的相关经验和做法,并与编者互动。
编者2024年10月
|
|