登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2025年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書

『簡體書』大数据采集与清洗(微课版)

書城自編碼: 4174481
分類:簡體書→大陸圖書→教材高职高专教材
作者: 阮宗利 陈华 柳毓松 张华清
國際書號(ISBN): 9787115669841
出版社: 人民邮电出版社
出版日期: 2025-11-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 76.8

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
“Z行动”苏联空军志愿队研究(套装全2册)
《 “Z行动”苏联空军志愿队研究(套装全2册) 》

售價:HK$ 361.9
清华大学藏战国竹简校释(柒):《楚居》诸篇
《 清华大学藏战国竹简校释(柒):《楚居》诸篇 》

售價:HK$ 132.0
任伯年册页精选
《 任伯年册页精选 》

售價:HK$ 330.0
国之大道G219自驾攻略图——314国道喀什至红其拉甫口岸、独库公路
《 国之大道G219自驾攻略图——314国道喀什至红其拉甫口岸、独库公路 》

售價:HK$ 52.8
中国近代史(名家导读版)吕思勉历史著作集 精装
《 中国近代史(名家导读版)吕思勉历史著作集 精装 》

售價:HK$ 90.2
《四库全书总目》子部辨证与学术批评研究(全三册)
《 《四库全书总目》子部辨证与学术批评研究(全三册) 》

售價:HK$ 404.8
古代城邦(修订版)(经典与解释·古今丛编)
《 古代城邦(修订版)(经典与解释·古今丛编) 》

售價:HK$ 109.8
诱捕:青春穿越小说 穿书系统×双向救赎
《 诱捕:青春穿越小说 穿书系统×双向救赎 》

售價:HK$ 52.8

編輯推薦:
(1)内容详实,实例丰富
本书各章内容讲解详细,由浅入深,可操作性强;提供了大量的实例及其实现代码。每章后面提供了习题,以供读者巩固所学知识和进一步提高。
(2)提供一个爬虫示例网站
本书提供了一个爬虫示例网站——全国高校基本信息,作为爬虫爬取的目标网站。该网站专门供数据采集联系实践使用。
(3)提供在线实训
人邮和鲸大数据实训平台为本书提供在线实训。
內容簡介:
本书详细介绍大数据采集与清洗的相关知识和技术,共9章,分别是概述、网络爬虫基础、网页数据抓取、缓存下载页面、并发/并行爬取、用Selenium抓取动态内容、Scrapy爬虫框架及其应用、大数据平台系统日志采集、pandas数据清洗。本书大体上由数据采集(第2~8章)和数据清洗(第9章)两部分内容构成,以Python作为编程语言。数据采集部分以Web数据采集为主,也涉及Hadoop大数据平台的数据采集,内容由浅入深,循序渐进,理论与实践相结合,帮助读者理解和掌握数据采集的相关技术;数据清洗部分主要介绍pandas库的使用,帮助读者掌握数据清洗的方法。本书每章都有配套的习题,有助于读者巩固所学知?识。來源:香港大書城megBookStore,http://www.megbook.com.hk
本书可作为高校数据科学与大数据技术、信息管理与信息系统等专业相关课程的教材,也可作为大数据工程师的手册,还可作为网络爬虫爱好者和计算机领域的技术人员的参考?书。
關於作者:
阮宗利 ◎主讲课程 1.主讲本科生必修课:《C++程序设计》、《Windows程序设计》、《数据库原理与应用》、《计算机网络与编程》、《MPI并行程序设计》、《Java语言》、《数学实验》、《Python语言与实训》、《大数据采集与可视化》、《专业综合实训》等课程。 ◎承担和参与项目 1.近年来,主持的代表性科研项目: (1)海洋数值模拟与FVCOM模式研究,自主创新科研计划项目(理工科)_科技专项,2019-2021。 (2)“面向云架构的海洋数值预报模式关键技术研究”子课题合作项目,国家重点研发计划,2018-2021。 2.近年来,参与的代表性科研项目: (1)变分数阶移动-不动模型的高性能二次样条配置方法研究,自主创新科研计划项目(理工科)_强基专项,2022-2024。 (2)海上高质量充填防砂管柱与参数优化研究,横向项目,2022-2022。 (3)基于中法海洋星风浪同步观测的海浪谱同化方法研究,国家自然科学基金【面上项目】,2022-2025 (4)局地化隐式粒子滤波及其海浪数据同化应用,山东省自然科学基金【面上项目】,2020-2023. ◎获奖情况(除教师个人获奖之外,还包含指导学生获奖情况) 1. 指导本科毕业设计.校级优秀毕业设计(论文),2023。 2. 指导全国大学生数学建模竞赛. 山东省一等奖、三等奖,2023。 3. 指导全国大学生数学建模竞赛. 山东省二等奖,2022。 4. 指导全国大学生数学建模竞赛. 山东省三等奖,2019。 5.《数值计算方法(第二版)》.中国石油大学(华东)教学成果二等奖,2011,排名第3。
目錄
第 1章 概述1
1.1 大数据来源1
1.2 数据采集方法与基本流程2
1.2.1 数据采集方法2
1.2.2 数据采集基本流程2
1.3 数据清洗方法与基本流程3
1.3.1 数据清洗方法3
1.3.2 数据清洗工具4
1.3.3 数据清洗基本流程4
1.4 本书主要内容及主要案例5
1.4.1 主要内容5
1.4.2 主要案例5
1.4.3 编程工具8
1.5 本章小结8
1.6 习题8
第 2章 网络爬虫基础9
2.1 网络爬虫简介9
2.1.1 网络爬虫分类9
2.1.2 网络爬虫应遵守的基本准则10
2.2 调研目标网站10
2.2.1 了解目标网站所采用的技术与
审查网页元素11
2.2.2 了解网站结构与规模13
2.2.3 分析robots.txt文件15
2.2.4 分析网站地图文件
sitemap.xml16
2.3 使用urllib包下载网页16
2.3.1 下载页面HTML源代码17
2.3.2 设置字符编码17
2.3.3 存储HTML源代码至文件18
2.3.4 异常处理19
2.3.5 下载重试20
2.3.6 设置用户代理22
2.3.7 获取网页字符集24
2.4 使用requests包下载网页26
2.4.1 requests包简介26
2.4.2 基于requests包的页面
下载器28
2.5 网络爬虫的实现31
2.5.1 站点地图爬虫31
2.5.2 链接模板爬虫34
2.5.3 链接跟踪爬虫39
2.6 对爬虫限速44
2.6.1 爬虫限速器Throttle类44
2.6.2 限速器安装到链接跟踪爬虫46
2.7 让爬虫遵守站点robots协议47
2.7.1 使用urllib.robotparser模块
解析robots.txt文件47
2.7.2 为链接跟踪爬虫添加robot
解析器48
2.8 本章小结50
2.9 习题50
第3章 网页数据抓取51
3.1 了解HTML51
3.1.1 什么是HTML51
3.1.2 HTML文档结构51
3.1.3 HTML元素的属性53
3.2 在Web浏览器中审查网页53
3.3 使用正则表达式抓取数据55
3.3.1 正则表达式55
3.3.2 re模块58
3.3.3 使用re模块抓取页面数据60
3.4 使用Beautiful Soup包抓取
数据64
3.4.1 Beautiful Soup包65
3.4.2 遍历soup文档树66
3.4.3 搜索soup文档树69
3.4.4 提取元素中的内容文本72
3.4.5 使用Beautiful Soup抓取页面
数据73
3.4.6 使用Web浏览器工具测试和
获取CSS选择器74
3.5 使用lxml包抓取数据77
3.5.1 lxml中使用CSS选择器78
3.5.2 XPath选择器80
3.5.3 使用Web浏览器工具测试和
获取XPath选择器84
3.5.4 使用XPath选择器抓取页面
数据85
3.6 3种抓取方法性能对比86
3.7 本章小结88
3.8 习题88
第4章 缓存下载页面90
4.1 将HTML文档缓存至磁盘90
4.1.1 解析URL91
4.1.2 编写磁盘缓存类92
4.1.3 为磁盘缓存添加失效时间94
4.1.4 将磁盘缓存功能集成到爬虫
下载器类96
4.1.5 在链接跟踪爬虫中使用
新下载器97
4.1.6 在链接跟踪爬虫中使用磁盘
缓存98
4.2 使用Redis101
4.2.1 Redis安装与配置101
4.2.2 Redis基本命令105
4.2.3 Redis可视化管理工具112
4.2.4 在Python程序中访问Redis115
4.3 将HTML文档缓存至Redis116
4.3.1 编写Redis缓存类116
4.3.2 在链接跟踪爬虫中使用Redis
缓存118
4.4 本章小结121
4.5 习题121
第5章 并发/并行爬取123
5.1 线程与进程123
5.2 使用threading模块创建多线程
爬虫126
5.2.1 threading模块126
5.2.2 线程的生命周期129
5.2.3 线程等待129
5.2.4 创建守护线程132
5.2.5 为链接跟踪爬虫创建
多线程133
5.3 使用线程池实现多线程140
5.3.1 线程池的使用140
5.3.2 使用线程池实现多线程的链接
跟踪爬虫142
5.4 使用multiprocessing包创建
多进程爬虫146
5.4.1 multiprocessing包146
5.4.2 为链接跟踪爬虫创建多进程
多线程149
5.5 串行爬虫、多线程爬虫与多进程
爬虫性能比较156
5.6 本章小结158
5.7 习题158
第6章 用Selenium抓取动态
内容160
6.1 了解JavaScript、jQuery和
AJAX160
6.1.1 为何抓取数据失败了160
6.1.2 JavaScript、jQuery和
AJAX162
6.2 使用Selenium获取动态数据165
6.2.1 安装Selenium与
WebDriver165
6.2.2 使用Selenium与浏览器
交互166
6.2.3 案例1—爬取火车票信息177
6.2.4 案例2—爬取京东商城
数据183
6.3 通过数据请求API获取数据189
6.4 本章小结191
6.5 习题191
第7章 Scrapy爬虫框架及其
应用192
7.1 Scrapy爬虫框架简介192
7.1.1 Scrapy爬虫框架结构192
7.1.2 Scrapy基本工作流程193
7.2 安装Scrapy194
7.3 创建Scrapy爬虫项目194
7.3.1 创建基于Scrapy爬虫框架的
爬虫项目194
7.3.2 定义数据模型195
7.3.3 创建爬虫196
7.3.4 修改settings.py中的某些
参数198
7.3.5 运行爬虫项目198
7.3.6 保存爬取结果200
7.4 使用项目管道200
7.4.1 启用项目管道200
7.4.2 实现项目管道功能201
7.5 使用中间件203
7.5.1 编写爬虫中间件203
7.5.2 下载器中间件207
7.6 本章小结210
7.7 习题211
第8章 大数据平台系统日志
采集212
8.1 Hadoop系统及相关集群212
8.1.1 Hadoop系统212
8.1.2 ZooKeeper集群213
8.1.3 Kafka集群214
8.1.4 Flume集群215
8.1.5 Spark集群217
8.1.6 系统架构217
8.2 构建Flume日志采集系统218
8.2.1 安装Flume集群218
8.2.2 使用Flume采集数据219
8.3 构建Kafka分布式消息系统224
8.3.1 安装、配置和启动Kafka
集群224
8.3.2 Kafka集群测试226
8.4 集成Flume与Kafka集群228
8.4.1 配置两个Flume Agent
文件229
8.4.2 Flume-Kafka-HDFS集群
测试232
8.5 本章小结234
8.6 习题234
第9章 pandas数据清洗235
9.1 pandas中的数据对象235
9.1.1 Series对象235
9.1.2 DataFrame对象237
9.1.3 创建数据框241
9.1.4 数据框转换为其他格式的
数据242
9.2 数据框数据存取244
9.2.1 []运算符244
9.2.2 loc[]和iloc[]存取器246
9.2.3 at[]和iat[]存取器248
9.2.4 多级标签的存取248
9.2.5 get()函数249
9.2.6 head()函数和tail()函数249
9.2.7 nlargest()函数和nsmallest()
函数250
9.2.8 query()函数251
9.3 数据读取与保存251
9.3.1 读写文本文件252
9.3.2 读写Excel文件253
9.3.3 读写SQL数据库255
9.4 操作数据框257
9.4.1 修改列索引与行索引258
9.4.2 添加列、插入新列与删除列258
9.4.3 调整列顺序259
9.4.4 添加行与删除行260
9.4.5 按索引排序与按值排序261
9.4.6 列值转化为行索引与行索引
转化为列值262
9.4.7 数据透视与数据融合263
9.5 缺失值处理267
9.5.1 不满足条件的元素置空267
9.5.2 判断元素是否为NA268
9.5.3 统计non-NA元素的数量268
9.5.4 删除含有NA元素的列或行268
9.5.5 填充NA269
9.6 删除重复数据271
9.7 数值运算函数271
9.8 字符串数据处理272
9.9 日期数据处理273
9.10 数据清洗案例274
9.10.1 案例1—清洗影视数据274
9.10.2 案例2—清洗心率数据277
9.11 本章小结281
9.12 习题282
附录 示例网站运行发布操作
指南283

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2026 (香港)大書城有限公司  All Rights Reserved.