登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』互联网数据采集技术与应用

書城自編碼: 3814117
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 周林娥,方荣卫,王钰坤,郭英杰,陆少雄
國際書號(ISBN): 9787302619109
出版社: 清华大学出版社
出版日期: 2022-11-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 61.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
波段交易的高级技术:股票和期权交易者的资金管理、规则、策略和程序指南
《 波段交易的高级技术:股票和期权交易者的资金管理、规则、策略和程序指南 》

售價:HK$ 94.8
人,为什么需要存在感:罗洛·梅谈死亡焦虑
《 人,为什么需要存在感:罗洛·梅谈死亡焦虑 》

售價:HK$ 81.6
锁国:日本的悲剧
《 锁国:日本的悲剧 》

售價:HK$ 93.6
AI智能写作: 巧用AI大模型 让新媒体变现插上翅膀
《 AI智能写作: 巧用AI大模型 让新媒体变现插上翅膀 》

售價:HK$ 70.8
家庭养育七步法5:理解是青春期的通关密码
《 家庭养育七步法5:理解是青春期的通关密码 》

售價:HK$ 59.8
三体(全三册)
《 三体(全三册) 》

售價:HK$ 113.5
天象之维:汉画像中的天文与人文
《 天象之维:汉画像中的天文与人文 》

售價:HK$ 105.0
妓女与文人
《 妓女与文人 》

售價:HK$ 38.4

 

建議一齊購買:

+

HK$ 77.9
《 小学综合实践活动课程的设计、实施与评价 》
+

HK$ 95.7
《 兽医药理学 》
+

HK$ 91.5
《 供应链管理(第7版)(工商管理经典译丛) 》
+

HK$ 122.5
《 民法练习题集(第六版)(上、下册)(21世纪法学系列教材配套辅导用书) 》
+

HK$ 59.1
《 植物地理学(第五版) 》
+

HK$ 122.5
《 课程思政教学设计案例集 》
編輯推薦:
本书在内容编排上采用“基础知识” “代码示例” “应用案例”的模式,涵盖了互联网数据采集中最主要的知识点,通过真实的案例使用场景,让读者能举一反三,从而将技术应用到实际工作中。
內容簡介:
本书基于“基础知识” “代码示例” “应用案例”的模式编写,共包括 7个项目。项目 1主要介绍互联网数据采集的入门知识;项目 2通过一个入门级的简单案例,介绍互联网数据采集的基本流程;项目 3通过一个进阶的案例,详细介绍在没有给出官方开放 API的情况下,如何通过抓包工具获取 XHR请求地址;项目 4主要介绍 HTML文档数据的采集,对 HTML进行解析,以及如何提取数据的属性与文本;项目 5主要讲解批量获取数据的整理与合并技巧;项目 6重点讲解如何通过 Python的 pymysql库对 MySQL进行读写;项目 7给出了对半结构化数据进行处理的最佳实践。  本书内容条理清晰、案例丰富,可以作为职业院校大数据、人工智能、云计算等相关专业的教材,也可以作为行业从业人员的参考用书。
本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
目錄
项目 1.基础开发环境的安装与配置 1
任务 1.1.通过 Anaconda3安装基础开发环境 4
任务 1.2.常见问题与解决方案 13
项目总结 20
项目巩固与提高 20
项目 2.通过国务院新闻网官方 API获取时政新闻 21
任务 2.1.从开放的 API采集数据 23
任务 2.2.将数据存储到 Excel文件 27
项目总结 28
项目巩固与提高 29
项目 3.采集巨潮资讯网的股票财经信息 30
任务 3.1. Chrome网络抓包工具的使用 33
任务 3.2. 通过截获 XHR请求采集数据 35
任务 3.3. 采集更多信息 41
项目总结 44
项目巩固与提高 45
IV
互联网数据采集技术与应用
项目4 采集网络个性头像 46
任务4.1 采集图片数据 52
任务4.2 二进制数据的存储 60
项目总结76
项目巩固与提高77
项目5 获取全国主要城市未来5 天的天气情况 78
任务5.1 申请API 接口 79
任务5.2 采集天气数据 81
项目总结89
项目巩固与提高90
项目6 对多个MySQL 数据库进行数据整合 91
任务6.1 数据读取与合并 104
项目总结 109
项目巩固与提高 110
项目7 通过MongoDB 对半结构化Excel 数据进行高效存储 111
任务7.1 MongoDB 安装 113
任务7.2 MongoDB shell 工具 122
任务7.3 pymongo 的安装与使用 124
任务7.4 批量将Excel 数据存入MongoDB 128
项目总结 130
项目巩固与提高 130
参考文献 131
內容試閱
当今社会已经进入大数据时代,大数据与我们的工作、学习息息相关,深刻影响着生活的方方面面。大数据技术主要涉及数据采集、数据清洗、数据存储、数据分析与挖掘、数据可视化等多个环节。数据采集是其中必不可少的基础环节,所有的大数据项目都要从数据采集开始。本书正是基于此编写而成。
本书在内容编写上采用“基础知识” “代码示例” “应用案例”的模式,内容涵盖了互联网数据采集中最主要的知识点,通过真实案例的使用场景和实现代码,帮助读者举一反三,从而将技术应用到实际工作中。
本书以 Windows系统的 jupyter notebook作为主要开发工具,对互联网数据采集技术进行讲解。全书共 7个项目,各项目主要内容如下。
项目 1主要介绍互联网数据采集的入门知识,包括数据采集的概念和用途、常用的采集工具与常用库、开发工具与开发环境搭建等。通过本项目的学习,读者将对互联网数据采集的技术与应用建立初步的认识。
项目 2通过一个入门级的案例,介绍了互联网数据采集的基本流程。通过本项目的学习,读者可以掌握通过 Python请求数据、解析数据、提取关键数据、存储数据的基本知识。
项目 3通过一个进阶的案例,详细介绍了在没有给出官方开放 API的情况下,如何通过抓包工具获取 XHR请求地址,并详细介绍了 json数据解析的小技巧。通过本项目的学习,读者可以掌握 Chrome抓包工具的使用与技巧,以及 json解析。
项目 4主要介绍了通过 Beautifulsoup库对 HTML进行解析,然后通过 CSS选择器定位数据,提取数据的属性与文本。通过本项目的学习,读者可以掌握 HTML文本解析与采集的方法,了解如何使用正则表达式提取数据,掌握二进制(图片、视频、音频)数据的下载方法及文本采集的技巧。
项目 5重点讲解了 API请求参数的附加,通过 Key获取权限,多城市数据的合并分析。通过本项目的学习,读者可以掌握批量获取数据的整理与合并技巧。
项目 6重点学习了如何通过 Python的 pymysql库对 MySQL进行读写,结合 Pandas库对读取到的数据进行合并,以及 merge方法合并和 concat方法合并。
项目 7是对半结构化数据进行处理的最佳实践,通过简洁但功能强大的代码实现真正的数据高效处理。本项目重点考查读者对全书工具与知识点的灵活应用。
本书以基础、实用为原则,知识点基本覆盖“1 X职业技能等级证书(数据采集)”的要求。数据采集需要读者掌握的基础知识非常广泛,但本书对读者要求并不高,读者仅需对 Python、MySQL等知识有基础的了解,即可轻松完成书中的案例与代码。
本书由北京市昌平职业学校的周林娥担任主编,方荣卫、王钰坤担任副主编。周林娥负责整体结构设计和全书统稿工作。参加编写工作的还有北京市昌平职业学校的郭英杰和陆少雄。本书的项目 1、项目 2、项目 5和项目 6由周林娥和方荣卫编写,项目 3和项目 7由王钰坤编写,项目 4由郭英杰和陆少雄编写。杭州新华三集团产教方案规划设计院院长于鹏、联想教育科技(北京)有限公司产品总监鲁维、百度科技有限公司产品经理陈灿和北京信息职业技术学院人工智能学院教学院长马东波在本书编写的过程中,提供了大量的参考案例,对本书的结构和内容提出了宝贵的建议,在此一并表示感谢。
由于编者的水平和能力有限,书中难免有疏漏和欠缺的地方,敬请广大读者提出宝贵的意见。
编者 2022年 6月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.