登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』样本数据处理

書城自編碼: 3763174
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 许桂秋
國際書號(ISBN): 9787121435737
出版社: 电子工业出版社
出版日期: 2022-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 87.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
假努力:方向不对,一切白费
《 假努力:方向不对,一切白费 》

售價:HK$ 71.8
北京三万里
《 北京三万里 》

售價:HK$ 93.6
争吵的恋人:我们为什么相爱,又为什么争吵
《 争吵的恋人:我们为什么相爱,又为什么争吵 》

售價:HK$ 70.8
秘史:英国情报机构的崛起
《 秘史:英国情报机构的崛起 》

售價:HK$ 81.6
李鸿章及其时代:中西方世界的历史撞击
《 李鸿章及其时代:中西方世界的历史撞击 》

售價:HK$ 70.8
剑桥罗马骑士等级史(历史学堂)
《 剑桥罗马骑士等级史(历史学堂) 》

售價:HK$ 273.6
脉络:小我与大势
《 脉络:小我与大势 》

售價:HK$ 103.8
权势转移:近代中国的思想与社会(修订版)
《 权势转移:近代中国的思想与社会(修订版) 》

售價:HK$ 93.2

 

建議一齊購買:

+

HK$ 76.7
《 电路(第5版)(换封面加十二五标) 》
+

HK$ 98.8
《 经济法概论(第二版) 》
+

HK$ 69.3
《 马克思主义哲学(第二版) 》
+

HK$ 106.3
《 战略管理:建立持续竞争优势(第17版)(工商管理经典译丛) 》
+

HK$ 79.2
《 马克思主义中国化专题研究 》
+

HK$ 61.3
《 风险模型(新编21世纪风险管理与精算系列教材) 》
內容簡介:
本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言及Kettle软件进行数据处理的能力。全书内容分别为数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清洗、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。 本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于是覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成,以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例及综合实践案例,以帮助读者了解样本数据处理涉及的基本技术的知识和技能。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,也可供对样本数据处理技术感兴趣的读者阅读。
關於作者:
许桂秋,运营总监。2000年9月—2004年6月,厦门大学,计算机科学与技术专业学习,获工学学士;2007年8月—2011年4月,中国石油天然气股份有限公司,项目经理,工程师;2011年6月—2016年7月,曙光信息产业股份有限公司,项目经理,工程师;2016年7月—至今,中科瑞翼(北京)教育科技有限公司,运营总监。主要著作出版情况:《大数据导论》、《Python编程基础与应用》、《NoSQL数据库原理与应用》、《数据挖掘与机器学习》等9本系列教材,浙江科技出版社,2019年。
目錄
第1章 数据预处理概述1
1.1 数据预处理的背景与目的1
1.1.1 数据预处理的背景:数据质量1
1.1.2 数据预处理的目的3
1.2 数据预处理的流程3
1.2.1 数据清洗3
1.2.2 数据集成5
1.2.3 数据变换6
1.2.4 数据归约9
1.2.5 数据预处理的注意事项14
1.3 数据预处理的工具14
本章习题15
第2章 Kettle工具的初步使用16
2.1 Kettle的安装16
2.1.1 Java的安装16
2.1.2 Kettle的下载安装与Spoon的启动20
2.2 Kettle的使用21
2.2.1 转换的基本概念21
2.2.2 第一个转换案例23
本章习题42
第3章 数据的导入与导出43
3.1 基于文件的数据导入与导出43
3.1.1 文本文件的导入与导出43
3.1.2 文本文件的导入与导出案例45
3.1.3 Excel文件的导入与导出51
3.1.4 Excel文件的导入与导出案例51
3.1.5 XML文件的导入与导出59
3.1.6 XML文件的导入与导出案例59
3.1.7 JSON文件的导入与导出64
3.1.8 JSON文件的导入与导出案例65
3.2 基于数据库的数据导入与导出69
3.2.1 关系数据库的数据导入与导出69
3.2.2 MySQL数据库的数据导入与导出案例71
3.3 基于Web的数据导入与导出78
3.3.1 HTML数据的导入与导出78
3.3.2 HTML数据的导入与导出案例79
3.3.3 基于HTTP GET请求的导入与导出83
3.3.4 基于HTTP GET请求的导入与导出案例83
3.4 基于CDC变更数据的导入与导出86
3.4.1 基于源数据的CDC86
3.4.2 基于源数据的CDC案例87
3.4.3 基于触发器的CDC98
3.4.4 基于触发器的CDC案例99
3.4.5 基于快照的CDC109
3.4.6 基于快照的CDC案例109
3.4.7 基于日志的CDC113
3.4.8 基于日志的CDC案例113
本章习题116
第4章 数据清洗117
4.1 数据清洗概述117
4.1.1 Kettle常用的数据清洗步骤117
4.1.2 字符串清理119
4.1.3 字段清理123
4.1.4 使用参照表清理数据130
4.1.5 数据校验136
4.2 数据排重141
4.2.1 如何识别重复数据141
4.2.2 去除完全重复数据142
4.2.3 去除不完全重复数据144
4.3 使用脚本组件进行数据清洗147
4.3.1 使用JavaScript代码组件清理数据147
4.3.2 使用正则表达式组件清理数据149
4.3.3 使用其他脚本组件清理数据152
本章习题156
第5章 数据标注157
5.1 数据标注简介157
5.1.1 数据标注是什么157
5.1.2 数据标注分类简介158
5.1.3 数据标注流程简介159
5.2 数据标注分类160
5.2.1 图像标注161
5.2.2 文本标注164
5.2.3 语音标注166
5.3 数据标注质量检验167
5.3.1 数据标注质量的影响167
5.3.2 数据标注的质量标准169
5.3.3 数据标注质量检验方法172
5.4 图像数据标注实战175
5.4.1 车辆车牌标注175
5.4.2 遥感影像标注180
5.4.3 医疗影像标注184
5.4.4 行人数据标注188
5.4.5 基于行人标注数据集的行人检测192
5.5 文本标注实战198
本章习题207
第6章 Kettle作业设计208
6.1 作业的概念及组成209
6.1.1 作业项209
6.1.2 跳210
6.1.3 注释210
6.2 作业的执行方式210
6.2.1 回溯210
6.2.2 多路径和回溯211
6.2.3 并行执行211
6.3 作业的创建及常用作业项212
6.3.1 创建作业213
6.3.2 “START”作业项213
6.3.3 “作业”作业项213
6.3.4 “转换”作业项215
6.4 变量216
6.4.1 定义变量216
6.4.2 使用变量218
6.5 监控218
6.5.1 日志219
6.5.2 邮件通知220
6.6 命令行启动221
6.7 作业实验223
本章习题252
第7章 基于Kettle构建数据仓库253
7.1 数据仓库的介绍253
7.1.1 数据仓库的起因253
7.1.2 数据仓库的发展254
7.1.3 数据仓库的定义255
7.1.4 数据仓库的特点255
7.1.5 数据仓库的结构255
7.1.6 数据仓库建模256
7.1.7 数据仓库与ETL的关系257
7.2 构建维度表258
7.2.1 管理各种键258
7.2.2 维度表的加载262
7.2.3 缓慢变化维度263
7.3 构建事实表268
7.3.1 批量加载268
7.3.2 查找维度271
7.3.3 事实表的处理271
本章习题280
第8章 基于Python的数据导入与导出281
8.1 Pandas281
8.1.1 Series282
8.1.2 DataFrame284
8.2 文本文件的导入与导出286
8.2.1 导入CSV文件286
8.2.2 导出CSV文件290
8.2.3 JSON格式数据的导入与导出291
8.3 Excel文件的导入与导出292
8.4 数据库的导入与导出292
8.4.1 关系数据库的导入与导出293
8.4.2 非关系数据库的导入与导出294
本章习题297
第9章 基于Python的数据整理298
9.1 合并多个数据集298
9.1.1 使用键进行DataFrame合并298
9.1.2 使用index进行DataFrame合并302
9.1.3 沿着横轴或纵轴串接303
9.2 数据重塑305
9.2.1 多级索引数据的重塑305
9.2.2 应用pivot方法重塑数据307
9.3 数据转换310
9.3.1 移除重复数据310
9.3.2 利用函数或映射进行数据转换312
9.3.3 值转换312
9.3.4 重命名轴索引313
9.3.5 离散化和面元划分314
9.3.6 检测或过滤异常值317
9.3.7 排列和随机采样318
9.3.8 计算指标/哑变量319
本章习题322

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.