登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書

『簡體書』Python大数据分析 Big Data Analysis with Python

書城自編碼: 3860091
分類:簡體書→大陸圖書→計算機/網絡计算机教材
作者: [美]Ivan Marin著 , 雷依冰,张晨曦 译
國際書號(ISBN): 9787512440715
出版社: 北京航空航天大学出版社
出版日期: 2023-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 84.2

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
李鸿章及其时代:中西方世界的历史撞击
《 李鸿章及其时代:中西方世界的历史撞击 》

售價:HK$ 70.8
剑桥罗马骑士等级史(历史学堂)
《 剑桥罗马骑士等级史(历史学堂) 》

售價:HK$ 273.6
脉络:小我与大势
《 脉络:小我与大势 》

售價:HK$ 103.8
权势转移:近代中国的思想与社会(修订版)
《 权势转移:近代中国的思想与社会(修订版) 》

售價:HK$ 93.2
欧洲四千年
《 欧洲四千年 》

售價:HK$ 93.2
孙中山与海南(1905—1913)
《 孙中山与海南(1905—1913) 》

售價:HK$ 92.0
故宫雅趣:紫禁城皇室生活与君臣轶事
《 故宫雅趣:紫禁城皇室生活与君臣轶事 》

售價:HK$ 103.8
金钱、奇珍异品与造物术:荷兰黄金时代的科学与贸易
《 金钱、奇珍异品与造物术:荷兰黄金时代的科学与贸易 》

售價:HK$ 115.6

 

內容簡介:
这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。
Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。
關於作者:
Ivan Marin是一名系统架构师和数据科学家,目前就职于位于坎皮纳斯的软件公司Daitan Group。他设计用于大量数据的大数据系统,并使用Python和Spark端到端实现机器学习管道。他还是圣保罗数据科学、机器学习和Python活跃组织者,并在大学级别教授Python数据科学课程。
目錄
第1章Python数据科学堆栈1
1.1概述1
1.2Python库和软件包2
1.2.1IPython:一个功能强大的交互式shell2
1.2.2Jupyter Notebook4
1.2.3使用IPython还是Jupyter8
1.2.4Numpy9
1.2.5Scipy10
1.2.6Matplotlib10
1.2.7Pandas11
1.3使用Pandas11
1.3.1读取数据12
1.3.2数据操作13
1.4数据类型转换21
1.5聚合和分组24
1.6从Pandas导出数据26
1.7Pandas可视化29
1.8总结31
第2章统计数据可视化33
2.1概述33
2.2可视化图表34
2.3图表的组件36
2.4Seaborn40
2.5图的类型41
2.5.1折线图(Line graph)42
2.5.2散点图(Scatter plot)45
2.5.3直方图(Histogram)48
2.5.4箱线图(Boxplot)51
2.6Pandas DataFrame54
2.7修改图的组件57
2.7.1配置轴对象的标题和标签57
2.7.2修改线条颜色和样式60
2.7.3修改图的大小60
2.8导出图像63
2.9总结67
第3章使用大数据框架69
3.1概述69
3.2Hadoop70
3.2.1使用HDFS操控数据71
3.3Spark数据处理平台73
3.3.1Spark SOL以及Pandas DataFrame75
3.4Parquet文件80
3.4.1编写Parquet文件81
3.4.2使用Parquet和Partitions提高分析性能82
3.5处理非结构化数据84
3.6总结87
第4章Spark DataFrame89
4.1概述89
4.2使用Spark DataFrame使用方法90
4.3从Spark DataFrame中写入输出94
4.4探索和了解Spark DataFrame更多特点95
4.5使用Spark DataFrame对数据进行相关操作98
4.6Spark DataFrame绘制图形106
4.7总结112
第5章处理缺失值以及相关性分析114
5.1概述114
5.2设置Jupyter Notebook115
5.3缺失值116
5.4处理Spark DataFrame中的缺失值119
5.5相关性121
5.6总结126
第6章进行探索性数据分析127
6.1概述127
6.2定义商业问题128
6.2.1问题识别129
6.2.2需求收集130
6.2.3数据管道和工作流130
6.2.4识别可测量的指标130
6.2.5文档和展示131
6.3将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA)131
6.3.1数据采集132
6.3.2数据生成分析132
6.3.3KPI可视化133
6.3.4特征重要性133
6.4数据科学项目生命周期的结构化方法145
6.4.1阶段:理解和定义业务问题146
6.4.2第二阶段:数据访问与发现146
6.4.3第三阶段:数据工程和预处理147
6.4.4第四阶段:模型开发148
6.5总结149
第7章大数据分析中的再现性150
7.1概述150
7.2Jupyter Notebooks的再现性151
7.2.1业务问题介绍152
7.2.2记录方法和工作流程152
7.2.3数据管道153
7.2.4相关性153
7.2.5使用源代码版本控制153
7.2.6模块化过程154
7.3以可复制的方式收集数据154
7.3.1标记单元格和代码单元格中的功能155
7.3.2解释标记语言中的业务问题156
7.3.3提供数据源的详细介绍157
7.3.4解释标记中的数据属性157
7.4进行编码实践和标准编写162
7.4.1环境文件162
7.4.2编写带有注释的可读代码162
7.4.3工作流程的有效分割163
7.4.4工作流文档163
7.5避免重复167
7.5.1使用函数和循环优化代码168
7.5.2为代码/算法重用开发库/包169
7.6总结170
第8章创建完整的分析报告171
8.1概述171
8.2Spark可从不同的数据源读取数据172
8.3在Spark DataFrame上进行SQL操作173
8.4生成统计测量值181
8.5总结185
附录187
內容試閱
关于这本书

由于数据可扩展性、信息不一致性和容错性,实时处理大数据存在一定挑战性,而使用Python进行大数据分析可教会您如何使用控制数据雪崩的工具。通过这本书,您可学习到这样的实用技术:将数据聚合为有用维度以进行后验分析、提取统计测量值以及将数据集转换为其他系统的特征。
这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。
在本书的结尾,您将学习到如何设置自己的Python环境,处理大型文件并操作数据以生成统计数据、度量和图表。

学习目标

使用Python读取数据并将其转换为不同的格式。
使用磁盘上的数据生成基本的统计数据和指标。
处理分布在集群上的计算任务。
将来自不同来源的数据转换为存储格式或查询格式。
为统计分析、可视化和机器学习准备数据。
以视觉效果的形式呈现数据。

成果

使用Python进行大数据分析采用实践方法来理解如何使用Python和Spark处理数据并从中获得有用的东西。它包含多个使用真实业务场景的测试,让您在高度相关的环境中练习和应用您的新技能。

读者对象

Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.