新書推薦:

《
中药炮制学科发展集萃
》
售價:HK$
239.8

《
君士坦丁堡深仇400年:俄土战争(1877—1878)(全2册)
》
售價:HK$
226.6

《
城市文明蓝皮书:全球城市文明发展报告(2024-2025)
》
售價:HK$
140.8

《
未来生活金融指南
》
售價:HK$
63.8

《
《法官如何裁判》(在法律规范体系的框架下如何寻求个案公正的判决之道,麦读译丛18)
》
售價:HK$
86.9

《
自由的危机:全球视角下的英国内战史
》
售價:HK$
173.8

《
索恩丛书·俾斯麦:欧洲风暴
》
售價:HK$
196.9

《
元首政治与帝国治理——以赫洛迪安《罗马帝国史》为考察对象
》
售價:HK$
74.8
|
內容簡介: |
本书系统介绍了数据挖掘原理、技术、算法和应用。主要内容包括:数据挖掘的过程、数据存储的数据仓库、数据预处理技术和算法、异常数据检测技术和算法、数据分类算法和应用、数据聚类分析的算法及其应用、数据关联分析算法及其应用、模型的评估技术和算法、复杂数据的数据挖掘和技术。本书涵盖了数据挖掘过程的各方面技术、算法,在内容安排上将理论知识和工程技术应用有机结合,并介绍了许多数据挖掘的典型应用方法。
來源:香港大書城megBookStore,http://www.megbook.com.hk 本书可作为高等职业院校计算机科学与技术、信息管理、数据分析等专业的教科书,也可作为企业管理、信息分析人员的技术参考书。
本书配有电子课件,需要的教师可登录www.cmpedu.com免费注册、审核通过后下载,或联系编辑索取(QQ:2399929378,电话:010-88379753)。
|
關於作者: |
梁亚声,中国人民解放军电子工程学院总工。多年从事本科,研究生教学工作。获得教学成果一等奖多次。项目主要有:系统工程教学体系,获电子工程学院教学一等奖;获得军队科技进步二等奖1项;获得军队科技进步三等奖10项。获得对象军队科技成果一、二、三等奖。
|
目錄:
|
目录
出版说明
前言
第1章概述
11从数据中获取知识
12数据挖掘的基本概念
13数据挖掘的发展历程
14数据挖掘的功能和数据挖掘
系统的分类
141分类与回归
142聚类分析
143关联规则
144时序模式
145异常检测
146数据挖掘系统的分类
15数据挖掘的过程
151数据挖掘的一般流程
152跨行业数据挖掘标准过程
16数据挖掘与其他学科的关系
161数据挖掘与数据库知识发现
162数据挖掘与数据库查询
163数据挖掘与统计分析
164数据挖掘与数据仓库
165数据挖掘与联机分析处理
166数据挖掘与人工智能、专家系统、
机器学习
17数据挖掘的应用和发展趋势
171商业的数据挖掘
172金融业的数据挖掘
173欺诈侦测中的数据挖掘
174DNA数据分析中的数据挖掘
175电信业中的数据挖掘
176科学和统计数据挖掘
177数据挖掘系统和软件
178数据挖掘的发展趋势
18小结
19习题
第2章数据存储
21关系数据集
22数据仓库
221数据仓库的概念和特点
222数据仓库的数据组织
223数据仓库的关键技术
224数据仓库与数据挖掘的关系
23NoSQL数据库
231NoSQL概念与理论
232NoSQL数据模型
233NoSQL与关系数据库
24分布式文件系统
241分布式文件系统的历史
242分布式文件系统的体系结构
243谷歌文件系统(GoogleFS)
244Hadoop分布式文件系统
(HDFS)
25小结
26习题
第3章数据预处理
31数据预处理的必要性
32数据清理
321缺失数据处理方法
322噪声数据平滑技术
323时间相关数据的处理
33数据集成
331实体识别与匹配
332冗余和相关分析
333元组重复数据的检测
334冲突数据的检测与处理
34数据转换
341数据标准化
342数据泛化
35数据归约
351数据立方体聚集
352维度归约
353数据压缩
354数值归约
36数据离散化
361分箱方法
362直方图分析
363基于熵的离散化
364ChiMerge技术
365人工划分分段
37特征提取、选择和构造
371特征提取
372特征选择
373特征构造
38小结
39习题
第4章数据相似度与异常检测
41相似度度量
411对象与属性类型
412相似度度量的定义
413由距离度量变换而来的
相似度度量
414属性之间的相似度度量
415对象之间的相似度度量
42传统度量方法
421二值属性的相似度度量
422欧氏距离
423余弦距离
424Mahalanobis距离
425Jaccard距离
426海明距离
43大数据度量方法
431文档的Shingling
432局部敏感散列算法
44异常检测
441基于统计的检测方法
442基于距离的检测方法
443基于密度的检测方法
444基于聚类的检测方法
445基于分类的检测方法
446高维数据中的异常点检测
45小结
46习题
第5章数据分类和预测
51分类和预测的基本概念
511准备数据
512分类和预测方法的评估标准
52决策树分类
521ID3算法生成决策树
522C45算法生成决策树
523CART算法和Gini指标
524决策树归纳的可扩展性
525数据仓库与决策树
526决策树和决策规则的局限性
53贝叶斯分类
531贝叶斯定理
532朴素贝叶斯分类
533贝叶斯信念网络
534训练贝叶斯信念网络
54神经网络
541多层前馈神经网络
542定义神经网络的拓扑结构
543后向传播
544后向传播和可理解性
55其他分类方法
551基于关联的分类方法
552K-最近邻分类
553基于案例推理
554遗传算法
555粗糙集方法
556模糊集合方法
56预测算法
561预测算法分类
562预测算法选择
563线性和多元回归
564非线性回归
565其他回归模型
57分类预测应用实例
571样本选取
572建立预测模型
573模型评估
574实用价值
58小结
59习题
第6章数据聚类分析
61基本概念
611对聚类分析的要求
612聚类分析方法分类
62划分聚类算法
621K-means算法(基于
质心的技术)
622K-medoids算法(基于代表
对象的技术)
63层次聚类算法
631BIRCH算法
632CURE算法
633ROCK算法
634Chameleon算法
64基于密度的聚类算法
641DBSCAN算法
642OPTICS算法
643DENCLUE算法
65基于网格的聚类算法
651STING算法
652WaveCluster算法
653CLIQUE算法
66基于模型的聚类算法
661EM算法
662COBWEB算法
663SOM算法
67聚类评估
671估计聚类趋势
672确定簇数
673测定聚类质量
68聚类分析应用实例
681问题理解与提出
682数据收集与选择
683数据预处理
684应用K-means聚类算法建模
69小结
610习题
第7章数据关联分析
71数据关联分析的基本概念
72频繁项集产生
721先验原理
722Apriori算法的频繁项集产生
723支持度计数
724计算复杂度
73规则产生
731基本步骤
732Apriori算法中规则的产生
74频繁项集的紧凑表示
741最大频繁项集
742闭频繁项集
75产生频繁项集的其他方法
751项集格遍历
752事务数据集的表示
76FP-Growth算法
761FP树构造
762频繁项集产生
77关联评估
771兴趣度客观度量
772多个二元变量的度量
773倾斜支持度分布的影响
78关联分析应用实例
781关联分析学生成绩
782数据处理
783算法的应用
784挖掘结果的分析
79小结
710习题
第8章性能评估和提升
81评分函数
811预测性评分函数
812描述性评分函数
813一致性评价
82成本评价
821成本评价曲线
822Cost-Sensitive学习
83复杂度评估
84验证
841交叉验证
842Bootstrap
843模型比较
85性能提升
851效率提升
852准确率提升
86小结
87习题
第9章复杂数据挖掘
91文本数据挖掘
911文本数据预处理
912文本数据挖掘技术
913文本数据挖掘的应用
92图像数据挖掘
921图像数据的特点和挖掘
技术现状
922图像数据预处理
923图像数据挖掘技术
924图像数据挖掘的应用
93语音识别挖掘
931语音数据特点及挖掘
技术现状
932语音信号预处理
933语音识别技术
934语音识别技术的应用
94视频数据挖掘
941视频数据特点及挖掘
技术现状
942视频数据预处理
943视频数据挖掘技术
944视频数据挖掘的应用
95网络拓扑挖掘
951拓扑发现的技术现状及网络
数据的采集
952基于挖掘技术的网络
拓扑发现
96网络舆情挖掘
961舆情研究发展现状及舆情
特点
962网络舆情数据预处理
963网络舆情挖掘技术
97推荐系统
971推荐系统发展现状
972相关技术
973推荐系统
98空间数据挖掘
981空间数据的特点
982空间数据预处理
983空间数据挖掘技术
984空间数据挖掘工具
99数据流挖掘
991数据流的特点
992数据流预处理
993数据流挖掘技术
994数据流挖掘技术的应用
910小结
911习题
参考文献
|
內容試閱:
|
前言随着信息技术的普及和应用,各个领域产生了大量的数据,这些数据被获取、存储下来,其中蕴含着丰富的信息。人们持续不断地探索处理这些数据的方法,以期最大程度地从中挖掘有用的信息,面对如潮水般不断增加的数据,人们不再满足于数据的查询和统计分析,而是期望从数据中提取信息或者知识为决策服务。数据挖掘技术突破了数据分析技术的种种局限,它结合统计学、数据库、机器学习等技术解决从数据中发现新的信息,辅助决策这一难题,是正在飞速发展的前沿学科。一些大型企业对数据挖掘产品和工具的使用都超过20年,并已产生了期望的效应。此外,数据挖掘产品和工具在金融、商业、电信、医学等多个领域也得到广泛推广应用。
数据挖掘并不是要取代其他数据分析技术,而是将它们作为其工作的基础。尽管有些技术(如关联分析)是数据挖掘独有的,但是,另一些技术(如聚类、分类和异常检测)则建立在其他学科长期研究的基础之上。数据挖掘利用已有技术加速其发展,并一直与其他学科的技术紧密结合。成功地进行数据挖掘是综合使用多种技术,以及理解数据的专业人员和数据分析人员合作的成果。
本书结合数据挖掘技术的最新发展,系统地介绍了数据挖掘的基础理论、技术原理、算法和应用,以使读者对数据挖掘有一个系统、全面的了解。本书共9章,第1章主要介绍数据挖掘的基本概念和数据挖掘的过程。第2章主要介绍关系数据集和数据仓库等数据存储方式的基本概念、数据组织及其涉及的关键技术,以及分布式文件系统、NoSQL等大数据存储方式的概念、结构、原理和数据组织方法等。第3章主要介绍了数据预处理的概念和必要性,以及数据清理、数据集成、数据转换、数据归约、数据离散化和特征选择等数据预处理技术。第4章主要介绍了相似度度量的基础知识和5种异常检测方法,并深入分析欧式距离等6种传统的度量方法和大数据度量方法。第5章主要介绍了数据分类和预测的基本概念,决策树分类、贝叶斯分类、神经网络等分类方法,以及预测算法与应用。第6章主要介绍了数据聚类分析的基本概念,以及基于划分、基于层次、基于密度、基于网格和基于模型的聚类算法,还介绍了聚类分析的评估方法及其应用。第7章主要介绍了关联分析的基本概念,分析了关联规则挖掘的两个子任务:频繁项集产生和规则产生,介绍了频繁项集的紧凑表示及产生频繁项集的其他方法、FP-growth算法、关联评估及其应用等内容。第8章主要针对数据挖掘模型的评价和度量介绍了评分函数(包括常用的预测性评分函数和描述性评分函数);介绍了针对数据挖掘模型的成本评价曲线;从评价模型复杂度角度介绍了最短描述长度原则等评价方法;针对模型有效性验证介绍了交叉验证和Bootstrap验证方法;从数据挖掘模型效率和准确率提升角度,介绍了云计算和集成学习方法。第9章主要介绍了针对文本、图像、语音识别、视频、网络拓扑、网络舆情、推荐系统、空间数据和数据流等复杂数据的数据挖掘技术,分析了各类复杂数据的特点,介绍了相关数据挖掘的关键技术。本书涉及的内容较为广泛,在教学时,可根据实际情况选择。
本书由梁亚声编写第1、5章,徐欣编写第8、9章,成小菊编写第6、7章,梁佳领编写第2、3章,朱霞编写第4章。何成宇为第4章的编写提供了部分资料。徐欣对全书进行了统稿。
本书编著得到了国家自然科学基金(61402426)资助。
由于作者水平有限,书中难免存在不妥之处,敬请读者批评指正。
出 版 说 明当前,我国正处在加快转变经济发展方式、推动产业转型升级的关键时期。为经济转型升级提供高层次人才,是高等院校最重要的历史使命和战略任务之一。高等教育要培养基础性、学术型人才,但更重要的是加大力度培养多规格、多样化的应用型、复合型人才。
为顺应高等教育迅猛发展的趋势,配合高等院校的教学改革,满足高质量高校教材的迫切需求,机械工业出版社邀请了全国多所高等院校的专家、一线教师及教务部门,通过充分的调研和讨论,针对相关课程的特点,总结教学中的实践经验,组织出版了这套“高等教育规划教材”。
本套教材具有以下特点:
1) 符合高等院校各专业人才的培养目标及课程体系的设置,注重培养学生的应用能力,加大案例篇幅或实训内容,强调知识、能力与素质的综合训练。
2) 针对多数学生的学习特点,采用通俗易懂的方法讲解知识,逻辑性强、层次分明、叙述准确而精练、图文并茂,使学生可以快速掌握,学以致用。
3) 凝结一线骨干教师的课程改革和教学研究成果,融合先进的教学理念,在教学内容和方法上做出创新。
4) 为了体现建设“立体化”精品教材的宗旨,本套教材为主干课程配备了电子教案、学习与上机指导、习题解答、源代码或源程序、教学大纲、课程设计和毕业设计指导等资源。
5) 注重教材的实用性、通用性,适合各类高等院校、高等职业学校及相关院校的教学,也可作为各类培训班教材和自学用书。
欢迎教育界的专家和老师提出宝贵的意见和建议。衷心感谢广大教育工作者和读者的支持与帮助!
机械工业出版社
|
|