《文本数据管理与分析：信息检索与文本挖掘的实用导论》 - 翟成祥[Chengxiang，Zhai]肖恩·马森[Sean - Meg Book Store - 香港.大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書

『簡體書』文本数据管理与分析：信息检索与文本挖掘的实用导论

書城自編碼： 3341386
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：翟成祥[Chengxiang，Zhai]肖恩·马森[Sean
國際書號(ISBN)： 9787111611769
出版社：机械工业出版社
出版日期： 2019-04-01

書度/開本： 16开

售價：HK$ 187.7

我要買件

** 我創建的書架 **
未登入.

新書推薦：

凝望：我的摄影与人生

《凝望：我的摄影与人生》
售價：HK$ 129.6

工业机器人从基础到实战

《工业机器人从基础到实战》
售價：HK$ 153.6

重症产科.1

《重症产科.1 》
售價：HK$ 71.8

财之道丛书·表层的真理：当代经济学与社会

《财之道丛书·表层的真理：当代经济学与社会》
售價：HK$ 105.6

世界服饰艺术史

《世界服饰艺术史》
售價：HK$ 309.6

海外中国研究·卿本著者：明清女性的性别身份、能动主体和文学书写

《海外中国研究·卿本著者：明清女性的性别身份、能动主体和文学书写》
售價：HK$ 81.6

日耳曼通识译丛：近代哲学：从笛卡尔到康德

《日耳曼通识译丛：近代哲学：从笛卡尔到康德》
售價：HK$ 32.2

我的灵魂是日落时分空无一人的旋转木马：聂鲁达诗精选

《我的灵魂是日落时分空无一人的旋转木马：聂鲁达诗精选》
售價：HK$ 81.6

建議一齊購買：

+

HK$ 205.2
《 Web大数据处理与分析》

+

HK$ 191.7
《基于Python的Web大数据爬取实战指南》

+

HK$ 126.4
《 Yii2框架从入门到精通》

+

HK$ 57.8
《云计算的负载均衡机制研究》

+

HK$ 100.1
《 Yii框架深度剖析》

+

HK$ 73.8
《可视化编程应用——Visual Basic 》

編輯推薦：

信息检索与数据挖掘领域世界知名学者、ACM Fellow、美国伊利诺伊大学香槟分校UIUC翟成祥教授厚积薄发之作，
基于UIUC数据管理与分析相关课程多年的积累，覆盖作者两门在线课程文本检索与搜索引擎和文本挖掘与分析的主要内容

內容簡介：

本书从实际角度涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法，并包括许多专门设计并辅以配套软件工具包（例如META，一种数据科学工具包）的动手练习，来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据，以及如何试验数据和为具体应用任务来改进一些算法。

關於作者：

翟成祥（ChengXiang Zhai）
伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。他已经在主流会议与期刊发表超过300篇研究论文，现在是《ACM Transactions on Knowledge Discovery from Data》副主编，曾任《Information Processing and Management》副主编、《ACM Transactions on Information Systems》副主编以及《Information Retrieval Journal》编委，并担任多个国际会议的程序委员会主席和大会主席。他是ACM会士、ACM杰出科学家并荣获多项荣誉，包括ACM SIGIR 2004 *佳论文、ACM SIGIR 2014 时间考验奖、 Alfred P. Sloan研究奖金、IBM 教师奖、HP 创新研究项目奖、微软超越搜索研究奖以及美国青年科学家和工程师总统奖。
肖恩•马森（Sean Massung）
伊利诺伊大学香槟分校计算机科学专业博士生，此前他在此分别获得学士和硕士学位。他是META的联合发明者并在其所有研究中使用META。他是多门课程的指导者，包括CS225“数据结构与编程原则”、CS410“文本信息系统”以及CS591txt“文本挖掘研讨”。研究兴趣包括信息检索中的文本挖掘应用、自然语言处理和教育。

目錄：

中文版序
译者序
前言
作者简介
第一部分　概述和背景
第1章　绪论2
　1.1　文本信息系统的功能4
　1.2　文本信息系统的概念框架5
　1.3　本书结构安排7
　1.4　如何使用本书8
　书目说明和延伸阅读9
第2章　背景11
　2.1　概率和统计基础11
2.1.1　联合概率和条件概率12
2.1.2　贝叶斯法则13
2.1.3　抛硬币和二项分布14
2.1.4　最大似然参数估计14
2.1.5　贝叶斯参数估计15
2.1.6　概率模型及其应用16
　2.2　信息论17
　2.3　机器学习19
　书目说明和延伸阅读20
　练习20
第3章　文本数据理解22
　3.1　自然语言处理的历史和研究现状23
　3.2　自然语言处理和文本信息系统24
　3.3　文本表示26
　3.4　统计语言模型28
　书目说明和延伸阅读31
　练习31
第4章　META：一个面向文本数据管理和分析的统一工具箱33
　4.1　设计原则33
　4.2　设置META34
　4.3　架构34
　4.4　用META分词35
　4.5　相关工具箱37
　练习38
第二部分　文本数据获取
第5章　文本数据获取概述44
　5.1　获取模式：拉取与推送44
　5.2　多模式互动获取45
　5.3　文本检索47
　5.4　文本检索与数据库检索48
　5.5　文档选择与文档排序49
　书目说明和延伸阅读50
　练习51
第6章　检索模型52
　6.1　概述52
　6.2　检索函数的一般形式53
　6.3　向量空间检索模型54
6.3.1　向量空间模型实例化55
6.3.2　位向量表示的表现56
6.3.3　改进的模型实例57
6.3.4　TF变换60
6.3.5　文档长度规范化62
6.3.6　基本向量空间模型的进一步改进64
6.3.7　小结65
　6.4　概率检索模型65
6.4.1　查询似然检索模型67
6.4.2　文档语言模型的平滑69
6.4.3　具体的平滑方法72
　书目说明和延伸阅读76
　练习76
第7章　反馈78
　7.1　向量空间模型中的反馈79
　7.2　语言模型中的反馈81
　书目说明和延伸阅读84
　练习84
第8章　搜索引擎实现86
　8.1　分词器86
　8.2　索引器87
　8.3　打分器90
8.3.1　逐个词项排序90
8.3.2　逐个文档排序90
8.3.3　过滤文档91
8.3.4　索引分片91
　8.4　反馈实现92
　8.5　压缩92
8.5.1　按位压缩93
8.5.2　块压缩94
　8.6　高速缓存95
8.6.1　LRU缓存95
8.6.2　DBLRU缓存96
　书目说明和延伸阅读96
　练习97
第9章　搜索引擎评价98
　9.1　引言98
9.1.1　要度量什么98
9.1.2　Cranfield评价方法98
　9.2　集合检索的评价100
9.2.1　准确率和召回率100
9.2.2　F度量：准确率和召回率的结合101
　9.3　有序列表的评价102
　9.4　基于多级别判断标准的评价106
　9.5　评价中的实际问题107
　书目说明和延伸阅读110
　练习110
第10章　网络搜索112
　10.1　网络爬虫113
　10.2　网页索引113
　10.3　链接分析117
10.3.1　PageRank算法118
10.3.2　HITS算法121
　10.4　排序学习122
　10.5　网络搜索的未来125
　书目说明和延伸阅读127
　练习127
第11章　推荐系统130
　11.1　基于内容的推荐131
　11.2　协同过滤134
　11.3　推荐系统的评价137
　书目说明和延伸阅读138
　练习138
第三部分　文本数据分析
第12章　文本数据分析概述142
　12.1　动机：文本数据分析的应用142
　12.2　文本与非文本数据：人类作为主观传感器143
　12.3　文本挖掘任务概览145
第13章　词关联挖掘148
　13.1　词关联挖掘的基本思想149
　13.2　聚合关系的发现150
　13.3　组合关系的发现153
　13.4　词关联挖掘的评价159
　书目说明和延伸阅读160
　练习160
第14章　文本聚类162
　14.1　聚类技术概述163
　14.2　文档聚类164
14.2.1　凝聚层次聚类法165
14.2.2　K-均值165
　14.3　词项聚类167
14.3.1　语义关联的词语167
14.3.2　点互信息169
14.3.3　先进方法169
　14.4　文本聚类的评价172
　书目说明和延伸阅读173
　练习173
第15章　文本分类175
　15.1　引言175
　15.2　文本分类方法概述176
　15.3　文本分类问题177
　15.4　文本分类的特征177
　15.5　分类算法179
15.5.1　k-近邻180
15.5.2　朴素贝叶斯181
15.5.3　线性分类器182
　15.6　文本分类的评价183
　书目说明和延伸阅读184
　练习184
第16章　文本摘要185
　16.1　文本摘要技术概述185
　16.2　抽取式文本摘要186
　16.3　抽象式文本摘要187
　16.4　文本摘要的评价189
　16.5　文本摘要的应用189
　书目说明和延伸阅读190
　练习190
第17章　主题分析192
　17.1　用词项表示的主题193
　17.2　用单词分布表示的主题196
　17.3　挖掘文本中的一个主题198
17.3.1　最简单的主题模型：一元语言模型199
17.3.2　添加背景语言模型201
17.3.3　混合模型的参数估计205
17.3.4　混合模型的行为206
17.3.5　期望最大化209
　17.4　概率潜在语义分析214
　17.5　PLSA的扩展及潜在狄利克雷分布220
　17.6　主题分

內容試閱：

“大数据”的增长为计算和统计方法带来了前所未有的机遇。利用这些方法可以将未经处理的原始数据（raw data）转变为可应用的知识以支持各类应用任务,尤其是涉及决策（decision making）优化的应用领域，如健康与医疗、防护与安全、学习与教育、科学探索及商业智能等。正如显微镜使我们能够看到微观世界、望远镜使我们能够看到远方一样，“大数据镜”将扩展我们的感知能力去发现埋藏在数据中的隐含信息与知识，这些隐含的信息与知识能够帮助做出预测和优化决策。本书覆盖了用于管理和分析大规模文本数据的通用计算技术，这些技术能够帮助用户在各类应用中对文本数据进行管理和使用。
文本数据包括所有以自然语言文本（如英文文本或中文文本）形式出现的数据：所有的网页、社交媒体数据（如微博）、新闻、科技文献、电子邮件、政府文档以及其他类型的企业数据。文本数据在生活中起到重要作用。由于人们使用自然语言进行交流，每天将产生并消费大量涵盖各类主题的文本数据。文本数据的爆炸式增长使人们不可能至少很难及时地消费所有相关信息。因此，开发智能信息检索系统成为迫切的需求，智能信息检索系统能够帮助人们管理文本数据，并随时快速、准确地获取所需的相关信息。这种需求是近期网络搜索引擎行业迅猛发展的主要原因。文本数据主要是人们为了交流的目的而产生，其中通常包含了丰富的语义内容和有价值的知识、信息、观点以及人们的偏好。因此，作为“大数据”的一种，文本数据提供了巨大的机遇去发掘对多种应用有用的知识，尤其是直接用文本形式表达的用户观点和偏好等。例如，人们普遍通过产品评论、论坛讨论和社交媒体等文本数据获取他人观点帮助决策。由于信息规模巨大，人们需要智能软件工具来帮助发现相关知识以优化决策或更加高效地完成相关任务。尽管支持文本挖掘的技术并没有成熟到如搜索引擎支持文本获取的程度，但相关领域在近年来取得了显著进步，一些专门的文本挖掘工具已经开始在众多应用领域广泛使用。本书的子标题阐释了本书涵盖的两大主题：信息检索与文本挖掘。这两大主题基本对应了前文讨论的两类应用系统（搜索引擎与文本分析系统）所依赖的技术。人为地区分两大主题主要是为了构建本书的高层结构。事实上，复杂的应用系统都会使用两大主题中的多种技术。
文本与结构化数据不同。结构化数据遵循定义良好的结构模式，便于计算机来处理。文本缺少明显的结构，因此以上讨论的智能软件工具的发展需要计算机能够理解文本中包含的内容。当前的自然语言处理技术还没有做到使计算机能够准确地理解自然语言文本（这也是“人”应该被包含到处理流程之中的原因）。但是在过去几十年中，基于统计或启发式的文本数据管理与分析方法得到了广泛的发展。这些方法具有良好的健壮性，可以用于分析与管理任何自然语言以及关于任何主题的文本数据。本书试图对很多此类方法进行系统的介绍，并着重强调构建多种实用文本信息系统所需的最有用的知识与技巧。
本书主要基于作者在伊利诺伊大学香槟分校（University of Illinois at Urbana-Champaign，UIUC）讲授文本数据管理与分析相关课程（即CS 410“文本信息系统”），以及第一作者2015年在Coursera开设的两门在线课程“文本检索与搜索引擎”（Text Retrieval and Search Engines）和“文本挖掘与分析”（Text Mining and Analytics）所使用的材料。书中的大部分内容及结构与上述两门在线课程一致，因此本书可作为两门在线课程的主要参考书。
信息检索（Information Retrieval，IR）是一个相对成熟的研究领域。关于信息检索的优秀教材也有很多，近期的著作包括Baeza-Yates和Ribeiro-Neto [2011]所著的《Modern Information Retrieval： The Concepts and Technology behind Search》、Büttcher等[2010]所著的《Information Retrieval： Implementing and Evaluating Search Engines》、Croft等[2009]所著的《Search Engines： Information Retrieval in Practice》以及Manning等[2008]所著的《Introduction to Information Retrieval》。与关于信息检索的已有教材相比，本书涵盖了更广泛的主题，既包括信息检索也包括文本挖掘。我们希望能够描绘出一个可以指导如何逐步构建一个能同时支持信息检索与文本分析的系统的蓝图。例如，书中详细介绍了词关联挖掘、概率主题模型以及文本和非文本数据的联合分析，以往任何信息检索教材都没有包含这些内容。与信息检索相比，文本挖掘（Text Mining，TM）远远没有成熟，还处于幼年时期，甚至如何准确定义文本挖掘都是一个开放问题。就此而言，目前尚没有关于文本挖掘的教材。作为一本关于文本挖掘的教材，本书对文本挖掘中主要的代表性技术进行了基本介绍。通过将文本挖掘与信息检索置于统一的框架内，强调了在任何实用的文本信息系统中信息检索与文本挖掘相结合的重要性。信息检索在任何文本挖掘应用中都会起到两个重要作用：一是能够快速减小数据规模，通过过滤大量不相关文档而获取小规模的、与特定应用问题最为相关的数据；二是支持数据分析人员验证并解释从文本数据中发现的模式，这里需要数据分析人员借助

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　大陸用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.