翟成祥(ChengXiang Zhai)
伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。他已经在主流会议与期刊发表超过300篇研究论文,现在是《ACM Transactions on Knowledge Discovery from Data》副主编,曾任《Information Processing and Management》副主编、《ACM Transactions on Information Systems》副主编以及《Information Retrieval Journal》编委,并担任多个国际会议的程序委员会主席和大会主席。他是ACM会士、ACM杰出科学家并荣获多项荣誉,包括ACM SIGIR 2004 *佳论文、ACM SIGIR 2014 时间考验奖、 Alfred P. Sloan研究奖金、IBM 教师奖、HP 创新研究项目奖、微软超越搜索研究奖 以及美国青年科学家和工程师总统奖。
肖恩•马森(Sean Massung)
伊利诺伊大学香槟分校计算机科学专业博士生,此前他在此分别获得学士和硕士学位。他是META的联合发明者并在其所有研究中使用META。他是多门课程的指导者,包括CS225“数据结构与编程原则”、CS410“文本信息系统”以及CS591txt“文本挖掘研讨”。研究兴趣包括信息检索中的文本挖掘应用、自然语言处理和教育。
“大数据”的增长为计算和统计方法带来了前所未有的机遇。利用这些方法可以将未经处理的原始数据(raw data)转变为可应用的知识以支持各类应用任务,尤其是涉及决策(decision making)优化的应用领域,如健康与医疗、防护与安全、学习与教育、科学探索及商业智能等。正如显微镜使我们能够看到微观世界、望远镜使我们能够看到远方一样,“大数据镜”将扩展我们的感知能力去发现埋藏在数据中的隐含信息与知识,这些隐含的信息与知识能够帮助做出预测和优化决策。本书覆盖了用于管理和分析大规模文本数据的通用计算技术,这些技术能够帮助用户在各类应用中对文本数据进行管理和使用。
文本数据包括所有以自然语言文本(如英文文本或中文文本)形式出现的数据:所有的网页、社交媒体数据(如微博)、新闻、科技文献、电子邮件、政府文档以及其他类型的企业数据。文本数据在生活中起到重要作用。由于人们使用自然语言进行交流,每天将产生并消费大量涵盖各类主题的文本数据。文本数据的爆炸式增长使人们不可能至少很难及时地消费所有相关信息。因此,开发智能信息检索系统成为迫切的需求,智能信息检索系统能够帮助人们管理文本数据,并随时快速、准确地获取所需的相关信息。这种需求是近期网络搜索引擎行业迅猛发展的主要原因。文本数据主要是人们为了交流的目的而产生,其中通常包含了丰富的语义内容和有价值的知识、信息、观点以及人们的偏好。因此,作为“大数据”的一种,文本数据提供了巨大的机遇去发掘对多种应用有用的知识,尤其是直接用文本形式表达的用户观点和偏好等。例如,人们普遍通过产品评论、论坛讨论和社交媒体等文本数据获取他人观点帮助决策。由于信息规模巨大,人们需要智能软件工具来帮助发现相关知识以优化决策或更加高效地完成相关任务。尽管支持文本挖掘的技术并没有成熟到如搜索引擎支持文本获取的程度,但相关领域在近年来取得了显著进步,一些专门的文本挖掘工具已经开始在众多应用领域广泛使用。本书的子标题阐释了本书涵盖的两大主题:信息检索与文本挖掘。这两大主题基本对应了前文讨论的两类应用系统(搜索引擎与文本分析系统)所依赖的技术。人为地区分两大主题主要是为了构建本书的高层结构。事实上,复杂的应用系统都会使用两大主题中的多种技术。
文本与结构化数据不同。结构化数据遵循定义良好的结构模式,便于计算机来处理。文本缺少明显的结构,因此以上讨论的智能软件工具的发展需要计算机能够理解文本中包含的内容。当前的自然语言处理技术还没有做到使计算机能够准确地理解自然语言文本(这也是“人”应该被包含到处理流程之中的原因)。但是在过去几十年中,基于统计或启发式的文本数据管理与分析方法得到了广泛的发展。这些方法具有良好的健壮性,可以用于分析与管理任何自然语言以及关于任何主题的文本数据。本书试图对很多此类方法进行系统的介绍,并着重强调构建多种实用文本信息系统所需的最有用的知识与技巧。
本书主要基于作者在伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign,UIUC)讲授文本数据管理与分析相关课程(即CS 410“文本信息系统”),以及第一作者2015年在Coursera开设的两门在线课程“文本检索与搜索引擎”(Text Retrieval and Search Engines)和“文本挖掘与分析”(Text Mining and Analytics)所使用的材料。书中的大部分内容及结构与上述两门在线课程一致,因此本书可作为两门在线课程的主要参考书。
信息检索(Information Retrieval,IR)是一个相对成熟的研究领域。关于信息检索的优秀教材也有很多,近期的著作包括Baeza-Yates和Ribeiro-Neto [2011]所著的《Modern Information Retrieval: The Concepts and Technology behind Search》、Büttcher等[2010]所著的《Information Retrieval: Implementing and Evaluating Search Engines》、Croft等[2009]所著的《Search Engines: Information Retrieval in Practice》以及Manning等[2008]所著的《Introduction to Information Retrieval》。与关于信息检索的已有教材相比,本书涵盖了更广泛的主题,既包括信息检索也包括文本挖掘。我们希望能够描绘出一个可以指导如何逐步构建一个能同时支持信息检索与文本分析的系统的蓝图。例如,书中详细介绍了词关联挖掘、概率主题模型以及文本和非文本数据的联合分析,以往任何信息检索教材都没有包含这些内容。与信息检索相比,文本挖掘(Text Mining,TM)远远没有成熟,还处于幼年时期,甚至如何准确定义文本挖掘都是一个开放问题。就此而言,目前尚没有关于文本挖掘的教材。作为一本关于文本挖掘的教材,本书对文本挖掘中主要的代表性技术进行了基本介绍。通过将文本挖掘与信息检索置于统一的框架内,强调了在任何实用的文本信息系统中信息检索与文本挖掘相结合的重要性。信息检索在任何文本挖掘应用中都会起到两个重要作用:一是能够快速减小数据规模,通过过滤大量不相关文档而获取小规模的、与特定应用问题最为相关的数据;二是支持数据分析人员验证并解释从文本数据中发现的模式,这里需要数据分析人员借助