登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』汉语中介语语料库建设与应用研究.第一辑

書城自編碼: 3694290
分類:簡體書→大陸圖書→社會科學語言文字
作者: 张宝林,靳继君,胡楚欣
國際書號(ISBN): 9787506886604
出版社: 中国书籍出版社
出版日期: 2021-08-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 108.6

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
邂逅晚清——中美的对望与凝视(罕见国内作者所著全面反映晚清中美交往历史的通俗作品)
《 邂逅晚清——中美的对望与凝视(罕见国内作者所著全面反映晚清中美交往历史的通俗作品) 》

售價:HK$ 105.6
广东当代金融史:全三册
《 广东当代金融史:全三册 》

售價:HK$ 717.6
养育的觉醒:全面激发孩子自驱力,教你如何心平气和做妈妈
《 养育的觉醒:全面激发孩子自驱力,教你如何心平气和做妈妈 》

售價:HK$ 58.8
1368:历史岔道口的抉择与国运盛衰
《 1368:历史岔道口的抉择与国运盛衰 》

售價:HK$ 69.6
全球城市发展报告2023:基于全球城市网络的合作与竞争
《 全球城市发展报告2023:基于全球城市网络的合作与竞争 》

售價:HK$ 273.6
为什么只见树木不见森林:从简单现象到复杂系统
《 为什么只见树木不见森林:从简单现象到复杂系统 》

售價:HK$ 94.8
大英帝国的兴衰:跨越海洋 征服世界
《 大英帝国的兴衰:跨越海洋 征服世界 》

售價:HK$ 117.6
意大利文艺复兴新艺术史
《 意大利文艺复兴新艺术史 》

售價:HK$ 958.8

 

編輯推薦:
针对以往汉语中介语语料库建设存在的主观随意性,本书研究了语料元信息采集、语料录入与转写、语料标注、检索系统研发等建库中的重要问题,努力克服随意性,推动语料库建设的标准化和科学化。转写标注软件ELAN广泛应用于口语库和多模态语料库建设,掌握该软件可达“工欲善其事,必先利其器”之效。在语料库应用方面,本书注重运用语料库解决汉语教学与研究中的具体问题,对中介语中的动词、趋向动词、某些副词、介词、语篇等进行偏误分析,通过翔实的统计数据得出了一些具有普遍意义、有较强说服力的研究结论。
內容簡介:
本书包括汉语口语中介语语料库研究,国外语料库考察,语料的录入、转写与标注研究,语料库应用研究四方面内容。口语语料库(包括多模态语料库)建设由于语料采集、转写、标注的困难,一向滞后于笔语语料库,这使汉语口语中介语研究和习得研究难以广泛、深入地开展,口笔语中介语的对比研究更是难以企及。本书从不同角度探讨口语库建设问题,其中关于口语研究和口语库建设之间的互动关系的认识、多模态理论在语料库建设中的应用、国内外英语口语学习者语料库和法语口语语料库的建设经验,对汉语口语库的设计与建设均具有积极的借鉴意义和重要的指导作用。
關於作者:
张宝林,北京语言大学教授,博士研究生导师。西北师范大学兼职教授,福建师范大学客座教授,语言资源高精尖创新中心特聘研究员,中央民族大学语言教学、认知与习得开放研究中心学术顾问。中国语料库语言学研究会理事,中国语文现代化学会语言资源开发与应用专业委员会副理事长。主要研究领域为汉语教学语法、国际中文教育、语料库语言学。主持或作为主要成员参加、省部级、校级科研项目10多项;独立或合作出版学术专著、教材、大纲、词典等10多部,发表学术论文70多篇。主要著作有《汉语教学参考语法》(2006)、《现状与对策——汉语作为第二语言的教学研究》(2011)、《基于语料库的外国人汉语句式习得研究》(合著,项目负责人,2014)、《汉语语法的多层面考察》(2015)、《语言培训服务国家标准研究》(合著,项目负责人,2016)、《汉语中介语语料库标注规范研究》(合著,项目负责人,2019)等。
目錄
目录
语料库是语言知识的可靠来源(代序)冯志伟 001
口语语料库和多模态语料库研究005
从口语研究看口语中介语语料库建设 刘运同007
国内外主要英语口语学习者语料库概述 许家金 董通013
法语CLAPI互动口语语料库对汉语中介语口语语料库建设的借鉴意义 王秀丽 王鹏飞022
国内外多模态话语分析的知识图谱 王笑 黄伟034
多模态理论在中介语语料库建设中的应用研究 邢晓青050
标注、录写与检索研究071
汉语中介语语料库标注标准研究 闫慧慧073
试论汉语中介语语料库的元信息标注 文雁088
汉语中介语语料库的语篇衔接与连贯标注研究
——基于HSK动态作文语料库 张悦104
汉语学习者口语语料库建设语用标注研究 段海于121
汉语中介语口语语料库语料标注刍议 杨帆141
汉语中介语语料库口语及视频语料转写研究 梁丁一163
汉语中介语笔语语料录入标准研究 齐菲 段清钒 张馨丹174
ELAN操作的几个关键问题
——兼谈语宝标注软件的使用 李斌185
汉语中介语语料库的检索系统 张宝林212
语料库应用研究231
HSK动态作文语料库动词偏误的全面统计与启示 玄玥 华晓君233
基于中介语语料库的“常常”与“往往”的偏误分析及教学设计 耿直249
基于语料库的汉语学习者趋向动词习得考察 李红梅263
日本汉语学习者介词“在”习得情况考察
——基于语料库的研究 张敏300
留学生汉语口语词汇偏误研究
——《以2015“汉语桥”我与中国次亲密接触》为例 康利南318
汉语中介语语篇结构偏误研究
——基于“HSK 动态作文语料库”的研究 周春弟333
基于ELAN的对外汉语教师课堂体态语分析 靳继君350
其他研究373
作文自动评分系统研究的现状与对策 胡楚欣375
关于冠状病毒语料库的调研报告 卢方红396
后记415
內容試閱

语料库是语言知识的可靠来源(代序)
——第三届汉语中介语口语语料库国际会议致辞
冯志伟
首先祝贺第三届汉语中介语口语语料库国际会议在北京召开。汉语中介语口语语料库是获取语言知识、发现语言偏误、提高语言习得水平的重要手段。
我是一个自然语言处理的研究者,早在1957年,我就对语言的研究产生了浓厚的兴趣,梦想着打破人类的语言障碍,后来我知道了美国在1954年就研制成功俄英机器翻译,受到极大的鼓舞,决心投身机器翻译研究,实现自己的科学梦想。1979—1981年我在法国格勒诺布尔理科医科大学留学时,曾经研制过一个把汉语自动翻译为法语、英语、日语、俄语和德语5种外语的机器翻译系统,叫作FAJRA系统,提出了多叉多标记树形图模型(multiple-branched and multiple-labeled tree model, MMT),这是一个基于短语的机器翻译模型(phrasebased machine translation, PBMT)。
当时我采用的方法是基于语言规则的理性主义方法。我用了3年时间,编写了汉语分析规则5 000条左右,法语、英语、日语、俄语和德语的转换规则和生成规则各3 000条左右,一共20 000多条规则,此外,我还编制了若干部机器可读的、代码化的机器翻译词典。由于工作量大,我每天工作时间都超过10小时,扎扎实实苦干了3年,于1981年11月在IBM 4341大型计算机上输出了法语、英语、日语、俄语和德语等5种语言的机器翻译译文。这是世界上个把汉语自动翻译成多种外语的机器翻译系统。
这个系统研制成功之后,在有限规模的语言范围内,翻译的正确率还比较高,而当扩大语言范围时,对于任意的汉语句子,翻译的正确率只能达到70%左右,这样的机器翻译系统显然是难以实用的。我在1982年回国之后,又相继研制了法汉、英汉、日汉和德汉机器翻译系统,翻译正确率都没有超过70%。
我耗费了如此巨大的精力,却得到了很不理想的结果,在严峻的考验面前,我少年时代的机器翻译梦想遭到了挫败。我没有得到多少成功的经验,却留下了大量失败的教训。我为此感到困惑,有一种难言的失落感。
正当我愁眉不展之际,1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J.Hutchins)在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法。这种建立在大规模(largescale)真实文本(authentic text)处理基础上的机器翻译,是机器翻译研究史上的一场革命,它会把自然语言的计算机处理推向一个崭新的阶段。
把语料库方法引入到机器翻译中,改变了机器翻译研究者获取知识的手段,由于语料库是大规模的真实文本,人们就可以得到更加完善的统计性的语言知识,因此,也就大大地提高了机器翻译的质量,加快了机器翻译系统的研制周期。
语言知识究竟在哪里?语言知识固然存在于语法书里,存在于各种类型的词典里,存在于汗牛充栋的语言学论文里,但是,更加全面、客观的语言知识应当存在于大规模的真实文本语料库里,语料库是语言知识可靠的来源。
语料库改变了机器翻译的命运,基于短语的机器翻译发展成为统计机器翻译(statistical machine translation, SMT),机器翻译走向了商品化和实用化的新阶段。
随着互联网的迅速发展,我们进入了大数据时代。数据挖掘成为计算机科学的一个重要研究领域,数据挖掘中采用的机器自动学习的方法,对于统计机器翻译具有重要的价值。
机器自动学习的方法主要有三种类型:有指导的学习、无指导的学习、半指导的学习。
有指导的学习实际上是对于数据进行分类,首先使用事先定义好的类别或范畴标记对数据的实例进行标注,作为训练数据,机器根据这些标注好的训练数据进行自动学习,再根据学习得到的知识对于新的数据进行分类。由于用来学习的训练数据是用事先定义好的标记进行过标注的,机器学习的过程是在这些训练数据的指导下进行的,所以叫作有指导的学习。在无指导的学习中,用来学习的数据没有使用事先定义好的类别或范畴标记进行过标注,要使用机器学习的算法来自动地发现隐藏在数据中的特征、结构或规律。这种无指导学习的一个关键技术是聚类,聚类技术根据数据实例的相同点或相异点,自动地把它们聚类为不同的组合。
有指导的学习要求事先人工标注大量的数据实例,需要付出巨大的人工劳动量,费力而又费时。为了减少人工标注的劳动量,可以同时从标注过的数据实例和没有标注过的数据实例中进行学习,标注过的数据实例的集合可以比较小,而没有标注过的数据实例的集合可以很大,这样的模型叫作半指导的学习。
机器自动学习的这些方法已经成熟,而且广泛地应用于统计机器翻译的研究中,这就从根本上改变了传统的获取语言知识的手段,从大规模的双语对齐语料库中,通过机器自动学习的方法,去获取语言的翻译信息,对于机器翻译的发展具有革命性的意义。
目前,基于多层神经网络的、以大数据作为输入的深度学习(deep learning)方法引入到机器翻译中。这是一种新型的机器自动学习。深度学习的训练方式是无监督的特征学习,使用多层神经网络的方法。这种多层神经网络是非线性的,可以重复利用中间层的计算单元,减少参数,计算机从海量的大数据中可以自动地产生模型的特征和算法。
词向量是多层神经网络的一种重要方法,词向量把单词映射为一个固定维度的向量,不同的词向量构成词向量语义空间,在这个词向量语义空间中,语义相似的单词距离较近。
深度学习研究者米克罗夫(Tomas Mikolov)发现,如果用“意大利”这个单词的属性向量来减去“罗马”这个单词的属性向量,再加上“巴黎”这个单词的属性向量,我们就能得到“法国”这个单词或者相近的属性向量。类似地,如果用“国王”的属性向量减去“男人”的属性向量,再加上“女人”的属性向量,就能得到“王后”的属性向量。这是非常令人振奋的结果,因为米克罗夫事先并没有刻意地做这样的安排。
2007年以来,采用深度学习的方法,以大规模的双语对齐的口语语料库作为语言知识的来源,从双语对齐的口语语料库中获取翻译知识,统计机器翻译又进一步发展成了神经机器翻译(neural machine translation, NMT),口语神经机器翻译正确率已经超过了90%,针对日常口语的神经机器翻译基本上可以付诸实用了。
但是,在这种神经机器翻译中,语言之间的翻译细节还是一个黑箱(black box),尽管翻译的结果不错,我们对于其中的语言处理机制仍然是不清楚的,在语言学理论上,我们还难以做出科学的解释。
近,深度学习向神经网络中融入记忆机制,把基于理性主义的知识驱动与基于经验主义的数据驱动结合起来,架起了符号主义与联接主义之间的桥梁。这应当是今后神经机器翻译发展的新方向。
可以看出,由于在机器翻译中引入了语料库技术,机器翻译已经获得了巨大的进步,这是令人可喜的。不论是书面语文本语料库还是口语语料库,都是机器翻译得以发展进步的关键性因素。语料库对于机器翻译的发展具有举足轻重的作用。
目前,汉语中介语语料库建设已经取得了很大的成绩。北京语言大学、南京师范大学、鲁东大学、暨南大学、中山大学、上海交通大学、厦门大学、台湾师范大学先后建立了不同规模的汉语中介语语料库。香港中文大学、新疆医科大学还建立了汉语口语习得语料库。
在这些中介语语料库的基础上,研究者们进行了卓有成效的研究,成果斐然。第三届汉语中介语口语语料库国际会议为交流这些成果提供了一个很好的交流机会,我衷心祝贺这次国际会议成功。

从口语研究看口语中介语语料库建设
刘运同
内容提要 本文从语言研究与语料库建设之间的关系出发来探讨口语中介语语料库的建设。语料库研究者提出的“偏误标注 基础标注”的标注模式为语言研究者和中介语研究者指明了研究的方向。本文评述的两个个案表明,口语本身以及学习者的口语中介语的研究虽然已经有了可喜的开始,恐怕都还不能很好地满足语料库建设的需要。语料库建设对此要有清醒的认识。
关键词 口语中介语语料库;口语研究;中介语研究
一、引言
中国的中介语语料库建设经过多年的发展,已经积累了丰富的经验,并开始从理论上进行提炼总结。例如关于中介语语料的标注,研究者提出了“偏误标注 基础标注”的标注模式(张宝林,2013)。这一标注模式的提出,不仅为中介语语料库建设提供了可行的标注方案,并且也为中介语研究指明了探索的路径。一方面中介语的研究需要汲取本体研究的成果,采用能为大家接受的理论和描写作为基础标注的基础;另一方面中介语的研究需要对学习者中介语的使用有充分的了解,才能在语料标注时对学习者的偏误做出准确和恰当的描述和概括。
从这个角度来观察汉语口语中介语语料库建设,我们认为,虽然近年来口语中介语语料库建设逐渐成为热点,但是人们对建设口语中介语语料库的困难仍然估计不足。口语中介语语料库建设的困难不仅在于口语语料收集和转写的难度,而且还在于学界对口语本身的研究不充分,而且研究者对汉语中介语的研究也是刚刚起步。也就是说,相对于书面语语料库建设,口语语料库建设的可资利用的理论和基础研究远远逊色于书面语语料库建设。本文将利用两个个案来说明,对口语本身的研究及学习者口语中介语的研究如何深刻影响语料的分析和标注。
二、个案一:易位句
所谓易位句,就是句子成分倒装以后形成的语句。如例(1)来自2002—2003年度CBA总决赛第二场比赛后记者对广东宏远队队员朱芳雨的赛后采访,我们关注的重点是“也看到了今天也有实力去赢我们在东莞这个我们的主场这里”。这句话的主语是前面提到的山东队,不管我们如何分析这个句子,在说出“赢我们”之后,这个句子本来就可以结束了,但发话人却加上“在东莞这个我们的主场这里”这个介词短语。朱芳雨补充出主场这个信息,是为了强调说明山东队也很有实力,因此广东队应该认真应对。
(1)但是他们也有希望,也有就是也看到了今天也有实力去赢我们在东莞这个我们的主场这里。[体育直播,2013/03/24]
自从陆俭明(1980/1993)提出易位句的概念,研究者对这一现象及相关的句法现象进行了深入的研究,提出了各种各样的解释,如追加(陈健民,1984)、追补(史有为,1985)、主位后置(张伯江、方梅,1994、1996)、延伸句(陆镜光,2005)、添加(李剑锋,2000)等。其中特别需要关注的是陆镜光“延伸句”的观点。
2000年,陆镜光发表《句子成分的后置与话轮交替机制中的话轮后续手段》一文,次指出,“话轮后置成分可以部分地归结于替换机制”,“句子后置成分在话轮交替相关处起到一种话轮延续的作用”。(2000:303)在此基础上,陆镜光提出了“延伸句”的概念。陆镜光提出“延伸句”的概念,也是为了统一处理和解释诸如易位、追补、重复等多种语言现象。他认为,“,从会话的结构来看,后续语的基本作用是把句子延长,这样可以给听话人更充分的时间做好接话轮的工作,使话轮的转换进行得更顺畅……第二,信息的传递是在时间轴上进行的,在传递一连串的信息的时候,不可避免地要面对信息排序的问题。在一定的言语交际环境中,说话人可以通过倒装、重复、追补等手段,首先交代较重要的信息,然后补充或者扩充前面的信息。”(2005:44)
在理论建设方面,我们认为“延伸句”的提出有两点重要的贡献:是把以前研究者所谓的倒装、易位和重复等现象跟句子的弹性特点联系起来,用动态的方法来研究这种句式的形成机制;第二是利用会话分析的理论和方法,采用真实可靠的语料来支撑自己的论述。不过,这种解释也存在一些不完善的地方。在上述引述的两点重要论述中,第二点是信息排序。陆镜光认为,延伸句可以让交际者“首先交代较重要的信息,然后补充或者扩充前面的信息”,这样的解释似乎有回到了“主位后置”说的老路上了。同时,这样的解释也无法说明一些研究者提及的后置部分表示语义重点、新信息的事实。信息的排列可能只是导致出现延伸句的一个原因。在另一篇论文中,陆镜光(2004:6)也说,“延伸句子的理由很多,除了上文提到的再话题化(re-topicalization)、小范围内话题的重新确认(local topic re-instatement)之外,句子延伸还能起到确认或强调当前话题、改换说法、补充相关信息、方便话轮交替等作用。”
至于点,陆镜光(2005:44)认为,“后续语的基本作用是把句子延长,这样可以给听话人更充分的时间做好接话轮的工作,使话轮的转换进行得更顺畅。”我们认为,这种论述是不准确的,对后续语在会话中的作用挖掘不深。根据我们的研究,交际者在一个话轮结束的地方进行补充、延伸,往往是为了使自己的话语更完美,更好地传达自己的交际意图,因而可以更好地引起听话人的反应。也就是说,延伸话轮不仅仅是为了延长时间,方便听话人接过话轮,而是为了弥补先行话语的不足,从而更有利于听话人做出适当的反应(刘运同,2015:7-13)。
如果从口语生成的角度来看问题,我们认为,易位句的形成跟口语表达时的信息加工特点有关。在口头交流时,受到人类认知加工能力的局限(特别是在线加工时),会话者一次能产出的信息量有限度,因此会话者会通过降低加工难度的方法来增加加工速度。易位句可以看作是会话者化整为零的一种加工策略,通过先行部分和后续部分两次加工来更好地完成交流任务。这也就是为什么有些后续成分[如例(1)]可以充当语义重点、可以重读的原因。可以说,会话者通过这样的方式扩展了句法的可能性,使用有限的手段来表达丰富的内容。
从口语语法的标准来衡量和分析,所谓的易位句是口语中很正常的表达手段。如果有的研究者固守书面语的语法标准,把如例(1)这样口语中正常的表达分析为(标注为)偏误,那就从根本上歪曲了交际者的语言表现和语言能力。对此类口语语法现象,在进行基础标注时采用研究者提出的分类(如延伸句)来进行标注,也许就是一个不错的选择。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.