新書推薦:

《
开放科学:人工智能时代的呼唤
》
售價:HK$
108.9

《
武器化的知识:国联、自由秩序和软力量的使用
》
售價:HK$
86.9

《
大马士革:刀锋下的玫瑰(方尖碑)
》
售價:HK$
130.9

《
造脸:整形外科的兴起(医学人文丛书)
》
售價:HK$
85.8

《
理由至上
》
售價:HK$
129.8

《
千秋堂丛书003:南渡之君——宋高宗的踌躇与抉择
》
售價:HK$
96.8

《
中国丝绸艺术大系·中国丝绸博物馆卷(明清)
》
售價:HK$
1078.0

《
为学习而设计:以任务驱动语文单元整体教学
》
售價:HK$
74.8
|
編輯推薦: |
1.技术突破:针对古籍碎片化数据,提出基于深度学习的多模态修复模型,实现破损文字智能补全与语义还原;
2.方法论革新:”三层数据转化模型”,打通古籍扫描图像→结构化数据→知识图谱的全链路;
3.数据工程深度解析:详解古籍文本清洗、标注、增强等关键环节,解决训练数据匮乏难题;
4.教育增值:配套数据集 代码案例,支持高校开设”数字人文”跨学科课程,培养懂AI的文献学者与懂古籍的算法工程师
|
內容簡介: |
古籍数字化是一项复杂而重要的工作,它不仅有助于保护和传承中华优秀传统文化,还为学术研究和文化传播提供了强有力的支持。本书深入探讨了古籍数字化的重要性及其面临的挑战,详细介绍了古籍数据、深度学习在古籍数字化领域的应用场景及其应用潜力,并针对古籍文本数据的碎片化问题进行了深入分析。此外,书中还讨论了基于深度学习的古籍数字化过程中的数据预处理、数据标注和模型优化等问题,提出了一系列解决方案,为读者提供了可借鉴的经验和方法。
本书适合古籍保护与研究人员、图书馆和档案馆工作人员、计算机科学与技术领域的学者,以及对古籍数字化感兴趣的读者参考和使用。
|
關於作者: |
王秀香,国家图书馆副研究馆员,主要研究方向为图书馆标准化研究、数字图书馆研究、文献资源保护研究等。发表论文10余篇,参编著作两部,参与1个国家标准、4个行业标准的编写,参与多个国家级、省部级科研项目,主持完成国家图书馆科研项目1项。
|
目錄:
|
第 1章 绪论 / 1
1.1 古籍的定义 / 5
1.2 文字 / 14
1.3 深度学习 / 32
1.4 研究说明 / 36
第 2章 古籍数据 / 39
2.1 数据模型 / 39
2.2 数据格式 / 56
第3章 古籍文本数据碎片化 / 85
3.1 碎片数据模型 / 87
3.2 碎片数据特点 / 91
3.3 碎片数据生成 / 107
第4 章 文本分类 / 135
4.1 内容分类 / 136
4.2 题名分类 / 147
第5 章 序列标注 / 159
5.1 专名识别 / 160
5.2 句读标点 / 175
第6 章 余论 / 191
6.1 数据 / 191
6.2 模型 / 206
参考文献 / 219
附 录 / 233
附录1 古籍点校通例(中华书局编辑部1983 年编写) / 233
附录2 古籍字频统计数据 / 236
附录3 古籍传统编目项与MARC 字段对照表 / 238
附录4 古籍元数据规范(CDLS-S05-013) / 241
附录5 古籍索引数据XML Schema / 244
附录6 古籍版式文本数据头文件XML Schema / 244
附录7 古籍版式文本数据叶文件XML Schema / 245
附录8 古籍碎片数据XML Schema / 245
附录9 四部分类法类目表 / 246
|
|