登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書

『簡體書』群智化数据标注技术与实践

書城自編碼: 3790920
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 孙海龙 杨晴虹 陈尚义 施佳樑主编
國際書號(ISBN): 9787512438651
出版社: 北京航空航天大学出版社
出版日期: 2022-09-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 93.2

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
校园欺凌
《 校园欺凌 》

售價:HK$ 59.8
培训需求分析与年度计划制订——基于组织战略,做”对的”培训!
《 培训需求分析与年度计划制订——基于组织战略,做”对的”培训! 》

售價:HK$ 82.8
这就是心理咨询:全球心理咨询师都在用的45项技术(第3版)
《 这就是心理咨询:全球心理咨询师都在用的45项技术(第3版) 》

售價:HK$ 153.6
正说清朝十二帝(修订珍藏版)
《 正说清朝十二帝(修订珍藏版) 》

售價:HK$ 105.6
黑海史:从历史涟漪到时代巨浪
《 黑海史:从历史涟漪到时代巨浪 》

售價:HK$ 115.2
楼边人似玉
《 楼边人似玉 》

售價:HK$ 56.2
我,毕加索
《 我,毕加索 》

售價:HK$ 60.0
投资真相
《 投资真相 》

售價:HK$ 81.6

 

建議一齊購買:

+

HK$ 115.9
《 中医食疗学——全国中医药行业高等教育“十四五”规划教材 》
+

HK$ 146.9
《 细胞生物学(第5版) 》
+

HK$ 70.0
《 马克思主义政治经济学概论(第二版)—马克思主义理论研究和建设工程重点教材 》
+

HK$ 80.0
《 中国古代史十四讲 博雅大学堂·历史 叶炜著 》
+

HK$ 131.3
《 高鸿业版 西方经济学教材(宏观+微观 第八版)(套装共2册) 》
+

HK$ 51.7
《 马克思主义基本原理专题研究(修订版) 》
編輯推薦:
本书由百度官方出品
工业和信息化部“十四五”规划教材
內容簡介:
本书属于工业和信息化部“十四五”规划教材。全书以数据标注对人工智能技术与应用的重要意义为出发点,梳理了数据标注从小规模、自给自足模式向大规模、职业化标注模式的发展脉络,深入介绍了当前以众包和数据标注工厂为代表的标注模式所呈现的“群智化”关键特征,并结合不同类型的数据以及典型应用场景,系统介绍了数据标注的基本概念、关键技术、支撑工具和系统平台,以及标注过程的组织和管理方法等。第1~4章详细介绍数据标注的基础概念、技术及系统等;第5~8章分别介绍文本、音频、图像和视频四类数据的标注技术;第9、第10两章以自动驾驶数据标注、人脸与人体数据标注的真实场景为出发点,从实操的角度分别阐述自动驾驶场景、人脸与人体数据标注实践过程;第11章展望数据标注技术的未来发展。
本书以培养人工智能应用所急需的数据标注人才为目标,可供高职、大专院校人工智能和大数据等相关专业师生使用,也可供从事数据标注职业的技术人员以及人工智能技术实践者参考阅读。
關於作者:
孙海龙 教授,博士生导师。担任软件开发环境国家重点实验室副主任,中国计算机学会协同计算专委副秘书长。入选国家“万人计划”青年拔尖人才、新世纪优秀人才和北京市科技新星等人才计划。主讲《操作系统》课程。主要研究方向:群体智能、智能软件工程、开源软件和分布式系统等。
目錄
第1章 人工智能与数据标注
1.1 人工智能基础
1.1.1 人工智能概述
1.1.2 人工智能发展简史
1.1.3 人工智能主要研究内容与热点
1.1.4 人工智能的应用场景
1.1.5 人工智能的发展前景
1.2 数据——人工智能的重要基石
1.2.1 数据是人工智能行业的“石油”
1.2.2 数据的定义与来源
1.2.3 标注数据是机器学习的重要基础工作
1.3 数据标注的概念与现状
1.3.1 数据标注的概念
1.3.2 数据标注应用与发展现状
1.4 数据标注的主要发展脉络
1.4.1 小规模专家标注
1.4.2 群智化标注
1.5 本章小结
1.6 作业与练习
第2章 群智化数据标注技术与系统
2.1 数据标注的基本方法
2.1.1 人工标注
2.1.2 自动化标注
2.1.3 人机协同标注
2.2 常见数据标注任务及工具
2.2.1 文本数据标注
2.2.2 音频数据标注
2.2.3 图像数据标注
2.2.4 视频数据标注
2.2.5 面向特定场景的综合数据标注
群智化数据标注技术与实践
2.3 群智化数据标注技术
2.3.1 群智化数据标注的产生背景
2.3.2 群智化数据标注面临的挑战与应对方法
2.4 群智化数据标注平台
2.4.1 群智化数据标注平台产生背景
2.4.2 群智化数据标注平台现状
2.4.3 群智化数据标注平台的主要功能
2.4.4 群智化数据标注平台架构概述
2.5 群智化数据标注平台实例
2.5.1 众包平台——亚马逊 MTurk
2.5.2 支持数据标注工厂模式的平台——百度众测
2.6 本章小结
2.7 作业与练习
第3章 群智化数据标注项目的管理方法
3.1 背景简介
3.2 数据标注项目的实施流程
3.2.1 数据采集
3.2.2 数据清洗
3.2.3 数据标注
3.2.4 数据质检
3.2.5 数据交付
3.2.6 数据验收
3.3 数据标注项目管理
3.3.1 人员管理
3.3.2 项目评估
3.3.3 过程管理
3.3.4 进度管理
3.4 数据标注质量管理
3.4.1 数据标注质量控制的意义
3.4.2 数据标注质量控制的概念、流程和方法
3.4.3 数据标注质量评价指标
3.5 数据标注的标准化
3.5.1 数据标注标准化背景
3.5.2 数据标注标准化进展
3.6 本章小结
3.7 作业与练习 目 录
第4章 基于平台的群智化数据标注实践
4.1 面向客户的数据标注实践
4.1.1 数据标注项目需求分析
4.1.2 任务设计与发布
4.1.3 数据验收
4.2 面向数据标注员的实践环节
4.2.1 身份认证
4.2.2 数据标注员培训
4.2.3 标注项目参与
4.2.4 标注结果验收
4.3 基于亚马逊 MTurk的众包标注实践
4.3.1 任务发布及验收示例
4.3.2 基于 MTurk平台的数据标注示例
4.4 基于百度众测平台的数据标注工厂模式实践
4.4.1 基于百度众测平台的任务发布实例
4.4.2 基于百度众测平台的项目验收实例
4.4.3 基于百度众测平台的标注员实践示例
4.5 本章小结
4.6 作业与练习
第5章 文本数据标注
5.1 文本数据标注简介
5.1.1 文本数据
5.1.2 文本数据标注及其发展
5.1.3 文本数据标注应用场景
5.2 文本数据标注技术和方法
5.2.1 序列标注
5.2.2 关系标注
5.2.3 属性标注
5.2.4 生成性标注
5.3 文本数据标注工具及典型数据集
5.3.1 文本数据标注工具
5.3.2 典型文本数据集
5.4 文本数据标注实践案例
5.4.1 市长热线投诉内容关键要素抽取———辅助工单填写
5.4.2 相关事件、新闻检索
群智化数据标注技术与实践
5.5 本章小结
5.6 作业与练习
第6章 音频数据标注
6.1 音频数据标注简介
6.1.1 音频数据标注的概念
6.1.2 音频数据
6.1.3 音频数据标注及其发展
6.1.4 音频数据标注应用场景
6.2 音频数据标注技术和方法
6.2.1 语音属性标注
6.2.2 语音转写
6.2.3 语音切分
6.3 音频数据标注工具及典型数据集
6.3.1 音频数据标注工具
6.3.2 典型音频数据集
6.4 语音数据标注实践案例
6.4.1 智能客服语音数据标注
6.4.2 智能冰箱语音数据标注
6.4.3 面向多轮对话场景的语音数据标注
6.5 本章小结
6.6 作业与练习
第7章 图像数据标注
7.1 图像数据标注简介
7.1.1 图像数据
7.1.2 图像数据标注及其发展
7.1.3 图像数据标注应用场景
7.2 图像数据标注技术和方法
7.2.1 关键点标注
7.2.2 标注框标注
7.2.3 图像区域标注
7.2.4 属性标注
7.3 图像数据标注工具及典型数据集
7.3.1 图像数据标注工具
7.3.2 典型图像数据集
7.4 图像数据标注实践案例
7.4.1 图像数据标注热门实例——3D点云标注
7.4.2 图像数据标注综合案例——OCR光学字符识别
7.5 本章小结
7.6 作业与练习
第8章 视频数据标注
8.1 视频数据标注简介
8.1.1 视频及视频数据标注概念
8.1.2 视频数据标注的现状与发展前景
8.1.3 视频数据标注应用场景
8.2 视频数据标注技术和方法
8.2.1 视频属性标注
8.2.2 视频切割
8.2.3 视频连续帧标注
8.3 视频数据标注工具及典型数据集
8.3.1 视频数据标注工具
8.3.2 典型视频数据集
8.4 视频数据标注实践案例
8.4.1 人体跟踪视频数据标注
8.4.2 视频内容提取
8.5 本章总结
8.6 作业与练习
第9章 面向自动驾驶场景的数据标注实践
9.1 自动驾驶技术
9.1.1 自动驾驶的发展
9.1.2 自动驾驶关键技术
9.1.3 自动驾驶相关数据集
9.2 自动驾驶的2D数据标注实例
9.2.1 2D障碍物标注
9.2.2 2D红绿灯标注
9.2.3 2D车道线标注
9.2.4 图像语义分割标注
9.3 自动驾驶的3D点云数据标注实例
9.3.1 3D纯点云标注
9.3.2 2D 3D融合标注
9.3.3 点云语义分割标注
群智化数据标注技术与实践
9.4 本章小结
9.5 作业与练习
第10章 人脸与人体数据标注实践
10.1 人脸识别与人脸数据标注
10.1.1 人脸识别及应用场景
10.1.2 人脸数据标注技术
10.1.3 人脸数据标注操作分类
10.1.4 人脸数据标注实例
10.2 人体识别与人体数据标注
10.2.1 人体识别与手部识别的应用场景
10.2.2 人体数据标注与手部数据标注
10.2.3 人体数据标注与手部数据标注实例
10.3 本章小结
10.4 作业与练习
第11章 数据标注未来展望
11.1 数据标注需求趋势
11.1.1 人工智能技术与应用的发展趋势
11.1.2 数据标注需求持续增长
11.2 数据标注技术发展方向
11.2.1 智能化数据标注技术
11.2.2 数据标注安全与隐私
11.2.3 新型数据标注工具和平台
11.3 群智化数据标注的未来发展
11.3.1 数据标注的大众化与职业化并行发展趋势
11.3.2 数据标注智能化的过程管理
11.3.3 数据标注过程标准化
11.4 本章小结
11.5 作业与练习
附录 数据标注工程师职业等级划分与技能等级认证要求
参考文献
內容試閱
推荐序
大规模高质量的训练数据是当今数据驱动的人工智能技术与应用创新的重要基础,而训练数据的构建离不开人工主导的数据标注。标注数据中蕴含的人类知识和经验是许多人工智能算法的基础,因此数据标注可以看作是实现从人类智能向人工智能转化的桥梁。特别是以深度神经网络为代表的人工智能技术需要更大规模的训练数据,使得传统小规模专标注难以满足人工智能技术发展的需要。在这种情况下,出现了基于互联网的众包标注,其通过平台将数据标注需求方和标注者连接起来,从而依靠互联网上未知大量用户的群体智能实现高效的数据标注。例如,斯坦福大学通过众包标注构建了ImageNet数据集,推动了计算机视觉和深度学习算法的进步;卡内基梅隆 大学的reCAPTCHA 项目利用众包技术帮助《纽约时报》实现了过去110年的报纸的 数字化工作。这些基于群体智能的数据标注模式和平台为我从事群体智能的研究提供了鲜活的案例和启发。
伴随人工智能产业的发展,为了满足日益增长的标注数据需求,我国出现了数据标注员等新的职业岗位,并出现了许多专门从事数据标注业务的企业。这些企业雇佣大量的数据标注员,并引入工程管理方法,通过标注员之间的群智协同完成客户的标注项目,由此可见,数据标注已逐渐走向群智化、职业化。北京航空航天大学软件开发环境国家重点实验室的李未院士领导了群体智能方向的论证和规划,推动了群体智能列入国家新一代人工智能发展规划。近年来,我一直担任软件开发环境国家重点实验室学术委员会委员,有更多机会了解实验室在群体智能方面的工作。作为实验室的骨干成员,北航的孙海龙教授在群体智能理论和方法方面开展了深入的研究,在群智化数据标注方面提出了一系列提高数据标注效率和质量的新方法,发表在人工智能领域的重要学术会议 AAAI和IJCAI等。百度公司作为国际知名的互联网公司,一方面自身有大量的数据标注需求,另一方面研发了百度众测平台提供数据标注服务,并开展了大量的数据标注实践。此次双方联合编写的《群智化数据标注技术与实践》教材是一个产教研融合的范例。教材梳理了数据标注发展的脉络,把握住了当前数据标注的“群智化”特征,对数据标注的基本概念、关键方法、支撑工具和应用案例等进行了全面介绍。特别是该教材已列入工业和信息化部“十四五”规划教材。我相信该教材对于培养数据标注人才,推动我国人工智能技术的发展一定能够起到重要作用。
借此教材出版之际,我希望更多行业关注数据标注问题。实际上,许多行业的专业人员每天都在产生大量高质量的标注数据,例如,判读医学影像数据的医务工作者产生着医学影像标记数据;判读声呐信号的声呐员产生着水声标记数据等。如何高效、低成本、合规地汇聚和使用这些行业的标注数据,对于人工智能的研究具有重要意义,对于我国数字经济发展同样具有重要意义,无论是普通高等教育还是高等职业教育,都需要提高学生的数据意识和能力。今年5月1日《中华人民共和国职业教育法》颁布施行, 该法明确,职业教育是与普通教育具有同等重要地位的教育类型,高等职业教育不再被视为高等教育的一个初级层次,而是与普通高等教育具有同等重要地位的教育类型,两种教育类型具有很强的互补性。从数据标注实践中,我们可以看到研究型大学和职业 型大学在人才培养上的合作空间。北京航空航天大学软件开发环境国家重点实验室与百度公司联合编写的《群智化数据标注技术与实践》教材,既是一个产教研融合的范例, 也是研究型大学和职业型大学合作培养人工智能人才的实践。
王怀民
中国科学院院士
2022年7月20日

前言
近年来,以机器学习为代表的人工智能技术快速发展,已成为推动各行业创新发展的新技术引擎,因而得到世界各国政府、学术界和产业界的普遍重视。在各类机器学习方法中,决策树、朴素贝叶斯、支持向量机、k最近邻、AdaBoost以及神经网络等有监督学习算法得到广泛应用,而训练高质量的有监督机器学习模型往往需要丰富的训练数据,尤其是对于深度神经网络等具有大量参数的机器学习模型来说,往往需要更大规模的训练数据集。
数据标注是构建训练数据集的核心技术,其依赖人类标注员使用标注工具完成对待标注数据的标记或者解释。在数据标注技术的发展过程中,形成了两种典型的数据标注模式:专家标注和群智化标注。早期训练机器学习模型仅需要较少的标注数据,数据标注的工作往往由少量的标注专家即可完成。采用专家标注模式的标注质量较高,但是平均标注成本高。群智化标注包括众包标注和数据工厂标注两种形式。一方面,随着复杂机器学习模型的不断提出,特别是深度神经网络的快速发展,对标注数据的需求越来越大,互联网上出现了众包标注模式。众包标注的代表性工作是斯坦福大学李飞飞教授团队利用众包模式构建的著名的图像标注数据集ImageNet,其有力地推动了深度学习技术与应用的发展。相对专家标注,众包标注的成本较低,但是标注人员的不确定性给数据标注的质量提出了新挑战。另一方面,随着人工智能的广泛应用,对标注数据的需求与日俱增,为了满足日益增长的数据标注需求,逐渐出现以数据标注为核心业务的实体企业或者部门,这些企业或部门从客户那里接收待标注数据,并通过设立标注项目、组建标注员团队、部署标注工具或平台和管理标注过程等活动开展标注任务,最终向客户提供高质量标注数据,我们将这种标注形式称为“数据标注工厂”。国内的百度、阿里、腾讯和京东等互联网企业纷纷推出数据标注平台,支撑基于数据标注工厂模式提供高效优质的数据标注服务。无论是众包标注,还是数据标注工厂,它们的共同特点是利用大量标注员的“群智”贡献实现对海量数据的标注。总之,群智化标注模式的出现与发展演进是数据标注从小规模、自给自足方式发展成为大规模、职业化方式的
重要标志,是为了满足人工智能对标注数据需求不断增长的必然结果。
在此背景之下,培养大量高素质的数据标注员对于推动我国人工智能技术创新与产业发展,缩小我国与国际人工智能先进水平的差距具有重要意义,对数据标注员的职业化教育和培训成为我国教育领域的一项紧迫任务,相关的教材建设尤为重要。在数据标注领域,目前市面上有限的几种教材在对数据标注发展过程的系统化梳理,以及对当前以“群智化”为主要特征的数据标注过程管理、标注技术和应用实践中的新问题和新特性的把握等方面尚需改进。北京航空航天大学软件开发环境国家重点实验室的李未院士等科学家率先开拓了“群体智能(Crowd Intelligence)”研究方向,并推动群体智群智化数据标注技术与实践能列入国家新一代人工智能发展规划,北京航空航天大学成为开展“群体智能”方向研究的先行者和优势单位,在相关理论和技术方面积累了丰富成果。百度公司是大数据和人工智能领域中科研和实践的先锋企业,在国内很早就研发了“百度众测”平台,在山西省等地率先建立了人工智能基础数据产业基地,有力推动了群智化数据标注技术的研发与应用。为此,双方联合成立了教材编写团队,旨在充分发挥双方在学术研究和产业应用实践方面的优势与积累,编写一本高质量的反映数据标注最新技术特点的教材,希望能够为我国人工智能方面的人才培养和技术创新做出贡献。本书重点介绍群智化数据标注的基础知识、关键技术、系统工具和应用实践等内容。从数据标注对人工智能技术与应用的重要意义出发,梳理了数据标注从小规模、自给自足模式向大规模、职业化标注模式的发展脉络,深刻把握当前以众包和数据标注工厂为代表的标注模式所呈现的“群智化”关键特征,结合不同类型的数据以及典型应用场景对数据标注的基本概念、关键技术、支撑工具和系统平台、组织和管理方法等进行系统性介绍。其中,第1~第4章对群智化数据标注的基础概念、技术及系统等进行详细介绍;第5~第8章则分别对文本、音频、图像和视频四类数据的标注进行介绍;第9、第10两章则从自动驾驶数据标注、人脸与人体数据标注的真实场景出发,从实操的角度进行阐述;第11章对数据标注的未来发展进行展望。本书以培养人工智能应用所急需的数据标注人才为目标,适合作为高职、大专院校人工智能和大数据等相关专业的教材,也适合从事数据标注职业的技术人员以及人工智能技术实践者阅读。
本书由北京航空航天大学的师生和百度在线网络技术(北京)有限公司的技术人员联合编写。在编写过程中,北京航空航天大学的博士生王子哲和柴磊重点参与了第1~第4章和第11章的编写工作,以及全书内容的整体规划、反复校对和多轮迭代修改工作;硕士生顾睿彤以及郝延朴、石泽宏、刘源森、闫思桥、戴芳菲、姜昊等本科生同学参与了第5~第10章内容的编写与校对等工作;百度公司的蒋晓琳、李昱霖、李明、陆汀、谭小红、蒋志坚、洪至远、王光浩、项光特、张亚萍、朱于磊、刘皓、侍纪伟、杨佳莹、马利艳、王瑞霞、孙源婕和刘悦旻等为标注平台及实践案例方面的内容编写、全书编写工作的组织、内容审核与校对等方面给予了重要支持;北京航空航天大学的陈志珺、孙成斌、齐斌航、沈逸君、王仲池、隋睿、许淳逸、李兆天、王乾伟和亓鲁等研究生多次参与书稿的校对工作。
中国科学院院士王怀民特别为本书作序,王院士是我国开展群体智能研究的著名专家,我们对王院士的支持致以最诚挚的感谢! 工业和信息化部批准了本书的“‘十四五’规划教材”立项申请,特别感谢工业和信息化部以及评审专家对本书的认可和支持!本书中阐述的群智化标注的一些思想和方法是编者在长期开展研究工作的过程中形成的,这些工作得到了国家自然科学基金项目(61932007,61972013和62141209)和国家重点研发计划(2019YFB1705902和2016YFB1000804)的支持,感谢科技部和国家自然科学基金委员会! 此外,在本书编写过程中,参考、引用了许多学术界和工业界数据标注方面的理论方法、关键技术、系统工具和应用实践等成果和应用案例,在此,对相关的学者、技术人员和工程师等表示衷心感谢!
尽管我们已尽最大努力保证本书的编写质量,但由于水平所限,书中难免存在错误与不当之处,望广大读者批评指正,我们会持续改进本书的内容,欢迎读者通过电子邮件ehailong@hotmail.com 提供宝贵意见和建议。
编 者
2022年7月于北京

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.