新書推薦:

《
珊瑚:美丽的怪物
》
售價:HK$
126.5

《
基于语体的语篇衔接方式的选择性研究
》
售價:HK$
74.8

《
美国政治传统及其缔造者:一部美国版《史记》
》
售價:HK$
96.8

《
孤独谱系障碍评估与干预:从理论到实践 国际经典医学心理学译著
》
售價:HK$
228.8

《
大数据导论(第2版)
》
售價:HK$
75.9

《
帝国时代
》
售價:HK$
206.8

《
现象学的心灵(第三版)(中国现象学文库·现象学原典译丛·扎哈维系列)
》
售價:HK$
107.8

《
近世通儒——纪念沈曾植逝世100周年学术研讨会论文集
》
售價:HK$
184.8
|
編輯推薦: |
《深入浅出机器学习:从数据到AI算法》是一本为机器学习和人工智能领域量身打造的全面指南。本书以六章的丰富内容,系统讲解了数据的重要性、数据分析技巧、高维空间数据处理、以及AI算法的核心原理。通过实际案例和详细讲解,本书不仅培养读者对数据的敏锐洞察力,还深入探讨了人机对话技术,包括ChatGPT的核心技术。无论是初学者还是专业人士,都能从中获得宝贵的知识和启发,将理论与实践相结合,提升在机器学习和AI领域的实战能力。
|
內容簡介: |
《深入浅出机器学习:从数据到大模型》是一本旨在帮助读者系统学习机器学习的著作。本书通过深入浅出的方式,将复杂的机器学习理论和技术讲解得深入浅出。
本书从机器学习的基础开始,为读者提供了对数据处理、特征工程和模型评估等核心概念的全面介绍。读者将学习如何准备和清洗数据,如何选择和构建合适的特征,并学会使用各种评估指标来评估模型性能。
然后,本书深入探讨了常见的机器学习算法和技术。详细解释了线性回归、逻辑回归和神经网络等算法的原理和应用,通过丰富的示例和实践项目,掌握这些算法的实现和调优技巧。
本书聚焦于大规模模型和深度学习,介绍了深度学习的基本原理和常用的深度学习框架,如TensorFlow和PyTorch。读者将学习如何构建深度神经网络,如何进行模型训练和调优,并了解大规模机器学习系统的实现和部署。
|
關於作者: |
陈德忠,AI算法工程师,先后在多个企业中分别担任高级工程师、AI技术总监、研究院副院长等职务,是厦门新一代人工智能专家库成员。在AI技术方向上拥有二十多年从业经历,涉及的行业有办公、金融、交通、安防、工业、教育等,拥有丰富的AI产品或项目的管理和研发经验。
肖彧洁,教授级高工,国际数字地球学会中国国家委员会空间信息产业化专业委员会委员。曾任职于中国智慧城市与大数据研究院,从事计算机软件工程、网络安全、数据科学应用等多学科的教学与科研工作,曾参与中国智慧城市顶层设计课题研究及规划。
|
目錄:
|
第 1 章 AI 算法的基础—数据
1.1 科学研究的两种方法
1.2 深度学习技术也离不开对数据的观察
1.3 一个通过数据观察和分析的 AI 算法技术创新案例
1.4 数据问题导致的算法或项目失败案例
1.4.1 忽视数据误差
1.4.2 忽视数据特点
1.4.3 忽视人工标注数据的不可靠性
1.5 如何选择合适的算法
1.6 数据是推进人工智能技术发展的“燃料”
第 2 章 培养对数据的敏锐观察力
2.1 心中有“数”
2.2 数据理解力
2.3 实践经验积累
2.4 数据的复杂性
2.5 培养创新意识
2.6 两种思维模式
2.7 观察数据实现算法的案例
2.7.1 算法设计需求—检测电路板中的污渍
2.7.2 观察数据
2.7.3 算法设计
第 3 章 所有的努力都是为了提升概率—漫谈数据分析方法
3.1 AI 系统的可靠性是个概率问题
3.2 呈高斯分布的数据
3.3 高斯分布与聚类分析
3.4 分析数据间的关系—相关性分析
3.5 数据频域分析—如何理解傅里叶变换
3.5.1 卷积
3.5.2 复数
3.6 图像数据分析
3.6.1 分析图像数据的格式
3.6.2 分析图像数据来源
3.6.3 分析图像数据的生成场景
3.6.4 结合图像识别需求分析图像数据的特点
3.6.5 分析生成识别模型所需要的训练图像数量
3.7 自然语言数据分析要领
3.7.1 分析要处理的自然语言包含的语言种类
3.7.2 分析文本数据涉及的场景类型
3.7.3 分析文本数据的字符编码
3.7.4 分析文本数据的大小
3.7.5 结合需求分析文本数据的特点
3.7.6 分析建立自然语言处理模型需要的数据量
3.8 一个充分分析文字数据特点实现算法设计的案例—数学相似题判断方法
第4章 高维空间中的数据
4.1 高维灾难
4.2 高维空间数据分布特点
4.2.1 稀疏性
4.2.2 高维空间数据趋于表面分布
4.2.3 高维空间向量近似正交
4.3 高维空间难题的解决方法
4.4 高维空间数学理论应用案例
4.4.1 JL 引理.
116
4.4.2 压缩感知
4.4.3 利用随机投影获取图像特征
4.4.4 利用随机投影获取到的特征值进行运动物体跟踪的方法
第5章 数据之间存在千丝万缕的联系
5.1 上下文关系
5.2 知识图谱
5.3 事件图谱
5.4 事件图谱应用案例
5.4.1 大数据能做什么
5.4.2 教学活动过程中的事件本体设计
5.4.3 教学活动过程大数据系统框架
5.4.4 教学过程中的事件图谱应用
第6章 让机器学会说话
6.1 语言的起源
6.1.1 不是只有人类才拥有“语言”
6.1.2 人类语言的形成过程
6.1.3 文字的产生
6.2 汉语和英语的语言差异
6.2.1 词语
6.2.2 语法
6.3 Transformer 模型
6.3.1 人工神经网络
6.3.2 Transformer 模型技术原理.
195
6.4 殊途同归 . 201
6.4.1 智能涌现202
6.4.2 思维的机制202
6.4.3 人工智能“十问”206
后记 208
|
內容試閱:
|
在IT行业从业近二十年,非常幸运能够进入到AI领域的研发和工作当中,这得感恩从新加坡回国创业的梁旭明博士给了我得以从事AI算法研发的机会,这是在我的人生中非常重要的机会,他是我的引路人,是他让我从一名纯粹的算法工程师转变为了AI算法工程师。虽然做人工智能算法研发的大部分是科学家和学者,但我始终把自己当作一名工程师,AI算法又是产品或项目的核心技术,并决定了产品或项目的生死,而要研发出可以成功落地并实用的AI算法,是件非常不容易且成功率不高的工作,时常有一种“如履薄冰”的感觉和压力。这么多年的AI算法研发工作,我经历了太多种类的算法研发,有名片识别、证件识别、钞票识别、车牌识别、车辆检测、人脸疲劳检测、运动物体跟踪、人脸识别、人机对话、文本分类、文本检索、工业大数据分析、大型中央空调节能操作优化等,涉及领域有办公、金融、交通、工业、节能、教育等,也目睹和亲历了AI技术的起起伏伏,越来越感到思想和方法的重要性,更是感受到数据的重要性,于是突发奇想,有了写这本书的念头。
虽然我平时喜欢思考,喜欢钻研AI算法的原理,并经常思索AI技术的实现路径,甚至于有段时间我还研究中国的哲学,以寻找哲学上的突破,但是,当我落笔要写时,才发现自己知识的浅薄,才发现自己缺乏体系化的思想框架,虽然这本书的主题非常明确:从数据分析的角度思考AI算法研发,但是要展开编写时便困难重重,并且这方面的研究资料也较少,于是只好边写边摸索和学习,甚至中途还停笔了很长时间,一本页数不多的书就这样写了近三年的时间。
本书的前三章可以算是我的工作经验总结,后三章是我的学习笔记,每个章节相对较为独立,主要是因为我把每一章当作一个独立的课题进行研究,以此通过不同的维度去思考和总结AI算法研发过程中的数据问题,这完全是从工程师的角度来研究AI算法,并且尽量采用易于理解的语言描述算法思想和原理,以减少阅读障碍,让人可以快速理解和掌握一些重要的算法实现方法。
第1章描述了数据在AI算法研发过程中的重要性,从思维方法的角度出发,结合了几个项目成功和失败的案例,概括性地描述了AI算法实践方法。
第2章描述了如何培养对数据的敏锐观察力,AI算法工程师对数据的感知和理解能力,是一个非常重要的能力,这是AI算法研发创新的源泉,也是解决问题的基本途径,体现了AI算法工程师应有的基本素质。
第3章描述了数据分析的方法,但有别于通常我们所说的数据统计分析方法,在这里,我们主要是结合AI算法研发的需要,针对性地讲解并总结了AI算法研发过程中所需要的数据分析方法,其中对高斯分布和傅里叶变换原理作了重点分析。高斯分布的数据是AI算法研发过程中最经常碰到的数据,而傅里叶变换属于数据频域分析方法,通过对数据进行傅里叶变换可以在另一个数据空间中进行分析并达到奇妙的效果,但是对于傅里叶变换原理的理解是一个难题,在这里,我们由浅入深、由形象到抽象,详细分析和描述了傅里叶变换的原理和方法,其中的内容主要摘自我于2008年发表在CSDN上的博客内容,当时在国内是第一篇全面描述和分析傅里叶变换原理的文章,为了写这个博客内容,足足花了我半年的业余时间,让我感到欣慰的是,这个博客内容解决了许多人对傅里叶变换理解上的烦恼,现在把它放进这本书的内容中,主要是想分享给更多的读者。这一章主要是总结了图像数据和自然语言数据的分析方法,并在最后分享了一个单纯从数据分析入手而设计出来的AI算法实现案例,以此说明以数据分析为基础工作的重要性,也说明通过数据分析可以得到具有创新性的算法数学模型。
第4章描述了高维空间中的数据,高维空间中的数据具有什么特点?高维空间中的数据有什么处理方法?这是我在早期做AI算法研发时最大的迷惑,也是让人最难以理解的地方,这一章节描述的内容不多,主要是因为涉及一些较抽象的数学理论,对于我这样非数学专业出身的工程师,虽然其中数学原理的证明过程勉强能够看得懂,但是看完后还是找不到感觉,甚至很快就忘了,其中的数学定理证明过程太复杂,如“高斯圆环定理”的证明过程就有十多页的内容。该章节最后通过一个多年前看到的论文作为案例来理解“JL引理”,主要是想避免陷入抽象的数学理解过程,虽然这是一个在现实中难以实用的算法案例,但可以让读者得以对高维空间中的数学原理能够有一个形象的、更易于理解的认识。
第5章的内容有点杂,描述的AI算法非常多,从简单的马尔可夫链,到复杂的神经网络,再到晦涩的卡尔曼滤波,最后阐述了知识图谱和事件图谱的系统框架设计,其中对卡尔曼滤波的数学原理进行了详细描述,因为这也是一个难以理解的数学过程,但是我觉得如果无法理解算法原理,则很难把算法用好。这一章节通过以数据之间的关系为线索把各种各样的算法串了起来,并上升到了系统层面的框架设计内容,这很像是一篇散文,希望通过这样的方式能够让读者对AI算法有一个整体的、宏观的认识,并能够根据数据的特点选择合适的AI算法。
第6章描述了人类语言的起源和特点,以此说明实现人机对话技术是一个极具有挑战性的工作,人机对话技术被称为是人工智能领域中“皇冠上的明珠”,ChatGPT的出现,让我们看到了人工智能技术新的希望,这方面技术上的突破犹如当年莱特兄弟实现飞机飞行技术,这是在AI技术上革命性的突破,为此,在这一章我们详细阐述了神经网络技术的发展历程,并详细描述了ChatGPT核心技术(Transformer模型)的实现原理,结合人脑思维过程的探索,以期让读者对AI技术有更深的理解和认识。
这是一本在AI算法领域“包罗万象”的书,以杂谈的方式描述各种各样的算法,并结合十多个我亲历过的AI算法实现案例,以让读者能够对AI算法实践有更深的理解和认识。但我并不想通过这本书能够让读者可以全面了解某个算法,若要深入了解某个算法则需要参考其他专业资料,我觉得了解算法的原理和思想比了解代码层级的实现方法更为重要,作为AI算法工程师不应该是算法的“搬运工”,而应该是算法的“创新者”,这里所指的创新是更为广泛意义上的创新,包含理论创新和工程技术上的微创新,理论创新很难,但工程技术上的微创新则相对容易些,而且要把算法技术成功应用起来,离不开工程技术上的微创新,为此,则需要能够理解算法原理和思想,否则难以在创新上有作为。写这本书的目的是让AI算法研发人员通过以数据为线索,快速全面了解多种AI算法,以便在工程实践中能够选择合适的AI算法,并能够通过合理的工程技术和工程思想创新性地实现AI技术。
|
|