登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』Python深度强化学习入门:强化学习和深度学习的搜索与控制

書城自編碼: 3739837
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: 伊藤多一 等
國際書號(ISBN): 9787111700722
出版社: 机械工业出版社
出版日期: 2022-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 111.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
新东方 剑桥雅思官方指南精讲 精确剖析官方指南样题
《 新东方 剑桥雅思官方指南精讲 精确剖析官方指南样题 》

售價:HK$ 81.6
欧洲文明进程·贫困与社会保障卷
《 欧洲文明进程·贫困与社会保障卷 》

售價:HK$ 198.0
理想国译丛030:资本之都:21世纪德里的美好与野蛮
《 理想国译丛030:资本之都:21世纪德里的美好与野蛮 》

售價:HK$ 122.4
新质生产力
《 新质生产力 》

售價:HK$ 81.6
沙盘游戏疗法
《 沙盘游戏疗法 》

售價:HK$ 106.8
图坦卡蒙和改变世界的陵墓
《 图坦卡蒙和改变世界的陵墓 》

售價:HK$ 95.8
儿童心理画:孩子的画会说话,孩子的画这样读
《 儿童心理画:孩子的画会说话,孩子的画这样读 》

售價:HK$ 82.8
朱雀:唐代的南方意向
《 朱雀:唐代的南方意向 》

售價:HK$ 106.8

 

建議一齊購買:

+

HK$ 136.3
《 智能硬件产品:从0到1的方法与实践 》
+

HK$ 98.8
《 机器视觉与应用 》
+

HK$ 364.8
《 机器翻译:基础与模型 》
+

HK$ 116.2
《 人工智能:智能机器人 》
+

HK$ 112.2
《 美团机器学习实践 》
+

HK$ 225.0
《 稀疏学习、分类与识别 》
編輯推薦:
人工智能无疑是近年来热门词汇,而深度强化学习又是热门中的热门,对于想要进入人工智能行业的您来说,节省时间、快速入门首要问题。再多的知识也要实践,现场实操,才是快速学习、消化的通路。 《Python深度强化学习入门:强化学习和深度学习的搜索与控制 》正是这样一本,从基础理论讲起,以实操驱动的方式全面展示技巧和方法,为您提供了快速入门深度强化学习的途径,找到了学习的方法。
內容簡介:
《Python深度强化学习入门:强化学习和深度学习的搜索与控制》共7章。其中,第1章介绍了机器学习的分类、强化学习的学习机制以及深度强化学习的概念;第2章通过强化学习的基本概念、马尔科夫决策过程和贝尔曼方程、贝尔曼方程的求解方法、无模型控制等介绍了强化学习的基本算法;第3章通过深度学习、卷积神经网络(CNN)、循环神经网络(RNN)介绍了强化学习中深度学习的特征提取方法;第4章通过行动价值函数的网络表示、策略函数的网络表示介绍了深度强化学习的实现;第5章通过策略梯度法的连续控制、学习算法和策略模型等,详细介绍了深度强化学习在连续控制问题中的应用及具体实现;第6章通过巡回推销员问题和魔方问题详细介绍了深度强化学习在组合优化中的应用及具体实现;第7章通过SeqGAN的文本生成和神经网络的架构搜索详细介绍了深度强化学习在时间序列数据生成的应用。在附录中还给出了Colaboratory和Docker等深度强化学习开发环境的构建。
目錄
目 录译者序原书前言阅读本书需要的知识基础本书的结构本书示例的运行环境1.1 机器学习的分类0041.1.1 监督学习0051.1.2 无监督学习0061.1.3 强化学习0071.2 强化学习的学习机制0081.3 深度强化学习0112.1 强化学习的基本概念0142.1.1 强化学习的问题设定0142.1.2 强化学习的机制0142.1.3 关于本章的内容0162.2 马尔可夫决策过程和贝尔曼方程0172.2.1 马尔可夫决策过程0172.2.2 贝尔曼方程0202.3 贝尔曼方程的求解方法0242.3.1 动态规划法0242.3.2 蒙特卡洛法0312.3.3 TD学习法0332.4 无模型控制0372.4.1 策略改进的方法0372.4.2 基于价值的方法0382.4.3 基于策略的方法0432.4.4 Actor-Critic法0493.1 深度学习0563.1.1 深度学习的出现和背景0563.1.2 什么是深度学习?0563.1.3 深度学习平台0623.2 CNN0673.2.1 什么是CNN0673.2.2 CNN的应用0713.3 RNN0743.3.1 什么是RNN0743.3.2 什么是LSTM0793.3.3 RNN的应用0814.1 深度强化学习的发展0864.1.1 DQN的出现0864.1.2 用于强化学习的模拟器0864.2 行动价值函数的网络表示0894.2.1 DQN算法0894.2.2 DQN算法的实现0924.2.3 学习结果0994.3 策略函数的网络表示1014.3.1 Actor的实现1014.3.2 Critic的实现1014.3.3 示例代码的介绍1024.3.4 学习结果1085.1 策略梯度法的连续控制1145.1.1 连续控制1145.1.2 策略梯度法学习1145.2 学习算法和策略模型1175.2.1 算法概况1175.2.2 REINFORCE算法1185.2.3 基准函数的引入1185.2.4 高斯模型的策略概率1195.3 连续行动模拟器1215.3.1 pybullet-gym1215.3.2 Walker2D1225.4 算法的实现1265.4.1 算法实现的总体构成1265.4.2 train.py1275.4.3 policy_estimator.py1295.4.4 value_estimator.py1325.5 学习结果及预测控制1345.5.1 学习结果1345.5.2 预测控制的结果1365.5.3 其他环境模型的应用1375.5.4 总结1406.1 组合优化中的应用1446.1.1 关于组合优化1446.2 巡回推销员问题1456.2.1 通过强化学习解决巡回推销员问题1456.2.2 实现概要1476.2.3 运行结果1556.2.4 今后的发展趋势1576.3 魔方问题1586.3.1 用强化学习解决魔方问题1586.3.2 实现概要1616.3.3 实现结果1716.3.4 AC+MCTS算法的预测结果1736.3.5 今后的发展趋势1776.4 总结1797.1 根据SeqGAN的文本生成1827.1.1 GAN1827.1.2 SeqGAN1837.1.3 输入数据1857.1.4 使用的算法及其实现1877.1.5 实现结果1957.1.6 总结1987.2 神经网络架构的搜索1987.2.1 神经体系结构搜索1987.2.2 语义分割1997.2.3 U-Net2007.2.4 文件目录结构2017.2.5 输入数据2017.2.6 所使用的算法2047.2.7 实现结果2137.2.8 总结215附录A Colaboratory的GPU环境构建218A.1 Colaboratory218A.2 Colaboratory的使用方法218附录B 通过Docker进行Windows环境的构建222B.1 介绍222B.2 Docker的安装222B.3 Docker映像的创建228B.4 容器的启动232B.5 运行情况的查看234参考文献238
內容試閱
原书前言 2016年,Google DeepMind的AlphaGo击败了围棋专业棋手的消息震惊了世界。这一事件表明,即使是在围棋游戏中,基于机器学习的人工智能也能够超越人类,尽管此前的观点认为由于其大量的落子方式,人工智能将远远落后于人类。在此,支撑AlphaGo的技术正是深度强化学习。本书将从基础开始对近年来已引起广泛关注的深度强化学习算法进行介绍,并在给出具体应用示例的同时将其应用于特定的问题。 本书大致分为两个部分。首先,在第1部分的基础篇中介绍了作为深度强化学习的基础算法,并给出了用于倒立摆控制这种简单情况的应用示例和验证结果。在第2章中解释强化学习算法时,为了避免由于不使用数学公式而引起的歧义和不准确性,在介绍时还是引入了一些必要的数学公式。特别是对于在数学公式中尤为重要的贝尔曼方程,通过与备用树等图形对应关系的解释,详细介绍了该方程式,以便读者可以准确地理解其含义。 在第2部分的应用篇中,将第1部分中介绍的算法应用于特定任务。特别是采用了一种基于策略的方法,详细介绍了其在智能体学习以及预测控制的实现。可以预见的是,该方法将在许多强化学习问题解决方案中得到广泛的应用。作为连续控制问题的应用示例,第5章介绍了类人机器人的模拟行走控制。作为组合优化问题的应用示例,第6章介绍了巡回推销员问题的实现,以及魔方问题的解决方案。在第7章中,作为序列数据生成的尝试,将介绍通过SeqGAN生成模型进行的文本语句生成以及基于应用示例的神经网络的架构搜索。 本书中的相关实现均是通过Python和TensorFlow进行。物理模拟器使用的是OpenAI Gym和pybullet-gym,并且在第6章中还为Rubik’s Cube实现了自己的模拟器。 本书适用于希望从基础开始学习深度强化学习算法的学生和研究人员,以及想要实施深度强化学习的工程师。对于那些仅想了解相关算法的读者,只需阅读本书第1部分的内容即可。另一方面,对于想立即开始进行强化学习实践的工程师,或者不擅长数学公式的读者,请阅读本书第1部分的第1章,以全面了解深度强化学习,然后可以跳过第2章和第3章的内容,直接进行第4章及以后内容的阅读。如果想更多地了解每一章中所使用算法的详细信息,则应该回顾一下第1部分的内容,并分别进行第2章和第3章的阅读。 后,我们要感谢参与本书编写工作的所有人。BrainPad公司的太田满久先生和山崎裕一先生审读了本书的原稿,并对本书的内容和总体结构给予了宝贵的意见和建议。该公司的茂木亮祐先生和栗原理央先生分别从数据科学家和机器学习工程师的角度审读了本书的原稿,并对相关介绍中内容有跳跃和难以理解的部分提供了有益的建议。铃木政臣先生和平木悠太先生从软件工程师的角度对每章Python代码的不足和改进提供了宝贵的意见。在此,对他们表示衷心的感谢。 作 者 2019年7月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.