电子产品世界 » 论坛首页 » 综合技术 » 物联网技术 » 深度强化学习核心技术开发与应用

共3条 1/1 1 跳转至页

深度强化学习核心技术开发与应用

szhlss123

菜鸟

2022-08-10 11:19:27 打赏

只看楼主 1楼

2022年数字信息化培训项目系列

关于举办“深度强化学习核心技术开发与应用研修班”通知（https://www.chinaai.org.cn/）

各企、事业单位：

随着科技的快速发展,人工智能俨然成了当今社会的关注焦点。而在人工智能的发展上,深度学习、强化学习、迁移学习等成为了科学界、工业界研究和应用的热点。在实际研究和应用过程当中，研究人员逐渐发现了深度学习单独应用的缺点，如没有决策能力，不可推理等。而深度强化学习，作为一种崭新的机器学习方法,同时具有感知能力和决策能力，它是深度学习与强化学习的结合，二者的结合涵盖众多算法、规则、框架,并广泛应用于机器人、无人机、无人车、无人艇、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等众多领域，具有极高的研究与应用价值。

为积极响应科研及工作人员需求，根据国务院《国家中长期人才发展规划纲要（2010-2020年）》和人社部《专业技术人才知识更新工程实施方案（2010-2020年）》文件精神，中国管理科学研究院现代教育研究所（http://www.zgyxdjy.com）联合北京龙腾亚太教育咨询有限公司特举办“深度强化学习核心技术开发与应用研修班”。本次培训采用全实战培训模式。

一、培训专家:

中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家，拥有丰富的科研及工程技术经验，长期从事人工智能、机器学习、深度学习、大数据分析等领域的教学与研究工作。

二、参会对象：

各省市、自治区从事人工智能、机器学习、计算机视觉、自然语言处理、无人机、无人艇、无人车、机器人、智能体、多智能体、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员，以及强化学习、人工智能广大爱好者。

三、培训目标：

1、了解强化学习发展。

2、掌握单智能体深度强化学习。

3、掌握多智能体深度强化学习。

4、掌握多任务深度强化学习。

5、掌握强化学习应用领域Gym Retro游戏平台、机器人控制、计算机视觉、自然语言处理。

6、实现Gym、Ray仿真环境。

7、实际体验Q Learning实验、DQN实验、DDPG实验。

四、费用标准：

1、4580元/人（含报名费、培训费、资料费、证书费）。

2、培训费由组织培训的施教机构负责收取并提供培训****据。

3、报名成功后于一周内办理汇款手续。

4、报名5人以上可享受9折优惠。

5、参加线上培训学员可享受视频录播回放权益，及本人再次免费参加线下学习权益。

五、颁发证书：

参加相关培训并通过考核的学员，由中国管理科学研究院现代教育研究所颁发《深度强化学习开发与应用工程师》（高级）岗位认证证书，可通过官方网站查询（http://www.zgyxdjy.com），该证书可作为有关单位专业技术人员能力评价、考核和任职的重要依据。

注：请学员将电子版彩照（大于20KB，红蓝底皆可）、身份证复印件和学历证明复印件发送至2374914377@qq.com。

六、注意事项

1、指定报名邮箱：2374914377@qq.com。

2、报名成功后，会务组在上课前两天发放上课所需所有材料。

3、学员需自备电脑一台，配置win10、64位系统、8G内存、100G硬盘。

附件1：具体课程安排

时间安排大纲具体内容实操案例

三天关键点 1.强化学习的发展历程

2.马尔可夫决策过程

3.动态规划

4.无模型预测学习

5.无模型控制学习

6.价值函数逼近

7.策略梯度方法

8.深度强化学习-DQN算法系列

9.深度策略梯度-DDPG,PPO等

第一天

9:00-12:00

14:00-17:00 一、强化学习概述 1.强化学习介绍 2.强化学习与其它机器学习的不同

3.强化学习发展历史 4.强化学习典型应用

5.强化学习基本元素 6.强化学习算法分类

二、马尔科夫决策过程 1.马尔可夫性 2.马尔可夫决策过程

3.策略与价值 4.最优化原理

5.MDPs扩展

三、动态规划 1.动态规划 2.价值迭代

3.策略迭代 4.迭代策略评估

5.广义策略迭代 6.维数灾 1.python环境下简单扫地机器人环境

2.价值迭代python实现

3.策略迭代python实现

4.迭代策略评估python实现

四、无模型预测学习 1.蒙特卡洛方法 2.时间差分学习

3.n-步回报 4.TD(lambda)

5.资格迹 1.蒙特卡洛方法python实现

2.时间差分方法python实现

第二天

9:00-12:00

14:00-17:00 五、无模型控制学习 1.蒙特卡洛控制 2.Sarsa

3.重要性采样 4.Q-学习

4.Double Q学习 5.探索与利用 1. Sarsa方法python实现

2. Q学习方法python实现

3. Sarsa(lambda)方法python实现

六、价值函数逼近 1.函数逼近器 2.线性函数逼近

3.常见的特征表示方法

4.价值迭代+离散化方法

5.Fitted Q Iteration

6.策略迭代+最小二乘

7.预测学习+随机梯度下降法

8.控制学习+随机梯度下降法 1. 离散化Q迭代方法python实现

2. LSPI方法python实现

七、策略梯度方法 1.基于策略的强化学习

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE算法

5.Actor-Critic

6.策略梯度引入基准

7.自然梯度

8.确定型Actor-Critic 1. 策略迭代方法python实现

2. actor-critic方法python实现

第三天

9:00-12:00

14:00-17:00 八、深度强化学习 1.Deep Q learning(DQN)

2.Double DQN

3.Dueling DQN

4.Prioritized Experience Replay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC 1.深度强化学习训练场-OpenAI Gym 安装与使用

2.Pytorch安装与使用

3.自动驾驶赛车任务

4.月球飞船降落任务

实操解析与训练一实验：倒立摆和冰壶控制实践

1.环境编写 2.算法设计 3.实验结果

高频问题：

如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练

关键点：

1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法

实操解析与训练二实验：OpenAI Gym实践

1.Gym安装 2.Gym使用 3.强化学习

高频问题：

1.如何基于Gym实现强化学习训练与测试

关键点：

1.掌握马尔可夫决策过程 2.低维输入的强化学习方法

实操解析与训练三实验：月球飞船降落任务

1.DQN/Double DQN/Dueling DQN 2.PER

高频问题：

1.深度强化学习网络训练稳定性 2.探索与利用

关键点：

1.经验回放技术的实现 2.目标网络更新

实操解析与训练四实验：自动驾驶赛车任务

1.连续控制任务 2.策略梯度方法DDPG/PPO

高频问题：

1.适用于高维输入的连续控制任务的深度强化学习方法

关键点：

1.掌握DDPG和PPO具体编程实现

2.根据实际需求，选用合理的深度强化学习方法

关注“人工智能技术与咨询”，更多前沿技术等着你！

关键词：深度学习

tanfpga

专家

2022-08-10 13:16:19 打赏

2楼

学习

Hope2022

专家

2022-08-10 20:17:08 打赏

3楼

学习一下

共3条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
「破界·共生」——2026蓝牙技术变革与工程实战思辨会
【“龙虾”创意工坊征集令——用XClaw玩出最出乎意料的智能终端】有奖活动~
【福利征集】工程师工作台缺失好物！回帖给我，帮你实现！
2026年“我要开发板活动”第三季，开始了！
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】

我要赚赏金打赏帖
基于MCP23S17的输入输出功能模块控制被打赏￥20元
【S32K3XX】SPD 软件包使用Link文件修改被打赏￥22元
Switch-Case局部变量定义问题被打赏￥23元
基于米尔TIAM62L开发板的串口通信及应用被打赏￥20元
PCF8574功能模块及其使用被打赏￥20元
传感器LSM6DSO及LIS3MDL的功能检测被打赏￥18元
LPS25HB气压传感器及其检测被打赏￥18元
HTS221温湿度传感器及其检测被打赏￥18元
【S32K3XX】HSE FW 版本更新被打赏￥21元
基于ArduinoUNO开发板的AT24C02读写测试被打赏￥16元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

深度强化学习核心技术开发与应用

回复