江苏开放大学•点石网 - 点石网|江苏终身学习资源库

leixy

3
课程

｜

444
资源

讲义3.1三连棋游戏第一步走中间

讲义4.3Q-learning

讲义6.5REINFORCE算法

讲义6.3策略梯度定理的推导

讲义7.3~7.4Actor-Critic的算法流程

7.2 Actor-Critic的思想

7.1 策略梯度方法的缺点

7.3_7.4 Actor-Critic的算法流程

讲义7.2Actor-Critic的思想

讲义2.4探索与利用的意义

讲义2.4探索与利用的意义

讲义7.6DDPG的算法流程

讲义7.5广义优势函数估计

讲义6.4蒙特卡罗方法

讲义6.2随机性策略梯度方法

讲义6.1基于策略的思想

首页
<
17
18
19
20
21
22
23
24
25
26
>
尾页