游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
讲义3.1三连棋游戏第一步走中间
2162
讲义4.3Q-learning
2105
讲义6.5REINFORCE算法
2106
讲义6.3策略梯度定理的推导
2090
讲义7.3~7.4Actor-Critic的算法流程
2100
7.2 Actor-Critic的思想
781
7.1 策略梯度方法的缺点
790
7.3_7.4 Actor-Critic的算法流程
784
讲义7.2Actor-Critic的思想
2073
讲义2.4探索与利用的意义
142
讲义2.4探索与利用的意义
2080
讲义7.6DDPG的算法流程
2098
讲义7.5广义优势函数估计
2050
讲义6.4蒙特卡罗方法
2058
讲义6.2随机性策略梯度方法
2045
讲义6.1基于策略的思想
2060
首页
<
17
18
19
20
21
22
23
24
25
26
>
尾页