游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
6.5 REINFORCE算法
1660
6.4 蒙特卡罗方法
1657
6.3 策略梯度定理的推导
1628
6.2 随机性策略梯度方法
1623
6.1 基于策略的思想
1614
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现
1610
5.2 Gym的使用方法
1611
4.4 Q-learning和Sarsa的对比
1611
4.3 Q-learning
1608
4.2 Sarsa
1597
4.1 状态-动作价值函数
1592
3.5 值迭代法
1590
3.4 策略迭代法
1588
3.3 状态价值的定义与思想
1427
3.2 三连棋游戏第一步走角落
1427
3.1 三连棋游戏第一步走中间
1428
首页
<
10
11
12
13
14
15
16
17
18
19
>
尾页