游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
4 Q-learning
704
2.4 探索与利用的意义
711
2.2 简单策略和贪婪策略
716
2.3 探索利用平衡
709
2.5 epsilon贪心策略
715
2.1 MAB问题描述
719
2 多臂老虎机
703
1.2马尔可夫决策过程
719
1.3环境已知与未知
725
1.4环境的确定性与随机性
720
1.5强化学习的应用
717
1.1马尔可夫过程
721
案例 多臂老虎机问题策略的实现
1980
案例 利用策略迭代和值迭代求解迷宫寻宝问题
1973
案例 迷宫寻宝
1974
案例 REINFORCE算法求解小车爬山游戏
1981
首页
<
20
21
22
23
24
25
26
27
28
>
尾页