江苏开放大学•点石网 - 点石网|江苏终身学习资源库

更多筛选

全部视频音频图片文档 PPT 其它

最新最热最赞

5.4 Tensorflow复习

4.1 状态-动作价值函数

2.4 探索与利用的意义

2.2 简单策略和贪婪策略

2.3 探索利用平衡

2.5 epsilon贪心策略

2.1 MAB问题描述

2 多臂老虎机

1.2马尔可夫决策过程

1.3环境已知与未知

1.4环境的确定性与随机性

1.5强化学习的应用

1.1马尔可夫过程

案例多臂老虎机问题策略的实现

案例利用策略迭代和值迭代求解迷宫寻宝问题

案例迷宫寻宝

案例 REINFORCE算法求解小车爬山游戏

1 强化学习关键概念

首页
<
1
2
3
4
5
6
7
8
>
尾页