美文网首页大数据 爬虫Python AI Sql程序员互联网科技
TensorFlow应用实战-15-强化学习常用环境

TensorFlow应用实战-15-强化学习常用环境

作者: 天涯明月笙 | 来源:发表于2018-06-13 21:16 被阅读151次

使用TensorFlow开发会开赛车的AI

  • 进行游戏领域
  • 第一个我们使用了 RNN 和 LSTM 开发作曲智能应用。
  • 深度卷积的生成对抗网络,帮我们开发能够制图的AI

DeepMind 的 AlphaGo 围棋人工智能

AlphaGo是deepmind团队开发的,后来deepmind被谷歌收购到旗下,收购的价格是4亿英镑。

到了Google,由之前的torch转到以TensorFlow为后端开发。

新旧两个版本。

https://deepmind.com/research/alphago/

战胜很多人类棋手。

markmark

AlphaGo zero 强很多,训练4天之后,完胜之前版本。

https://deepmind.com/blog/alphago-zero-learning-scratch/

从零开始学习,没有被给予很多的资料,而是自己与自己博弈,从零开始学起。

AlphaGo 主要算法

markmark

AlphaGo 战胜的著名人类棋手

markmark

AlphaZero 通用的强化学习

markmark

OpenAi 非盈利人工智能项目

openai的创始人 埃隆马斯克 (Elon Musk) 现实版的钢铁侠 特斯拉ceo 火箭项目

openAi 的一些强化学习应用

markmark
  • openAi的dota2 1v1 人工智能应用

https://blog.openai.com/dota-2/

  • openai的开源项目 gym

开发和对比一些强化学习的算法。

https://github.com/openai/gym

  • 基于gym项目开源了universe 宇宙

通用的深度学习环境模拟。 游戏模拟。邮件发送。

  • udacity 开源的自动驾驶汽车项目

https://www.udacity.com/self-driving-car

github上开源了一个自动汽车驾驶的模拟器

基于unity开发的一个模拟器。

案例三的主要算法

强化学习 reinforcement Learning

markmark

openai开源的universe环境可以模拟的赛车程序

撞碎红色的车,避开紫色的车,不要撞到边边。

强化学习的经典实验环境

强化学习也需要一个统一的环境

就像我们cnn的时候 mnist等数据集。

  • 强化学习经典实验场景: CartPole Mountain Car PacMan
markmark

左右移动节点,保持平衡。

markmark

把小车越过旗杆上山。

markmark

吃豆人。

markmark

中国人实现的DeepLearningFlappyBird

https://github.com/yenchenlin/DeepLearningFlappyBird

  • 大家自己实现的实验环境的差别会影响结果的比较。

  • 统一的实验环境有利于论文的发表于研究

MuJoco

  • Multi-Joint dynamics with Contact

"有接触的多关节动力学" 用于机器人 生物力学 动画 等需要快速精确仿真领域的物理引擎。

http://www.mujoco.org/

被广泛使用在各种强化学习, 不管是Google 还是 openai 还是中国的集智

下载对应的物理引擎。

30天试用版。学生免费。

Google团队,蜘蛛人。跨越障碍。

https://github.com/openai/mujoco-py

RoboSchool: 免费版的MUJoco

  • openai开源的机器人模拟软件,不止包含MUjoCO环境
  • 基于OPenAI Gym

https://github.com/openai/roboschool

DeepMind Control Suite and Package

  • 谷歌DeepMind 发布的强化学习环境
  • 由python编写,并由MujoCo物理引擎驱动

dm_control

https://github.com/deepmind/dm_control

类似的多关节运行。

  • OpenAI Gym

openai 开发的强化学习工具包

http://gym.openai.com/

  • Elon Musk 希望人人都能了解 人工智能 以预防 "AI灭世"

集大成者;包含非常多学习环境,很多其他实验环境都是基于Gym

https://github.com/openai/gym

https://github.com/openai/gym/tree/master/gym/envs

看到里面有很多游戏实现环境,

http://gym.openai.com/envs/CartPole-v0/

允许我们实现算法然后打分。

envs 经典游戏环境。

RL lab

伯克利大学和 openai 的学者开发的强化学习算法框架

  • 与 openai gym兼容

https://github.com/rll/rllab

DeepMind Lab

DeepMind 发布的 3d强化学习平台

  • 最初是DeepMind 内部使用 之后开源了

https://github.com/deepmind/lab

模拟一些走迷宫之类的3d实验环境。

PySC2 (StarCraft II 星际争霸)

  • DeepMind 和 Blizzard(暴雪) 合作推出的 StarCraft ll 研究平台

  • DeepMind 用 AlphaGo 征服围棋后, 继续征服很难的星际争霸

https://github.com/deepmind/pysc2

DeepMind官网有专门的一篇文章

https://zhuanlan.zhihu.com/p/28434323

https://zhuanlan.zhihu.com/p/29246185?group_id=890682069733232640

https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/

模拟一个agent收集资源等

  • OpenAI Baselines

基于 OpenAI Gym 和 TensorFlow 的实现

实现了经典的(深度) 强化学习算法

https://github.com/openai/baselines

高质量的强化学习算法实现。它使用的框架也是TensorFlow,是比较好的学习例子。

  • VizDoom

毁灭战士(Doom) 游戏的强化学习环境 有举办竞赛

Doom 游戏是第一人称射击游戏的开拓者之一,还有同名电影。

https://github.com/mwydmuch/ViZDoom

毁灭战士的ai研究平台,研究强化学习。有一些演示视频。

  • TensorFlow Models

TensorFlow Models(模型) 中提供的强化学习算法集

位于TensorFlow 源代码集中

https://github.com/tensorflow/models/tree/master/research

其中有gan,有很多强化学习的例子

https://github.com/tensorflow/models/tree/master/research/pcl_rl

rl是强化学习的缩写。

  • TensorFlow Agents

基于TensorFlow的并行强化学习算法

容易开发并行强化学习算法

官网在github下的TensorFlow

https://github.com/tensorflow/agents

  • ELF

Facebook推出的游戏研究平台

可以让多个游戏实例并行执行,任何C++接口的游戏都可以接入

https://github.com/facebookresearch/ELF

  • Coach

Intel 收购的 Nervana 公司(还开发了Neon) 推出的强化学习框架

https://github.com/NervanaSystems/neon

neon是一个有名的深度学习框架,可以使用python进行调用。

coach 方便地实现并行算法,充分利用cpu gpu多核

https://github.com/NervanaSystems/coach

  • Unity Machine Learning Agents

基于Unity 3d 引擎的强化学习框架 可以模拟3d 强化学习

与Unity 3d(pokemon Go的开发工具) 结合,未来大有可为。

https://unity3d.com/cn/machine-learning

https://github.com/Unity-Technologies/ml-agents

带你开发类似Pokemon Go的AR游戏 基于unity3d引擎

  • OpenAi universe

openai 开发的开源人工智能软件平台 1000 多个环境

可以让一个程序变为openai gym 环境,将程序封装成docker 容器

https://github.com/openai/universe

模拟很多的游戏场景

案例三的主要实验环境

markmark

相关文章

网友评论

    本文标题:TensorFlow应用实战-15-强化学习常用环境

    本文链接:https://www.haomeiwen.com/subject/nurykftx.html