人工智能open，deepmind和openai为什么要用深度增强学习玩游戏

1，deepmind和openai为什么要用深度增强学习玩游戏

概率小的原因有两个：1. 公开资料里没有看到deepmind有过华人员工（更新：评论区有知友说有华人员工，叫Aja Huang），即使有，也不见得是知乎用户（更新2: 比如评论区 @熊辰炎提到的华人同学）2. 2. AI方向的牛人供不应求，尤其是有Deepmind工作经验的大牛，放出风声一定会被疯狂挖角；比如OpenAI成立时就是先拜访一位大牛，拿到了一份名单，再去挨个挖。所以我相信Deepmind一定有相关PR策略，抑制员工公开暴露自己

deepmind和openai为什么要用深度增强学习玩游戏

2，如何理解看待 OpenAI 公布PPO算法

PPO得到的结果是TRPO(trust region policy optimization)的近似解。TRPO要求解一个constrained optimization（KL divergence要小于某个值），PPO则将constraints直接放在objective里。在TRPO里，这个optimization是用conjugate gradient近似解的，需要求KL divergence这个constraint的二次导，因此问题很大的时候会很费资源。而PPO则只需要一次导的信息，因此大大节约了资源，可以应用于规模更大的问题（当然需要加入一些细节让得出的结果不会和TRPO差太多）。Deepmind最近的一篇文章Emergence of Locomotion Behaviours in Rich Environments就用到了PPO来解决大规模问题（他们加入了分布式计算的元素，管新算法叫Distributed PPO(DPPO)）.现在openai已经把PPO当成默认算法，deepmind在最近的几篇文章也用到了它，因此我觉得有什么深度强化学习的问题，那就大胆地使用这个算法吧。

同问。。。

如何理解看待 OpenAI 公布PPO算法

3，ChatGPT是什么

ChatGPT是人工智能中的一个大型语言模型，类似聊天机器人，不过它可以和用户进行多轮对话，这也是之前的聊天机器人所办不到的。和所有大数据模型一样，ChatGPT同样也是经过“预训练+微调”的过程，但是OpenAI这次在数据收集上设置上有了细微的差别。首先，OpenAI用有监督学习训练出了一个初始模型。人类AI培训员分别作为用户和AI，模拟人类和AI之间的对话。此外，OpenAI还创建了一个奖励模型，将机器生成的回复由人类培训员筛选，按照质量排序，挑出质量最优的那一个。尽管如此，ChatGPT本质上和传统的聊天机器人并没有分别——它并不理解自己所说的话，并且总是试图合理化自己的回答。OpenAI也表示，ChatGPT 有时会写出貌似合理但不正确或荒谬的答案，或者过度使用一些词句和特定表达。

如何向孩子解答我是从哪来的？如何回答孩子天马星空的问题？如何指定几个关键词，给孩子编写原创故事？如何写一篇领导满意的文案？如何解决生活中遇到的疑难问题？还想排队“文心一言”？还不如直接百度呢？你要真正用了以后才知道，不能天天看着别人在用，在发截图，而自己一直没用过。是否尝试使用“知否AI问答”，不用去全是莆田系的百度广告苦苦寻觅答案，你问知否AI解答，有疑问继续追问，你的私人助力，24小时随时在线。

ChatGPT是什么