1,deepmind和openai为什么要用深度增强学习玩游戏

概率小的原因有两个:1. 公开资料里没有看到deepmind有过华人员工(更新:评论区有知友说有华人员工,叫Aja Huang),即使有,也不见得是知乎用户(更新2: 比如评论区 @熊辰炎 提到的华人同学)2. 2. AI方向的牛人供不应求,尤其是有Deepmind工作经验的大牛,放出风声一定会被疯狂挖角;比如OpenAI成立时就是先拜访一位大牛,拿到了一份名单,再去挨个挖。所以我相信Deepmind一定有相关PR策略,抑制员工公开暴露自己

deepmind和openai为什么要用深度增强学习玩游戏

2,如何理解看待 OpenAI 公布PPO算法

PPO得到的结果是TRPO(trust region policy optimization)的近似解。TRPO要求解一个constrained optimization(KL divergence要小于某个值),PPO则将constraints直接放在objective里。在TRPO里,这个optimization是用conjugate gradient近似解的,需要求KL divergence这个constraint的二次导,因此问题很大的时候会很费资源。而PPO则只需要一次导的信息,因此大大节约了资源,可以应用于规模更大的问题(当然需要加入一些细节让得出的结果不会和TRPO差太多)。Deepmind最近的一篇文章Emergence of Locomotion Behaviours in Rich Environments就用到了PPO来解决大规模问题(他们加入了分布式计算的元素,管新算法叫Distributed PPO(DPPO)).现在openai已经把PPO当成默认算法,deepmind在最近的几篇文章也用到了它,因此我觉得有什么深度强化学习的问题,那就大胆地使用这个算法吧。
同问。。。

如何理解看待 OpenAI 公布PPO算法

3,ChatGPT是什么

ChatGPT是人工智能中的一个大型语言模型,类似聊天机器人,不过它可以和用户进行多轮对话,这也是之前的聊天机器人所办不到的。和所有大数据模型一样,ChatGPT同样也是经过“预训练+微调”的过程,但是OpenAI这次在数据收集上设置上有了细微的差别。 首先,OpenAI用有监督学习训练出了一个初始模型。人类AI培训员分别作为用户和AI,模拟人类和AI之间的对话。此外,OpenAI还创建了一个奖励模型,将机器生成的回复由人类培训员筛选,按照质量排序,挑出质量最优的那一个。 尽管如此,ChatGPT本质上和传统的聊天机器人并没有分别——它并不理解自己所说的话,并且总是试图合理化自己的回答。OpenAI也表示,ChatGPT 有时会写出貌似合理但不正确或荒谬的答案,或者过度使用一些词句和特定表达。
如何向孩子解答我是从哪来的?如何回答孩子天马星空的问题?如何指定几个关键词,给孩子编写原创故事?如何写一篇领导满意的文案?如何解决生活中遇到的疑难问题?还想排队“文心一言”?还不如直接百度呢?你要真正用了以后才知道,不能天天看着别人在用,在发截图,而自己一直没用过。是否尝试使用“知否AI问答”,不用去全是莆田系的百度广告苦苦寻觅答案,你问知否AI解答,有疑问继续追问,你的私人助力,24小时随时在线。

ChatGPT是什么


文章TAG:人工  人工智能  智能  open  人工智能open  
下一篇