对谈 Pokee.ai 朱哲清：强化学习做核心，Agent 的少数派造法_老虎社区_美港股上老虎

对谈 Pokee.ai 朱哲清：强化学习做核心，Agent 的少数派造法

可能是更高效、更便宜的 Agent 实现路径。

文丨孙海宁

编辑丨程曼祺

主流 AI Agent 都把大语言模型（LLM，或者它的多模态版本）当作 “大脑”，靠一个或几个 LLM 编排工作、调用工具。但也有另一条路：Agent 规划、作业靠不依赖自然语言的强化学习模型，LLM 只充当 Agent 和人类的 “交互层”。

不一样的想法，来自去年 10 月成立，至今只有 4 个正式员工的 Pokee.ai。

Pokee.ai 创始人朱哲清有十余年强化学习研究、落地经验。2017 年起，从杜克大学计算机科学专业毕业的朱哲清，一边在斯坦福大学攻读强化学习方向博士学位，师从 Benjamin Van Roy；一边在 Meta 工作，曾任 Meta“应用强化学习” 部门负责人，他用强化学习算法改善内容推荐系统，把上任前只剩 3 人，一度要关停的部门扩张至 10 余人，为 Meta 增收 5 亿美元。

靠 LLM 规划、决策，是个自然而主流的想法。OpenAI Operator 和网页交互、操作电脑的能力基于 GPT-4o 模型，Manus 完成任务则是靠 Claude 3.5 Sonnet 模型做长程规划。Claude 提出方便 LLM 理解、使用第三方工具的通用协议 MCP 后，LLM 能调用的工具变多，把 LLM 当作 Agent 大脑的趋势增强。

但这种方法也有局限：现有的 LLM 仍无法大量调用工具。“LLM 可能调用超过 50 个工具，就会产生幻觉。” 朱哲清说。因为描述工具用途、用法的信息需要先放入上下文，而 LLM 能接受的上下文长度有限。

Agent 靠 LLM 完成任务也可能更慢、更贵。朱哲清举例 LLM 用 browser-use 浏览网站、多步交互时，单次可能消耗数百万个 Token，成本在几美元到几十美元之间。“用 browser-use 的初创公司多数在亏钱。”

Pokee.ai 使用的强化学习模型不用上下文理解工具用途。它掌握工具是靠训练时成千上万次 “试错”，由此记住工具和问题的正确组合。朱哲清说他们的 Agent 在训练时已经见过 15000 个工具，之后出现类似的新工具，自然会用。

同时，强化学习方法训练的模型参数量更小，这意味着完成任务耗时更短、成本更低。Pokee.ai 官方演示中，Agent 产品 Pokee 完成一项任务只要几分钟。朱哲清说相比同类产品，Pokee 的单任务成本也只有它们的 1/10。

因为觉得 MCP 过于复杂，需要开发者自己设置 MCP 服务器，声明如何设置参数，保证工具之间能相互衔接，Pokee.ai 团队另做了一套方便 Agent 调用工具的协议，开发者说明工具的输入、输出、唤起方式，就能被 Pokee 调用。同时，Pokee 未来也会支持 MCP。

试用 Pokee 时，《晚点 LatePost》发现，它能较好地调用各个平台数据接口完成读取、写入等任务。沿着个方向优化，是因为 Pokee 的目标场景之一，是帮从事营销、运营等岗位的 “专业用户” 完成社媒运营等日常工作。朱哲清认为只有绑定用户工作流，Agent 产品才获得竞争壁垒。

Pokee 试用案例

任务：查找关于 OpenAI o3 模型的最新报道，尤其是其优缺点，以及它与其他大型模型相比的表现。然后从 Google 图片中获取相关图片。使用以上信息制作新的 Google 幻灯片，并发送至 sunhaining@latepost.com。

我们也遇到了一些 bug，比如把整理好的内容写入 Google 云盘时，Pokee 会在只需要一个的情况下，同时创建两个新文档；执行较复杂的搜索任务时，相关数据接口表现不稳定，容易卡住。朱哲清说目前 Pokee 仍然在内测阶段，已经能胜任很多任务，同时团队在努力提升大规模任务下的稳定性。

本周二 Pokee 在海外内测前，《晚点 LatePost》访谈了朱哲清。本次访谈的播客版也已发布。

AI Agent，但以强化学习模型为核心

晚点：你是什么时候想到要用强化学习方法做 Agent 的？

朱哲清：我之前在 Facebook 应用强化学习（Applied Reinforcement Learning）团队，用强化学习方法推荐内容有很多成功落地案例，估算下来，Facebook 每年将近 5 亿美元的年收入是由我们团队带来的。

但我很早就意识到强化学习的潜力不止于让 Facebook 广告收入提高几个百分点。你可以把向用户推荐每篇文章理解成一个个抽象的 “动作”，动作之间需要做规划。它和 Agent 拆解任务、设计工作流是异曲同工的。

晚点：那为什么在 LLM 出现、变得可用后，你才离职创业？

朱哲清：强化学习模型是个很聪明的大脑，能把现实世界抽象成一个个数组，做决策、执行任务。但人类不可能理解一个个数组。LLM 的输入、输出都是自然语言，它的出现解决了 Agent 如何与人交互的问题。

晚点：交互之外，LLM 也有推理、规划的能力，Pokee 为什么不直接把 LLM 作为 Agent 的大脑？

朱哲清：Agent 要好用，得能调用工具，它们可能有上千个。但现在最好的 LLM 在调用 100 个甚至 50 个工具的时候，就已经开始出现幻觉。

因为 LLM 的 “注意力” 有限，能支持的上下文 Token 长度有限。比如有 50 个工具，每个工具用 1000 个 Token 描述，那光工具就有 5 万个 Token。完成任务时，调用一个工具拉出一篇文章，文章对应的 Token 也要作为上下文喂给 LLM。十几步下来，就是上百万个 Token，百分之百产生幻觉。

晚点：如果考虑到模型能力持续进步呢？

朱哲清：LLM 注意力基本上和模型参数量成正比，如果有无限的计算量，可以无限放大模型，当然能在没幻觉的情况下调用上千个工具。但这不现实。

另外，未来任务越来越复杂，工具数量会按照几何级数上涨，而 LLM 的参数量、上下文长度只能线性增长，不可能把世界上所有的工具包进来。

晚点：或者 LLM 不用掌握 1000 个工具，只要用好少数几个造工具的工具，比如 Python 代码就行了？

朱哲清：靠代码只能做出一些常规、通用的工具。假设要 LLM 写个工具帮你预定腾讯会议，它起码得看过腾讯会议的开发者文档，才会写吧？想找到开发者文档，又可能得调用大量工具，回到 LLM 调用工具能力有限的问题。

晚点：为什么强化学习模型能比 LLM 模型更好地调用工具？

朱哲清：强化学习模型完成任务的能力来自 self-play（自我对弈）——在一个虚拟的环境里无数次试错，找到最优路径，然后记住它，之后遇到类似的情况就知道该怎么做。它不靠 Token 决策，不用像 LLM 一样先生成 1000 个 Token 理解工具是什么、怎么用，再生成 1000 个 Token 理解问题是什么，再生成 1000 个 Token 匹配问题和工具。

完成多步任务时，LLM 开始每一步动作前，都要扫描一遍之前生成的 Token，再选工具，有 N 个步骤，就得做 N 次决策；而强化学习模型一次决策，就能计划好在哪一步该调用什么工具。

晚点：两类模型思考的方式又有什么不同？

朱哲清：LLM 本质还是在学人类的思维模式，它预训练时提炼文本中的人类知识，微调时也和人类对齐。但强化学习模型只靠试错寻找最优路径，有时会跳出人类思考框架。

之前我让 Pokee 帮我和投资人预约会议，但忘记给它邮箱的阅读权限。一个基于 LLM 的 Agent 按照人类思路，这时可能直接问用户要收件地址，但 Pokee 直接 Google 了投资人的公开信息，拿到了邮箱地址。

晚点：LLM 在搭 Agent 时，应该扮演什么角色？

朱哲清：长期看 LLM 可能会是一个用户交互界面，是互联网的前端。而在后端，所有工具的交互是由某种协议加某种决策机制来完成的，不必然用自然语言。

比如你让 Agent 去买菜，它会用 LLM 理解你在说什么，然后交给另一个以强化学习为核心的模型做。后者再把信息传达商家端的 Agent。商家端 Agent 确定库存、收货地址，向送货员发请求。这过程应该由 Agent 和 Agent 之间的沟通来完成。

先服务专业用户，再进入企业工作流

晚点：在你看来，一个合格的 Agent 有哪些特点？

朱哲清：首先，完成任务耗时短。如果一个 Agent 完成任务比人工久，不管过程中有没有人参与，这个 Agent 一定都不会成功。因为人有一个惯性——机器完成某件任务时，他会在旁边盯着，而不是交给机器就走开了。

晚点：等等，就算有人习惯盯着，一边刷手机一边盯着，和全神贯注地盯着，还是有蛮大区别的吧？

朱哲清：这么说也没错。但在人能一边刷手机一边盯着的简单场景下，Agent 都比人要慢，这 Agent 还是不够聪明。

第二，Agent 动作要连贯，能最小化人工指导、输入，不能完成了第一个任务，还需要人工复制、粘贴，放到第二个任务里面去再继续执行。

第三，Agent 不能只读取信息，还得能写入。现在多数 Agent 都只有抓取信息、做分析的能力，但不能写入互联网，或者写入个人账户、公司账户。

最后，成本要足够低，低到人工的 1/10，甚至是 1//100，这样才能提高 Agent 的使用频率。

晚点：Pokee 现在单次任务成本、完成任务的时间大概是多少？

朱哲清：大概是市面上已有 Agent 产品的 1/10，完成一项任务大概只要小几分钟。这是靠强化学习模型相对于 LLM 的优势实现的。

晚点：除了耗时、成本，Pokee 还和其他 Agent 产品有哪些不同？

朱哲清：用户操作界面上，我们没有内嵌一个屏幕展示 Agent 具体在做什么，因为我们不用 browse-use（让 Agent 操控浏览器的开源工具）。浏览器是给人看的，是落后的。LLM Agent 用 browser-use 把网页扒下来、多步操作非常慢，单次可能消耗数百万个 Token，成本在几美元到几十美元之间，用 browser-use 的初创公司多数在亏钱。

执行任务时，Pokee 直接通过数据接口和各个平台交互，已经打通了 Facebook、Google、Amazon 等大平台的几千个数据接口——这个目前市面上没人能做到。由此，Pokee 能读取已有数据、写入新数据。

晚点：为什么把 “调用各个平台数据接口” 作为 Pokee 的主攻方向？

朱哲清：我们的目标用户是 prosumer（专业消费者），他们用消费级产品完成日常工作。最早有创业想法的时候，我和很多做广告营销的朋友聊，他们反馈生产完内容后，手动在各个平台上传播、推广得花三、四个小时。后续运营也很麻烦，一个帖子后有十几个评论，都得人工点开回复。这些完全可以用 Agent 替代。

Agent 产品纯靠技术不足以形成护城河。总有一天，对手能用相似的技术做出类似的产品。更重要的是靠先发优势，把用户的工作流绑定在产品内。

渗透完专业消费者后，我们会进一步拓展企业客户。现在很多公司没接入 OpenAI，一是担心数据安全，需要能部署在本地的 Agent；二是成本问题，模型得足够小、单次任务成本低，才能反复调用。这是我们努力的方向。

晚点：很多公司追求稳定胜过效率——人工排出一个工作流、所有部门都同意后，可能并不需要一个 Agent 去改变它，哪怕 Agent 更高效。

朱哲清：这就是为什么我们要先突破专业消费者。改变已有工作流确实很难，但需求也确实存在。我们向专业消费者证明原先二、三十步的人工操作能被 Agent 搞定，他们可能会自下而上地推动公司改变。

另外，我们也在产品里加了护栏。用户可以点一下，让 Pokee 完成所有子任务；也可以让 Pokee 分步完成任务，每个新步骤开始前都要确认，增加安全感。

一些很好的迹象是，我们把 Pokee 的用例发给公司老板后，他们是有购买意愿的。

晚点：你们不用 LLM 决策，是不是意味着没办法接入 MCP，调用其他开发者做好的工具？

朱哲清：我们支持 MCP，但 MCP 部署对非 AI 方向的开发者来说比较复杂。所以我们做了一个自己的协议，开发者只要声明工具的输入、输出是什么，如何唤起工具，就可以被 Pokee 调用。

晚点：接入新工具后，需要重新训练吗？

朱哲清：多数情况下不用。现在这版 Agent 训练时已经见过 15000 个工具了，给了它很好的泛化能力。如果要调用小众的工具，那可能还需要做微调，和以 LLM 为核心的 Agent 一样。

晚点：你怎么看接下来 Agent 市场的竞争？

朱哲清：我觉得未来一年之内，至少看到十家通用 Agent 公司，最后会存留三、四家。同质化的通用 Agent 涌现出来后，它们一定会想办法差异化，类似现在 Claude 专攻代码、ChatGPT 打磨普通用户使用体验。

始终相信强化学习潜力，从垂直回归通用

晚点：你从本科开始对强化学习感兴趣，到博士毕业都一直研究同一个领域。中间没有考虑过转向吗？

朱哲清：没换过方向，但会有诱惑。之前有人拉我做基于 LLM 的聊天机器人、3D 卷积神经网络模型等等，都没做多久，因为它和我的核心路径没太大关系，我最了解的还是强化学习，就应该沿着这条路走下去。

如果你觉得某个方向是正确的，那就得轴一点。Richard Sutton（强化学习奠基人，图灵奖获得者）早年非常不顺利，他的研究近四年无人问津，也找不到教职。Geoffrey Hinton（深度学习奠基人，图灵奖、诺贝尔奖获得者）也类似，当时他提出深度神经网络的时候，所有人都说这是狗屁，没人觉得它有未来。

晚点：但沿着一个技术方向走到底之前，总得先判断它的前景如何。

朱哲清：这方面我和 Richard Sutton 交流过，结论是得找到 “Toy Example”（玩具案例）——用极少的计算量验证一个问题别的技术解决不了，而你的技术可以做。案例必须有现实意义、普适性。

我本科上 AI 课的时候，有一个下棋的数据集。其他算法都假设未来是完全随机的，每次只预测一步，但强化学习算法会考虑策略整体的合理性，有规划地改变局势走向。类似地，人面对生活中大多数问题时，不会每次只规划一个步骤。这时你就能知道强化学习在规划问题时有第一性原理优势。

晚点：按照这个思路会错过大语言模型吗？大语言模型规模没到一定程度前，效果并不惊艳。

朱哲清：但没有任何代替方案效果接近大语言模型。

晚点：最初你提出要以强化学习算法为核心搭建 Agent 后，得到的反馈如何？

朱哲清：最开始我和投资人聊是去年九、十月份的时候，那时候其实 AI Agent 还不火，强化学习也不火。有投资人说 “没人会投你们的，你们过于超前了。”

学界、业界的人听到我想法后，则觉得非常有潜力。甚至我十月份出来创业以后，有人直接问我能不能加入新公司。当时我们还没透露融资等各种情况。

晚点：然后没几个月，靠强化学习提升智能的 o1 模型就发布了。

朱哲清：OpenAI 说 o1 是强化学习驱动的，但大家不知道他背后的逻辑是什么。

真正带火强化学习的是 DeepSeek。它类似当年 Alpha Go 到 Alpha Zero 的中间态，不需要人为标注每一个结果的好坏，通过某种规则就能判断 Agent 一系列行为的优劣。这意味着不再需要人工创造大量数据，Agent 的每一个行为结果都可以立刻被检验。

晚点：OpenAI o1、DeepSeek R1 用的强化学习方法，和你们用的强化学习方法区别是什么？

朱哲清：强化学习只是一种方法，它可以用来训练 o1、R1 这样的 LLM，也可以用来训练 Pokee 用的、不基于自然语言的强化学习模型。两者原理都是一样的，但为模型构建的环境不一样、模型学习时的试错方法也不一样。

晚点：DeepSeek R1 带火强化学习后，对你们有什么影响？

朱哲清：强化学习不是共识前，很多人建议我们先落地一个应用。于是我们先花了两个月做了个垂直电商 Agent，它集成了 Shopify（一个帮助商家搭建网店的服务公司）官方提供的所有数据接口，能帮 Shopify 商家给顾客推荐产品、提供售后服务。

R1 教育完市场后，上百个投资人来找我们、客户也有几十个，问我们是不是有做通用 Agent 的能力。这确实是我们创业的初衷。所以当时决定转向做通用 Agent。

晚点：Shopify 允许外部 Agent 调用站内工具，类似开放的生态在中国也存在吗？

朱哲清：相比北美和欧洲，中国互联网生态更封闭。Facebook 开放更新 Facebook Page（公司、机构、KOL 等的公共主页）的接口，Instagram 直接开放了专业用户和创作者相关的几乎全部接口。我们已经把 Google 和 Meta 的数据接口全部接完了，国内能不能集成百度或者腾讯所有的功能，得打个巨大的问号。

我猜因为商业环境更开放，通用 Agent 会先在北美爆发。

题图来源：《芬奇》

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

对谈 Pokee.ai 朱哲清：强化学习做核心，Agent 的少数派造法

评论

热议股票