对谈 Pokee.ai 朱哲清:强化学习做核心,Agent 的少数派造法
可能是更高效、更便宜的 Agent 实现路径。
文丨孙海宁
编辑丨程曼祺
主流 AI Agent 都把大语言模型(LLM,或者它的多模态版本)当作 “大脑”,靠一个或几个 LLM 编排工作、调用工具。但也有另一条路:Agent 规划、作业靠不依赖自然语言的强化学习模型,LLM 只充当 Agent 和人类的 “交互层”。
不一样的想法,来自去年 10 月成立,至今只有 4 个正式员工的 Pokee.ai。
Pokee.ai 创始人朱哲清有十余年强化学习研究、落地经验。2017 年起,从杜克大学计算机科学专业毕业的朱哲清,一边在斯坦福大学攻读强化学习方向博士学位,师从 Benjamin Van Roy;一边在 Meta 工作,曾任 Meta“应用强化学习” 部门负责人,他用强化学习算法改善内容推荐系统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 Meta 增收 5 亿美元。
靠 LLM 规划、决策,是个自然而主流的想法。OpenAI Operator 和网页交互、操作电脑的能力基于 GPT-4o 模型,Manus 完成任务则是靠 Claude 3.5 Sonnet 模型做长程规划。Claude 提出方便 LLM 理解、使用第三方工具的通用协议 MCP 后,LLM 能调用的工具变多,把 LLM 当作 Agent 大脑的趋势增强。
但这种方法也有局限:现有的 LLM 仍无法大量调用工具。“LLM 可能调用超过 50 个工具,就会产生幻觉。” 朱哲清说。因为描述工具用途、用法的信息需要先放入上下文,而 LLM 能接受的上下文长度有限。
Agent 靠 LLM 完成任务也可能更慢、更贵。朱哲清举例 LLM 用 browser-use 浏览网站、多步交互时,单次可能消耗数百万个 Token,成本在几美元到几十美元之间。“用 browser-use 的初创公司多数在亏钱。”
Pokee.ai 使用的强化学习模型不用上下文理解工具用途。它掌握工具是靠训练时成千上万次 “试错”,由此记住工具和问题的正确组合。朱哲清说他们的 Agent 在训练时已经见过 15000 个工具,之后出现类似的新工具,自然会用。
同时,强化学习方法训练的模型参数量更小,这意味着完成任务耗时更短、成本更低。Pokee.ai 官方演示中,Agent 产品 Pokee 完成一项任务只要几分钟。朱哲清说相比同类产品,Pokee 的单任务成本也只有它们的 1/10。
因为觉得 MCP 过于复杂,需要开发者自己设置 MCP 服务器,声明如何设置参数,保证工具之间能相互衔接,Pokee.ai 团队另做了一套方便 Agent 调用工具的协议,开发者说明工具的输入、输出、唤起方式,就能被 Pokee 调用。同时,Pokee 未来也会支持 MCP。
试用 Pokee 时,《晚点 LatePost》发现,它能较好地调用各个平台数据接口完成读取、写入等任务。沿着个方向优化,是因为 Pokee 的目标场景之一,是帮从事营销、运营等岗位的 “专业用户” 完成社媒运营等日常工作。朱哲清认为只有绑定用户工作流,Agent 产品才获得竞争壁垒。
Pokee 试用案例
任务:查找关于 OpenAI o3 模型的最新报道,尤其是其优缺点,以及它与其他大型模型相比的表现。然后从 Google 图片中获取相关图片。使用以上信息制作新的 Google 幻灯片,并发送至 sunhaining@latepost.com。
我们也遇到了一些 bug,比如把整理好的内容写入 Google 云盘时,Pokee 会在只需要一个的情况下,同时创建两个新文档;执行较复杂的搜索任务时,相关数据接口表现不稳定,容易卡住。朱哲清说目前 Pokee 仍然在内测阶段,已经能胜任很多任务,同时团队在努力提升大规模任务下的稳定性。
本周二 Pokee 在海外内测前,《晚点 LatePost》访谈了朱哲清。本次访谈的播客版也已发布。
AI Agent,但以强化学习模型为核心
晚点:你是什么时候想到要用强化学习方法做 Agent 的?
朱哲清:我之前在 Facebook 应用强化学习(Applied Reinforcement Learning)团队,用强化学习方法推荐内容有很多成功落地案例,估算下来,Facebook 每年将近 5 亿美元的年收入是由我们团队带来的。
但我很早就意识到强化学习的潜力不止于让 Facebook 广告收入提高几个百分点。你可以把向用户推荐每篇文章理解成一个个抽象的 “动作”,动作之间需要做规划。它和 Agent 拆解任务、设计工作流是异曲同工的。
晚点:那为什么在 LLM 出现、变得可用后,你才离职创业?
朱哲清:强化学习模型是个很聪明的大脑,能把现实世界抽象成一个个数组,做决策、执行任务。但人类不可能理解一个个数组。LLM 的输入、输出都是自然语言,它的出现解决了 Agent 如何与人交互的问题。
晚点:交互之外,LLM 也有推理、规划的能力,Pokee 为什么不直接把 LLM 作为 Agent 的大脑?
朱哲清:Agent 要好用,得能调用工具,它们可能有上千个。但现在最好的 LLM 在调用 100 个甚至 50 个工具的时候,就已经开始出现幻觉。
因为 LLM 的 “注意力” 有限,能支持的上下文 Token 长度有限。比如有 50 个工具,每个工具用 1000 个 Token 描述,那光工具就有 5 万个 Token。完成任务时,调用一个工具拉出一篇文章,文章对应的 Token 也要作为上下文喂给 LLM。十几步下来,就是上百万个 Token,百分之百产生幻觉。
晚点:如果考虑到模型能力持续进步呢?
朱哲清:LLM 注意力基本上和模型参数量成正比,如果有无限的计算量,可以无限放大模型,当然能在没幻觉的情况下调用上千个工具。但这不现实。
另外,未来任务越来越复杂,工具数量会按照几何级数上涨,而 LLM 的参数量、上下文长度只能线性增长,不可能把世界上所有的工具包进来。
晚点:或者 LLM 不用掌握 1000 个工具,只要用好少数几个造工具的工具,比如 Python 代码就行了?
朱哲清:靠代码只能做出一些常规、通用的工具。假设要 LLM 写个工具帮你预定腾讯会议,它起码得看过腾讯会议的开发者文档,才会写吧?想找到开发者文档,又可能得调用大量工具,回到 LLM 调用工具能力有限的问题。
晚点:为什么强化学习模型能比 LLM 模型更好地调用工具?
朱哲清:强化学习模型完成任务的能力来自 self-play(自我对弈)——在一个虚拟的环境里无数次试错,找到最优路径,然后记住它,之后遇到类似的情况就知道该怎么做。它不靠 Token 决策,不用像 LLM 一样先生成 1000 个 Token 理解工具是什么、怎么用,再生成 1000 个 Token 理解问题是什么,再生成 1000 个 Token 匹配问题和工具。
完成多步任务时,LLM 开始每一步动作前,都要扫描一遍之前生成的 Token,再选工具,有 N 个步骤,就得做 N 次决策;而强化学习模型一次决策,就能计划好在哪一步该调用什么工具。
晚点:两类模型思考的方式又有什么不同?
朱哲清:LLM 本质还是在学人类的思维模式,它预训练时提炼文本中的人类知识,微调时也和人类对齐。但强化学习模型只靠试错寻找最优路径,有时会跳出人类思考框架。
之前我让 Pokee 帮我和投资人预约会议,但忘记给它邮箱的阅读权限。一个基于 LLM 的 Agent 按照人类思路,这时可能直接问用户要收件地址,但 Pokee 直接 Google 了投资人的公开信息,拿到了邮箱地址。
晚点:LLM 在搭 Agent 时,应该扮演什么角色?
朱哲清:长期看 LLM 可能会是一个用户交互界面,是互联网的前端。而在后端,所有工具的交互是由某种协议加某种决策机制来完成的,不必然用自然语言。
比如你让 Agent 去买菜,它会用 LLM 理解你在说什么,然后交给另一个以强化学习为核心的模型做。后者再把信息传达商家端的 Agent。商家端 Agent 确定库存、收货地址,向送货员发请求。这过程应该由 Agent 和 Agent 之间的沟通来完成。
先服务专业用户,再进入企业工作流
晚点:在你看来,一个合格的 Agent 有哪些特点?
朱哲清:首先,完成任务耗时短。如果一个 Agent 完成任务比人工久,不管过程中有没有人参与,这个 Agent 一定都不会成功。因为人有一个惯性——机器完成某件任务时,他会在旁边盯着,而不是交给机器就走开了。
晚点:等等,就算有人习惯盯着,一边刷手机一边盯着,和全神贯注地盯着,还是有蛮大区别的吧?
朱哲清:这么说也没错。但在人能一边刷手机一边盯着的简单场景下,Agent 都比人要慢,这 Agent 还是不够聪明。
第二,Agent 动作要连贯,能最小化人工指导、输入,不能完成了第一个任务,还需要人工复制、粘贴,放到第二个任务里面去再继续执行。
第三,Agent 不能只读取信息,还得能写入。现在多数 Agent 都只有抓取信息、做分析的能力,但不能写入互联网,或者写入个人账户、公司账户。
最后,成本要足够低,低到人工的 1/10,甚至是 1//100,这样才能提高 Agent 的使用频率。
晚点:Pokee 现在单次任务成本、完成任务的时间大概是多少?
朱哲清:大概是市面上已有 Agent 产品的 1/10,完成一项任务大概只要小几分钟。这是靠强化学习模型相对于 LLM 的优势实现的。
晚点:除了耗时、成本,Pokee 还和其他 Agent 产品有哪些不同?
朱哲清:用户操作界面上,我们没有内嵌一个屏幕展示 Agent 具体在做什么,因为我们不用 browse-use(让 Agent 操控浏览器的开源工具)。浏览器是给人看的,是落后的。LLM Agent 用 browser-use 把网页扒下来、多步操作非常慢,单次可能消耗数百万个 Token,成本在几美元到几十美元之间,用 browser-use 的初创公司多数在亏钱。
执行任务时,Pokee 直接通过数据接口和各个平台交互,已经打通了 Facebook、Google、Amazon 等大平台的几千个数据接口——这个目前市面上没人能做到。由此,Pokee 能读取已有数据、写入新数据。
晚点:为什么把 “调用各个平台数据接口” 作为 Pokee 的主攻方向?
朱哲清:我们的目标用户是 prosumer(专业消费者),他们用消费级产品完成日常工作。最早有创业想法的时候,我和很多做广告营销的朋友聊,他们反馈生产完内容后,手动在各个平台上传播、推广得花三、四个小时。后续运营也很麻烦,一个帖子后有十几个评论,都得人工点开回复。这些完全可以用 Agent 替代。
Agent 产品纯靠技术不足以形成护城河。总有一天,对手能用相似的技术做出类似的产品。更重要的是靠先发优势,把用户的工作流绑定在产品内。
渗透完专业消费者后,我们会进一步拓展企业客户。现在很多公司没接入 OpenAI,一是担心数据安全,需要能部署在本地的 Agent;二是成本问题,模型得足够小、单次任务成本低,才能反复调用。这是我们努力的方向。
晚点:很多公司追求稳定胜过效率——人工排出一个工作流、所有部门都同意后,可能并不需要一个 Agent 去改变它,哪怕 Agent 更高效。
朱哲清:这就是为什么我们要先突破专业消费者。改变已有工作流确实很难,但需求也确实存在。我们向专业消费者证明原先二、三十步的人工操作能被 Agent 搞定,他们可能会自下而上地推动公司改变。
另外,我们也在产品里加了护栏。用户可以点一下,让 Pokee 完成所有子任务;也可以让 Pokee 分步完成任务,每个新步骤开始前都要确认,增加安全感。
一些很好的迹象是,我们把 Pokee 的用例发给公司老板后,他们是有购买意愿的。
晚点:你们不用 LLM 决策,是不是意味着没办法接入 MCP,调用其他开发者做好的工具?
朱哲清:我们支持 MCP,但 MCP 部署对非 AI 方向的开发者来说比较复杂。所以我们做了一个自己的协议,开发者只要声明工具的输入、输出是什么,如何唤起工具,就可以被 Pokee 调用。
晚点:接入新工具后,需要重新训练吗?
朱哲清:多数情况下不用。现在这版 Agent 训练时已经见过 15000 个工具了,给了它很好的泛化能力。如果要调用小众的工具,那可能还需要做微调,和以 LLM 为核心的 Agent 一样。
晚点:你怎么看接下来 Agent 市场的竞争?
朱哲清:我觉得未来一年之内,至少看到十家通用 Agent 公司,最后会存留三、四家。同质化的通用 Agent 涌现出来后,它们一定会想办法差异化,类似现在 Claude 专攻代码、ChatGPT 打磨普通用户使用体验。
始终相信强化学习潜力,从垂直回归通用
晚点:你从本科开始对强化学习感兴趣,到博士毕业都一直研究同一个领域。中间没有考虑过转向吗?
朱哲清:没换过方向,但会有诱惑。之前有人拉我做基于 LLM 的聊天机器人、3D 卷积神经网络模型等等,都没做多久,因为它和我的核心路径没太大关系,我最了解的还是强化学习,就应该沿着这条路走下去。
如果你觉得某个方向是正确的,那就得轴一点。Richard Sutton(强化学习奠基人,图灵奖获得者)早年非常不顺利,他的研究近四年无人问津,也找不到教职。Geoffrey Hinton(深度学习奠基人,图灵奖、诺贝尔奖获得者)也类似,当时他提出深度神经网络的时候,所有人都说这是狗屁,没人觉得它有未来。
晚点:但沿着一个技术方向走到底之前,总得先判断它的前景如何。
朱哲清:这方面我和 Richard Sutton 交流过,结论是得找到 “Toy Example”(玩具案例)——用极少的计算量验证一个问题别的技术解决不了,而你的技术可以做。案例必须有现实意义、普适性。
我本科上 AI 课的时候,有一个下棋的数据集。其他算法都假设未来是完全随机的,每次只预测一步,但强化学习算法会考虑策略整体的合理性,有规划地改变局势走向。类似地,人面对生活中大多数问题时,不会每次只规划一个步骤。这时你就能知道强化学习在规划问题时有第一性原理优势。
晚点:按照这个思路会错过大语言模型吗?大语言模型规模没到一定程度前,效果并不惊艳。
朱哲清:但没有任何代替方案效果接近大语言模型。
晚点:最初你提出要以强化学习算法为核心搭建 Agent 后,得到的反馈如何?
朱哲清:最开始我和投资人聊是去年九、十月份的时候,那时候其实 AI Agent 还不火,强化学习也不火。有投资人说 “没人会投你们的,你们过于超前了。”
学界、业界的人听到我想法后,则觉得非常有潜力。甚至我十月份出来创业以后,有人直接问我能不能加入新公司。当时我们还没透露融资等各种情况。
晚点:然后没几个月,靠强化学习提升智能的 o1 模型就发布了。
朱哲清:OpenAI 说 o1 是强化学习驱动的,但大家不知道他背后的逻辑是什么。
真正带火强化学习的是 DeepSeek。它类似当年 Alpha Go 到 Alpha Zero 的中间态,不需要人为标注每一个结果的好坏,通过某种规则就能判断 Agent 一系列行为的优劣。这意味着不再需要人工创造大量数据,Agent 的每一个行为结果都可以立刻被检验。
晚点:OpenAI o1、DeepSeek R1 用的强化学习方法,和你们用的强化学习方法区别是什么?
朱哲清:强化学习只是一种方法,它可以用来训练 o1、R1 这样的 LLM,也可以用来训练 Pokee 用的、不基于自然语言的强化学习模型。两者原理都是一样的,但为模型构建的环境不一样、模型学习时的试错方法也不一样。
晚点:DeepSeek R1 带火强化学习后,对你们有什么影响?
朱哲清:强化学习不是共识前,很多人建议我们先落地一个应用。于是我们先花了两个月做了个垂直电商 Agent,它集成了 Shopify(一个帮助商家搭建网店的服务公司)官方提供的所有数据接口,能帮 Shopify 商家给顾客推荐产品、提供售后服务。
R1 教育完市场后,上百个投资人来找我们、客户也有几十个,问我们是不是有做通用 Agent 的能力。这确实是我们创业的初衷。所以当时决定转向做通用 Agent。
晚点:Shopify 允许外部 Agent 调用站内工具,类似开放的生态在中国也存在吗?
朱哲清:相比北美和欧洲,中国互联网生态更封闭。Facebook 开放更新 Facebook Page(公司、机构、KOL 等的公共主页)的接口,Instagram 直接开放了专业用户和创作者相关的几乎全部接口。我们已经把 Google 和 Meta 的数据接口全部接完了,国内能不能集成百度或者腾讯所有的功能,得打个巨大的问号。
我猜因为商业环境更开放,通用 Agent 会先在北美爆发。
题图来源:《芬奇》
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
