硅谷怎么看 DeepSeek?与 Fusion Fund 张璐聊开源、Agent 和除了 AI
技术的力量,开源的力量,初创生态的力量。
《晚点聊 LateTalk》#100 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。《晚点聊 LateTalk》是《晚点 LatePost》推出的播客节目。“最一手的商业、科技访谈,最真实的从业者思考。”
整理丨刘倩
2025 年 1 月,农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1,以相对低的成本,在一些 Benchmark 上比肩,甚至超越了 o1 的表现,在全球掀起了广泛讨论。
这期节目,我们邀请了 2015 年,在硅谷创立了 Fusion Fund 的投资人张璐,来和我们一起聊一聊,当前美国科技圈和硅谷语境中,对 DeepSeek 等模型的讨论。
我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent(智能体)应用空间;以及在美国的科技投资视野中,除了 AI,大家还在关注什么。
Fusion Fund 曾投资 Grubmarket、Al 会议公司 Otter.ai 还有 Al 与医疗结合的公司 Subtle Medical 等。在 Al 领域,Fusion Fund 重点投资美国本士的 ToB Al 公司,关注 AI 与医疗,金融保险,太空科技等领域的结合。
张璐认为,DeepSeek 能有如此出圈的影响力,重要原因之一是开源生态的胜利,而开源的繁荣更有利于初创企业。
她也谈了对 DeepSeek 利空英伟达和 GPU 算力需求,以及 Meta 等美国科技大公司感到的压力。她的观察是,长线看,DeepSeek 这类大幅降低 AI 模型训练、部署和使用成本的开源成果,会促进更多公司把 AI 大模型带到各行各业,这会提升 AI 用量和算力需求,对算力并不是一个利空。
对 Meta 这样大力投入开源的大型科技公司,张璐认为,它们的一些贡献和整个开源社区的进展,本身是 R1 这类成果出现的条件之一,同时 Meta 作为美国 AI 开源生态的主要玩家之一,也会长期受益于开源的繁荣。
我们聊这期节目时,是 2025 年 1 月 27 日上午,当天晚上,英伟达股价大跌超 17%,市值蒸发超 5000 亿美元。
这次波动幅度超出一些人的预期,但也许并不影响长期的趋势判断。1 月 28 日,英伟达又反弹 8%,股价从前一天最低约 116 美元回升至 129 美元。
以下是晚点和 Fusion Fund 创始合伙人张璐的对话:
DeepSeek“冲击”,开源生态的胜利
Q:近期,在中国备受瞩目的公司非 DeepSeek 莫属。它既不是之前像字节、腾讯这一类大的科技巨头,也不是 2023 年之后形成的中国大模型的 “六小虎”。DeepSeek 是一家充满神秘色彩的公司,我觉得它在国内特别火的一个重要原因是 “墙内开花墙外香”——人们发现它在国外,特别是美国的技术社区,受到了极高的关注。你的实际感受是?
张璐:是的,我上周在参加达沃斯峰会期间,各路商业领袖都在讨论 DeepSeek。我记得 ScaleAI 创始人 Alex 接受采访的时候还提到了 DeepSeek 这家公司。我觉得 DeepSeek 这次也是代表中国的模型公司,在国际科技领域获得了广泛认知和关注。
在硅谷这边,去年年中,我曾与一些 OpenAI 和 Anthropic 的朋友交流,他们当时已经提及正在关注 DeepSeek 所从事的领域。我觉得主要还是因为在开源生态中信息沟通与交互是比较高效的,特别是对于新型模型基础架构(Architecture)层面上的探索,大家都会比较关注,尤其过去这一周,DeepSeek 新发布的 R1 给大家一个很大的惊喜。
Q:具体来说,你和你周围的硅谷投资人以及 AI 创业者朋友们看到的,对于 DeepSeek 这家公司所展现出的惊喜主要体现在哪些方面呢?或者说大家是如何理解 DeepSeek 这类公司的异军突起?
张璐:首先是开源。这个公司做得非常优秀,但最大亮点在于开源生态的胜利。我们一直非常支持开源生态,这个生态其实有很大的潜能,所以在过去的这几个星期,可能大家比较兴奋的一点是,觉得 DeepSeek 证明了开源正赶超闭源,甚至有望超越闭源的一个发展速度。开源的发展速度让大家看到构建广泛生态合作的可能性,这种合作超越了地域限制。即便像 DeepSeek 这样远在中国的团队,也能在开源生态中作出巨大贡献。所以我觉得,开源社区内彼此支持尤为重要。当然,DeepSeek 有很多创新的地方,但这些创新无疑也建立在众多前沿开源生态、闭源生态所提供的丰富模型和架构基础上。
另一点,我认为强化学习(Reinforcement Learning)虽然并非新鲜事物,但如今已实现完全无监督的强化学习,这一点尤为关键。这对整个 ScalingLaw 而言同样是个好消息,因为它能够省去大量的数据标注过程,特别是 R1 部分,结合更多合成数据,让模型自我 “反思”。我觉得大家最关注的就是它可以真的是做到了无监督的强化学习,然后免除了大量标注过程的数据,我觉得这两点是大家比较意外的。
当然,成本问题同样备受瞩目。成本的显著降低,确实给大家带来了很大的惊喜。我认为,这一成本的削减对人工智能未来的产业应用及垂直领域的发展都将起到极大的推动作用,DeepSeek 可以把成本降到这么多,打开了未来大规模商业化的可能性。
Q:所以你自己是一直比较相信在大模型这个技术上,其实开源是很有可能会追上闭源的是吗?因为这事儿可能在前两年还是有一些争议的。
张璐:在去年 3 月的公开演讲中我曾提到,我们非常有信心,也很相信开源生态的发展可能性。此外,当时我们秉持着一个整体理念,这也反映了我们的投资偏好——我们不投 ToC,而是专注于投资那些面向企业级应用(ToB)的人工智能公司。因此,这些公司的发展方向势必不是单一的大模型,而是更多聚焦于垂直领域的小模型。
怎样在垂直领域小模型的基础之上,提升其效能和准确率呢?那开源生态的好处是它的多样性比较大,这里可以看到各式各样的架构以及 Inference 层面的创新,来帮助优化,让它这个垂直领域小模型可以做得更好。
此外要探讨的是,开源生态对谁最为有利?显然,它对初创企业最有利,而闭源则更有利于大企业。作为早期的科技投资人和投资机构,当然也从私心的角度希望开源生态可以发展得更好,我们也看到这些蓬勃发展的初创企业生态对开源生态的支持和需要。
Q:DeepSeek 会不会改变大家对于中国模型的讨论呢?
张璐:我认为这或许会引发一些讨论,但 DeepSeek 似乎与中国其他模型公司所走的路径不太一样。DeepSeek 改变大家对中国模型的印象:工程优化外,底层架构也有创新。当然,我可能对中国其他模型公司的了解并不那么深入,但在我看来,DeepSeek 可能是第一家让美国这边的模型公司、初创企业乃至整个 AI 圈看到,中国的这些人工智能公司、模型公司也在进行底层架构创新的探索。
众所周知,中国的公司执行力很强,许多从 0 到 1 的创新在美国出现后,中国会迅速落地应用。然而,我认为 DeepSeek 并未过多关注商业化角度的探索,它更多地聚焦于底层架构创新方向的探索。当然,它在工程领域也有诸多出色的创新,但我认为这一点可能是它与其他中国模型公司相区别的一个重要原因。
另外的话,AMD 宣布与 DeepSeek 合作,但这也不是利空英伟达,因为 DeepSeek 等成果会降低更多行业使用大模型的成本门槛。
Q:我最近看到一个段子,想求证一下。据说,Meta 有一位员工在美国的一个职场社区网站 Blind 上发帖提到,在 DeepSeek 发布 V3 模型后,Meta 内部感受到了一定压力。原因是他们发现 V3 的训练费用可能低于 Meta 该部门许多高管的年薪,你有听过吗?
张璐:我不知道这个段子的真假,因为我也没有去关注你说的这个平台。我认为,DeepSeek V3 557 万美元训练费用,只算了 GPU hours(GPU 使用成本),这一价格并未涵盖前期的投入与研发成本。这就像烹饪一道菜肴,我们是只计算炒菜时所用的原材料和调味品的成本,还是将厨房的建设、锅碗瓢盆的购置等前期投入也一并计入成本,这两种计算方式是截然不同的,我认为这是需要考虑的第一点。
第二点,我觉得成本考量是当前人工智能模型发展方向上的核心话题之一。对于 Meta 而言,他们无疑面临着压力。在开源生态中,Llama 架构一直备受瞩目,其结构和架构被广泛采用。简而言之,如果要利用开源生态的模型来构建应用,很多人可能会优先选择复制 Llama 的结构。Meta 期望 Llama4 不仅能成为最好的开源模型之一,还希望能超越闭源模型。所以我觉得 DeepSeek 实际上为 Llama 探索了一个新的模型结构方向,这对 Llama 的整体内部产品发展是有利的。
然而,对于一个大型科技公司而言,尽管前期投入巨大、且体量庞大,从品牌公关的角度来看可能会面临一些挑战——为什么一个小公司能做得比大公司更好?
所以我觉得,这既带来了实际层面上的好处,也涉及到非技术发展层面的考量。从这个角度来看,对 Meta 长远来说是个好消息,只是现在大家可能会直接拿它与其他公司进行比较,因为毕竟在开源生态中,它是唯一一家大型科技公司,而且一直希望成为开源生态的领头羊。它这样做的目的是与谷歌等做闭源模型的大科技公司区别开来,打出自己的优势,并且鼓励更多开发者在开源生态中利用 Llama 的结构。
Q:接下来也想聊一下在硅谷大家对闭源模型的一些观察和看法。尽管全球范围内,包括中国在内的许多公司都在模型研发上取得进展,但这些进展仍主要沿着 OpenAI 的 o 系列(如 o1、o3)所开启的推理模型方向进行,其实 OpenAI 它还是一个闭源的系统,有人猜测说 OpenAI 其实有更多更厉害的东西还没有放出来,大家是不是高估了开源模型和闭源模型的接近程度,低估了它们之间的实际技术差距?
张璐:不仅是 OpenAI,Anthropic 的发展速度也极快。所以我觉得大家这次会对这个消息这么兴奋的一点,也是因为其实会有很多担忧,怕未来 AI 发展及基础模型迭代被大科技公司控制。毕竟它们在资源、算力和人才上有绝对优势。而开源生态对整个创新生态,尤其是初创企业更有帮助。所以 DeepSeek 引起广泛关注,可能与这一大环境相关。
现在 OpenAI 确实是行业的 Benchmark。就像你提到的,大家都会去跟它对齐,但其他的公司追赶的速度也非常快。以 Anthropic 为例,它在 ToB 领域的发力颇为强劲。从行业数据不难看出,其收入增长显著,行业影响力也日益扩大。这其实也是一个相互成就的过程,Anthropic 能够赢得更多企业级订单,也就意味着它能获取更多行业数据。提及 OpenAI,其网络爬虫技术极为出色,能够爬取大量公开 C 端数据进行训练,现在利用合成数据(synthetic data)进行训练的话题也备受热议。然而,当 C 端数据资源近乎枯竭时,如何获取更多样化、更高质量的数据进行训练便成为关键问题。此时,B 端数据显得尤为重要。而 Anthropic 在这一领域可能获取的 B 端数据量及行业多样性将持续增强,那对其模型的发展是一个非常大的优势。
除此之外的话,还有马斯克的旗下的 xAI。xAI 的优势不仅在于汇聚的高质量人才、核心团队的强大实力,更在于其所能获取的数据资源。
这些数据资源的特点远不止高质量那么简单。我们常讨论语言模型,其核心训练数据大多仍为 2D 形式。但 xAI 所能获取的数据则有所不同。特斯拉不仅提供了与汽车相关的数据,还包括整个特斯拉工业工厂的数据。这些数据可以升级为 3D 工厂模型,涵盖内部生产调度、供应链自动化等所有数据。此外,它还能获取 SpaceX 的相关数据,依赖于 SpaceX 庞大的卫星工厂和火箭基础数据,更重要的是还有通过 Starlink 收集的众多卫星数据,既有 2D 也有 3D 形式,所以 xAI 拥有海量的、高质量的 3D 产业数据,这些数据是其他公司很难拿到的。从这个角度来看,确实存在很多我们不知道的内容,因为尚未公开发布。但是它内部迭代的速度是非常非常惊人的。
所以,你可以看到他们内部不仅专注于模型的开发,还在此基础上积极探索各式各样的应用。这些应用目前并未推向市场供第三方使用,而是首先服务于内部,进行内部大规模的效能提升。
Q:当前,小红书上关于 DeepSeek 的讨论比较多的是,当你向它提问时,它有时会突然给出极具诗意或科幻文学风格的回答。这显示出不同模型在输出风格或 “性格” 上确实存在差异。
张璐:我觉得很有意思,之前没有从这个角度思考过。而且更有意思的是,DeepSeek 的运行过程,就像我们提到的,它采用了无监督的强化学习,这意味着模型是自主进行探索、自我发现和自我反思的。它通过这样的思考过程得出的答案是如此独特。确实如你所说,这代表了一种 “性格”,可能不同的架构导致模型最终探索出的沟通交流方式也不一样。
Q:你觉得 2025 年全球的 AI 技术升级、模型的升级中有什么你期待的方向和可能的新动向?
张璐:从与我投资相关的现实角度出发,首先我当然非常关注垂直领域小模型。我投资的许多企业都专注于 ToB 领域,垂直领域小模型从商业和成本角度来看,无疑是明确的需求;
其次,我非常相信人工智能未来的一大重要方向是人工智能在边缘设备上的铺设和应用。提到边缘设备,人们首先想到的是手机,它确实是一个拥有强大运算能力的边缘设备。但除此之外,话筒、耳机、台灯等也都是边缘设备,如何让这些边缘设备搭载人工智能模型,成为智能的、能够与人类交互的接口,这其实是未来发展的重要趋势。不止我这样想,其实像美国的一些大型科技公司,如高通、博通以及惠普等,也都在积极探索——怎么让自己的产品,包括那些大规模应用于产业中的边缘设备,具备搭载人工智能模型的能力;
最后是架构创新。尽管人工智能领域目前发展得热火朝天,但在模型架构层面,我们仍处于初级阶段,不断有新的模型架构涌现,DeepSeek 便是其中之一。此外,我们也目睹了一些新的算法模型架构的出现,这种新架构能使 AI 模型在 CPU 上的运行效率超越 GPU,这无疑是一个极具吸引力的方向。之前大家热议英伟达时,普遍认为人工智能应用必须依赖 GPU 芯片。然而,如果新的算法模型能在 CPU 上更高效地运行,那么 CPU 厂商的市场地位、供货量以及在整个产业中的影响力可能会发生变化。这并不是简单的替代关系,更多的是促进了多样性的发展。
所以,我认为这正是开源生态所展现出的最大价值——会让我们看到更多的多样性。开源生态中人们不会局限于某一种架构进行探索,而是会有更多的信息交互、相互配合、互相支持,涌现很多新的架构、新的算法模型,同时带来更多新的产业 AI 应用的可能性。
推理模型带来的 Agent 机会
Q:下面想探讨一下模型升级后大家所期待的应用变化。目前,推理模型备受瞩目,其重要意义在于为智能体(Agent)的应用带来了更多可能性。OpenAI 最近也发布了一个名为 Operator 的新应用,这与 Anthropic 之前发布的 Computer Use 有些相似。我们接下来将聊聊这些模型变化可能带来的一些应用。也可以讲讲,你所投资或了解的一些企业在这些方面有哪些尝试?你自己用过 Operator 或 Computer Use 吗?
张璐:试用过 OpenAI Operator,它的核心功能在于能够协助用户完成任务,而不是仅限于简单的一问一答模式。例如,当你要求它预订机票时,它会主动搜索并核实相关信息。然而,从速度层面来看它还是比较慢的,当它调用搜索引擎时,你会发现搜索速度远不如你自己手动查询,仿佛一位行动缓慢的老太太。另外还存在一个问题,就是它有时会编造信息或数据,这可能是早期就存在的问题,但我觉得前景还是非常美好的。
不仅是 OpenAI,Salesforce、微软等大公司在布局行业 Agent。所以我认为这是一个大的产业发展方向,AIagent 在各行各业的垂直应用,与我前面提到的行业应用中的垂直领域小模型,实际上是相辅相成的,这为我们带来了很多好的机会。
Q:Sam Altman 称很快会让 ChatGPT Plus 会员(20 美元/月订阅)用上 Operator。
张璐:这话得 “打折” 听。Sam Altman 说的时间线可能要稍微给他多延长一点,没有那么快。
Q:我自己设想一下,如果 Operator 这个应用继续被包含在 200 美元的 Pro 版订阅中,那么它可能难以帮助 OpenAI 吸引大量新增用户。从 C 端用户的角度来看,可能只有那些已经购买了 Pro 版的用户才会去尝试使用它。从 B 端的角度来看,你与众多企业客户接触较多,对于美国的企业客户而言,你觉得他们是否愿意为目前 Operator 所提供的功能支付每月 200 美元的费用?
张璐:可能性相对比较低。美国 B 端客户对准确性和专业度要求高,对当前 Operator 的形态接受度低,更希望获得专业、精准的产品。
Q:Operator 与传统 RPA(流程自动化)的区别是什么?
张璐:交互革新。其实,ChatGPT 的接受度之所以这么高,主要是因为其使用门槛低。这个门槛低到你只需具备聊天能力,便能轻松上手。Operator 也一样,它就相当于你的个人助理,每个人只需用简单的口头语言发布任务,它就能持续执行并推动流程的自动化。但是,传统的流程自动化软件还需要经历一个复杂的整合植入过程(integration),有使用门槛、技术要求和植入周期,我认为这是它们之间一个较为根本的区别。
从根本上讲,人工智能并非一个全新的概念或技术,它已经存在很长时间。甚至我们刚才多次提到的强化学习也并不是新事物。那么,为什么现在大家会突然觉得人工智能的接受度如此之高,推广速度如此之快呢?我认为,这主要得益于交互层面的创新,让人们意识到,原来可以以如此简单的方式、如此低的门槛来使用人工智能工具。
Q:你觉得像 Operator 这类应用,它会带来什么创业的新机会吗?
张璐:医疗、金融、保险、太空科技领域都有 Agent 应用机会。
Q:当这种 Agent 应用问世后,它的功能已远超简单聊天,而是涉及更多操作与用户敏感信息。你刚才也提到了隐私方面的隐忧,这确实是大家接下来会重点关注的问题。
张璐:特别有意思的一个实例,比如公司为员工提供了一项福利——通过线上平台预约心理健康咨询服务。如果员工感到焦虑或有其他心理问题,可以通过该平台预约心理医生进行交流,或者选择与 AI 分享自己的困扰,并获取 AI 提供的解决方案。有趣的是,大多数人倾向于向 AI 透露自己的私密信息,而不是预约心理医生,这个现象在年轻人中更多,他们似乎更倾向于与人工智能分享个人隐私信息。
当然,这里确实存在隐私信息的担忧。但从人使用的角度来看,他们似乎对人工智能的信任度高于与心理医生交谈的信任度,更愿意向人工智能敞开心扉。当我听到有人与我分享这一新数据时,我也感到惊讶。我想,这可能与年轻一代的成长环境有关。回想我们这一代的成长环境,智能手机、互联网等似乎是非常自然、理所当然的存在。那么,对于下一代人来说,使用人工智能,甚至使用像 AIagent 这样的工具,会不会成为他们与世界交互的更自然的方式呢?所以,尽管隐私考量确实存在,但我认为用户行为上也会有很多变化。
Q:想聊一下中美投资 AI 的一些差别。因为我感觉你刚才提到的很多比较看好的方向,它其实是有一点像一个组合,美国基于开源基座模型 + 第三方 infra 服务 + 应用;而国内投资人有时担忧只做一个环节的公司太轻,易被巨头挤压。
张璐:在美国巨头企业的确很强势。但是它们更多地聚焦于基础模型层面的竞争,在应用层面,许多巨头则倾向于自己搭建生态,希望吸引更多的初创企业在生态平台上开发多样化的应用。因此,虽然竞争确实存在,但我们也看到了大企业与初创企业之间相对和谐的协同合作和战略合作。这可能是硅谷创新生态的一个独特之处。
此外,以垂直领域的人工智能应用为例,如制药、金融和保险等行业,这些行业本身就受到高度监管。在过去几十年中一直如此,所以在应用人工智能时,这些行业会更加谨慎。在这个层面上,当他考虑与人工智能公司合作时,他必然会考虑如何分享自己内部的行业数据,以便让该公司能为自己打造更出色的技术产品,他可能会对初创企业的信任度更高一点,那么就能对数据拥有更强的把控性。如果这个时候选择与谷歌合作,鉴于谷歌是一家大型科技公司,它的商业模式部分依赖于用户数据的变现,那么数据是否将面临较高风险,被合作方利用呢?
所以,我们可以观察到一些与技术非直接相关的因素,在影响着这个生态的发展。这也为初创企业提供了更多与产业内大企业合作的机会,而不是所有的大企业都仅仅与微软、谷歌等巨头合作。现在许多大型企业在进行人工智能领域的探索时,其最优选择往往是与多家初创的 AI 公司合作。
除了 “AI”
Q:在硅谷的讨论和视野中,除了 AI 之外,大家现在关注的一些热点是什么?
张璐:两个热点,一个是医疗,现在有一个新的词叫科技和生命科学结合(BioTech)。我参加过一个演讲,它的主题是讲长寿,现在对于长寿的定义已经和之前不一样了。几年前大家更多的讨论是如何延长生命,怎么样活得更长。
但现在的核心已转变为如何提升生命的质量,我们不再一味的梦想活到 150 岁乃至 200 岁,而是致力于在有限的岁月中,拥有更高的身体素质、健康的体魄和清晰的大脑。这势必就要求很多新的技术,特别是在医疗技术上的创新。这包括早期疾病的精准诊断、疾病的个性化治疗方案,以及诸如靶向治疗、免疫疗法、mRNA 等基础应用的研究。
现在再加上人工智能,人工智能又可以加速在医疗层面上的基础创新。所以我经常说人工智能有点像一个催化剂,它不只是催化很多产业的数字化转型,它其实也会催化和加速很多其他技术的一个创新,包括医疗领域技术的创新。现在我们数字化生物学、数字化治疗、数字化诊断等,这些都是一个非常大好的方向。
另一个我很看好,包括现在也在茁壮成长的方向就是太空科技(SpaceTech)。从去年开始,SpaceX 的数次星舰发射预示着,在未来的三到五年内,火箭及卫星发射的成本将大幅度下降。如果有一天将一个人送入宇宙的成本仅需 5 万至 10 万美金,而将一颗卫星发射至太空的费用也低至 1 万至 2 万美金,那么我相信,无论是发射的数量还是频次都将迎来显著提升。而且几个数据不是未来十年的发展可能性,是未来三到五年的可能性,所以它发展速度是很快的。
如果你现在去洛杉矶,就会发现如今的 SpaceX,不仅进行了很多太空领域的技术探索,还催生了一个小生态,大约有几百家太空科技公司围绕着 SpaceX 展开,它们或多或少都与 SpaceX 有着战略层面的合作,有的甚至直接作为 SpaceX 的供应商,大部分的创业者都是 SpaceX 的前员工,因此它形成了一个非常好的创新生态。
Q:像 BioTech 和 SpaceTech 他们的中心还是在硅谷吗?我看 SpaceX 不是说要搬到得州去吗?特斯拉的总部也是在得州。
张璐:美国创新核心在硅谷,波士顿、纽约、奥斯汀,洛杉矶也在崛起——洛杉矶形成了 SpaceTech 聚集地。
Q:你觉得接下来比较期待的投资上的一些变化是什么?可能需要去提前应对的风险是什么?
张璐:2025 年充满变数,期待更好保护创新生态,防止技术和资源被大企业垄断。
题图来源:AI 生成。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
