联系奥力斯

江苏万能胶厂 LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!

发布日期:2026-05-19 03:32 点击次数:119
泡沫板专用胶厂家

Lecun这次是真跟Hinton爆了……江苏万能胶厂

Hinton之前从来没特别关注过LLM。结果2023年GPT-4出来,他突然跟顿悟了样:

"天哪,这些模型已经非常接近人类智能了,它们可能有主观体验……"

对于这种转变,Lecun表示——

不认同,难以理解。

我感觉他就是想摆烂:"好了,这就是我们需要的,我可以宣布胜利了。"

"嗯嗯,我可以退休了。然后到处去做关于AI危险的演讲。"

紧接着,话锋转,又把矛头指向了另位图灵得主。

其实很多事情我早在几年前就说过,Hinton近才意识到。

Bengio的情况类似。

这也是为什么Lecun在被主持人问到为何如此「另类」时,回答:

从来没有什么我和Hinton和Bengio分道扬镳,是他们变了。

既然要可汗大点兵,当然避不了聊到老东。

到了2024年初、尤其是2025年,FAIR已经不符我认为保持创新、研究和突破所需要的条件了。

很多优秀的人都走了。

至于原因,Lecun说其实扎克伯格很好,层也都很支持他。只不过,Meta也卷入LLM竞赛后,实在没办法只顾着埋头做研究了。

对此,Lecun表示很遗憾。

因为在他看来,要获得突破研究「其实很简单」。

就雇好的人,这些人有嗅觉,知道该做什么。你给他们成功所需的资源,然后……

滚开,别挡路。

但主持人还是不太满意,路刨根问底:为什么?为什么?为什么??

怀疑对象——亚历山大。

主持人:

Scale AI的收购是不是这个纯LLM聚焦的催化剂之?

LeCun的回答也很实在了,真是问啥说啥。

肯定是的。但我不确定我是否有足够的内部信息来评论。

扎克伯格可能在亚历山大身上看到了某种接班人的影子,个年轻版本的自己。

除了这些,当然也保留了经典节目。

Lecun用带着点调侃的语气,再次向LLM阵营发起了挑衅。

JEPA类世界模型,五年内统AI圈。(笑)

这是Lecun的新期播客访,他跟主持人聊了快个半小时,关于世界模型、JEPA、为什么离开Meta、为什么LLM走不到AGI……

好久没有这么逐字逐句地听访谈了,真有点力竭。

全程不敢跳过,全程尿点,Lecun全程都在狂输出暴论:

Anthropic在试图用恐惧来动AI监管,我不认同这种做法。

LLM永远不可能可靠,不是所有事情都是Coding。

模仿学习就是不行,连自动驾驶这个任务都搞不定。

世界模型希望解决的,是zero-shot解决新任务

如果你在读PhD,别做LLM。没意义,你做不了贡献。

还有少数地是真的在做研究,比如DeepMind。但整个行业越来越封闭了。

以下附上访谈全文。

为保证可读,量子位在不改变原意的基础上,对内容做了部分调整。

Enjoy。

为什么LLM不是通往智能的路

主持人:你当年押注经网络,所有人都在质疑你,结果证明你是对的。

现在你又在做个类似的事情,押注against LLM和主流的生成式架构。

你近还围绕这个向创办了新公司AMI。AMI在做什么?

LeCun:先我要说清楚,LLM没有什么问题。

LLM是很多非常有用的AI产品的基础,我自己也在用,它们很好,做它们该做的事情。

但LLM不是通往人类水平智能的路径,甚至不是通往动物水平智能的路径。

主持人:你自己还帮着做了早批主要的开源LLM。

LeCun:没错。所以AMI是什么?AMI代表Advanced Machine Intelligence,我们的定位是AI for the real world。

今天大熟知的AI技术,擅长的是语言操作。

语言是很特殊的种东西,它特别适目前这些成功的架构。

但现实世界呢?是维的、连续的、有噪声的、混乱的。难度不在个量。

这也是我大半个职业生涯在做的事情,过去五六年加速进,近两年取得了实质进展。

到去年年底,很明显Meta已经不是进这个项目的适场所了,所以我离开并创办了AMI。

主持人:这似乎是个行业趋势,越来越多的人从大公司或研究实验室出来,带着自己兴奋的研究向创业。

LeCun:这确实是个很奇怪的trade off。

有两种模式。种是大量探索研究,很多向并行。然后某个东西好像work了,你需要继续进,但它已经不是研究了。

做这些事的人是研究员——至少媒体这么叫他们——但实际上已经变成了工程和产品化。

这种事在Meta发生过好几次。

2023年初,FAIR开发的Llama 1非常有前景,Meta门创建了Gen AI组织来把它变成真正的产品,后来出了Llama 2、Llama 3、Llama 4。

Llama 4有点令人失望,扎克伯格对此不满意,把整个组织重组了,换了新人。

但过去年真正发生的事情是,Meta意识到自己落后了,于是把战略重新聚焦到追赶行业上。

作用就是,大量的探索研究被降低了优先。

我做的JEPA和世界模型的工作倒没有受影响,但公司其他部分聚焦在LLM上了。

这让我很清楚,Meta不再是进这个项目的适地。

我们有了初步成果,需要从研究转向真正的技术开发、规模化和产品化。

同时我们也意识到,大部分应用场景Meta其实不太感兴趣,比如制造业。

世界模型

主持人:你在追求世界模型这个大向。但也有其他人从偏生成式的角度切入世界模型,比如Google的Genie、各种模型,VLA,还有李飞飞做的3D空间模型……你怎么看JEPA模型和这些法的比较?

LeCun:世界模型正在快速变成个buzzword,在研究域已经是了,在工业界也开始了。

VLA我就不多说了。这条路现在普遍被认为走不通了,不够可靠,需要的训练数据太多。

那什么是世界模型?从根本上说,世界模型就是让个智能体能预测自己行为的后果。

我法想象你怎么能构建个agent系统,而这个系统没有预测自己行为后果的能力。如果人类不考虑后果就行动,别人会觉得我们是傻子。

所以世界模型就是这么回事,能够预测你自己行为的后果,你就可以规划系列行动来完成个任务、达成个目标。

通过规划、理、搜索和优化来做这件事,而不是像LLM那样个token接个token地自回归预测。你是在搜索个能完成任务的优行动序列。

LLM没有预测自己行为后果的能力,也没有真正的规划能力,因为理就是预测下个token,不是搜索。

所以,智能行为需要三个特征。

,预测行为后果的能力。

二,通过优化和搜索来规划的能力,找到能产生正确结果的行动序列。

三,就是你怎么预测行为的后果。

比如我面前有个没有盖的水瓶。如果我瓶子底部,它会在桌上滑动。如果我瓶子顶部,它可能会翻倒。

但我们法精确预测瓶子会往哪个向倒。我们不可能在像素别预测这些。

我们大脑中的世界模型,预测的是个抽象层面的表征。

JEPA

主持人:这个架构的设计,很大程度上是受人脑启发的?

LeCun:至少是受认知科学的启发。能不能直接翻译成个具体的经网络架构,这中间有很大的gap。

认知科学确实是个动机。心理学中的系统二就是这个意思,你在做思熟虑的、反思的行为时,会想象、预测自己行为的后果,然后据此规划。跟系统那种本能的、反应的行为不同。

所以有灵感来源,但也有大量的实证证据表明,你不应该去生成像素。

我对通过预测来建立世界模型这件事感兴趣很久了。

大约五年前有个顿悟的时刻,我意识到所有成功学到了好的图像和表征的架构,都是非生成式的。

VAE,变分自编码器,或者广义的自编码器,直觉上似乎是学习输入的抽象表征的自然式。你把图像输入个经网络,训练它在输出端重建输入。

但如果你用个大的经网络直接这么做,什么有趣的事情都不会发生,它只是学到了恒等函数,没意义。

用VAE来学图像表征,能得到些东西,但果真的不好。稀疏自编码器也样。

还有类技术,叫denoising auto encoder,MAE是它的个变体,BERT在NLP里也是类似的思路。你把图像损坏部分,然后训练经网络恢复原始图像。

FAIR曾经有个大项目做这件事,投入了大量计资源,结果非常令人失望。

但同时,些相同的人和巴黎、纽约的其他人,在做另套技术,用的是非生成式架构。

你拿张图像,损坏它,把两个版本分别送入编码器,然后用个预测器,从损坏版本的表征去预测原始版本的表征。

这就是JEPA。个编码器对个观察编码,另个编码器对另个观察编码,然后用个预测器从二个的表征预测个的表征。

当下具身模型的问题

主持人:现在很多机器人公司发布的demo越来越impressive,似乎展示了某种规划和理能力,即使面对没见过的房间或任务版本也能执行。你怎么看?

LeCun:确实有真实的进展,有些demo确实令人印象刻。但这些系统需要海量的数据来训练,要么通过遥操作采集,要么通过人手握着夹持器操作来收集……

主要靠模仿学习训练,加上点在仿真中做的强化学习。

问题在于,模仿学习需要大量数据,而且对每个你想让机器人完成的任务都要单收集数据,成本、也比较脆弱。

而如果系统有个世界模型,能预测动作的结果,它就可以直接规划行动去完成个新任务,不需要门为这个任务训练。

世界模型带来的泛化能力要大得多,用少的训练数据就能覆盖宽的任务谱。

任务之间确实有协同应,你训练系统完成的任务越多,它学新任务需要的数据就越少。

但世界模型的希望是,能zero-shot解决新任务。目标是用很少甚至训练数据就能解决大量问题,也许加点RL风格的微调就够了。

人类有这个能力,很多动物也有。

个17岁的孩子学开车只需要十几二十个小时。我们有几百万小时的驾驶数据,到现在还没有L5的自动驾驶。

模仿学习连自动驾驶这个任务都搞不定。

主持人:有种思路是用模型生成大量成数据来做仿真,即使物理上不,也能机器人在真实世界的表现。你怎么看?

LeCun:还是那个问题,为什么17岁的孩子20个小时就能学会开车?

你不需要几百万小时的示范数据,也不需要成数据。

如果我们破解了这个问题,就不需要生成数据了。

可能仍然需要在仿真中训练,但不需要现有系统所需的那种数据量和试错次数。

硅谷的羊群应

主持人:个有意思的点是,如果你是OpenAI,你知道某个东西继续scale就会继续变好,那从商业角度看,你并没有太大的动力去做数据率的事情。

LeCun:其他公司也没有动力做不样的事,谁都承受不起落后于对手的代价。这是种硅谷的羊群应江苏万能胶厂,所有人都在挖同条战壕。

这也是为什么我把AMI的总部设在了巴黎,美国办公室在纽约,不在硅谷。

主持人:你兴奋的AMI技术的应用向是什么?

LeCun:AI for the real world。用机器人、L5自动驾驶。

主持人:我什么时候能有个用机器人?

LeCun:这还要好几年。尽管有大量公司在造机器人,但没有真正知道怎么让它们足够聪明。

主持人:也不能信任它们在有婴儿的里工作。

LeCun:那肯定不行。即使是相对窄的制造业任务,靠模仿学习也只能处理少数几个任务,没有人真正知道怎么让它们可靠地工作。

短期来看,工业域有海量的应用场景。

你需要个智能系统能预测如果我改变这个复杂系统上的某个控制变量会发生什么。喷气发动机、化工厂、发电厂、生产线、人体、人体细胞……

这些系统复杂到法用少数程来建模,传统的建模式行不通。

你需要做的是用度学习从数据中训练出个模型来捕捉这个系统的动态行为。得到的就是个现象学模型。

如果它是action-conditioned的,那你就得到了个这个系统的世界模型,可以用来做优控制。

这类应用的数量是惊人的。

主持人:你觉得JEPA模型在接下来几年会发展到什么程度?

LeCun:五年吧。

五年内,统世界。

主持人:好的,五年统世界。(笑)

LeCun:开玩笑的。

这话是引用Linus Torvalds。当年有人问他Linux的目标是什么,他说total world domination。他确实做到了。

但我确实认为JEPA类世界模型就是未来智能系统的蓝图。

LLM还会有小块位置,作为语言接口。

但我们在设计的是能思考的系统。它们开始可能不会说话或听,但它们会思考,然后你可以在上面再加说话和听的能力。

主持人:你之前就有过这样的经历,在经网络上做了个其逆共识的押注,终被历史证明正确。

你觉得这次,在什么时间内,大会意识到你又对了?

LeCun:我觉得会比预期来得快。

很多人意识到VLA不行,LLM处理不了真实世界的数据。范式转换的认知正在发生。到2027年初,这会变得对所有人都显而易见。

Tapestry

主持人:换个话题,聊聊你在做的Tapestry。

LeCun:这个跟AMI Labs有点正交。

主持人:好像光AMI还不够你忙的。

LeCun:这是我过去三年左右慢慢形成的个想法。

人们越来越多地使用AI助手来做各种事情,传统搜索引擎的使用量在下降,大都直接问自己的AI助手。

如果Meta和其他公司开发的智能设备计划实现了,比如智能眼镜之类的,你基本上就是通过语音跟你的AI助手对话。你所有的信息获取都将由AI助手来中介。

那么问题来了。

如果你是中美以外国的人,你用的AI助手是硅谷或者北京公司做的。其实不太好。

你说的语言,根本没有被认真对待。

你的文化,这些做AI的公司不理解。

你的价值观,在互联网上公开可用的训练数据里几乎没有体现。

怎么解决这个问题?

你需要个平台,基于个开放的、费的基础模型,Llama那种风格的,任何人都可以微调,去适配特定语言、特定文化。

这就是Tapestry的核心。全球的贡献者参与训练个全球模型,这个模型本质上是全世界知识和文化的存储库。

贡献者贡献的是数据和力,同时保留对数据的控制权。他们不需要把数据分享给其他贡献者。他们贡献的是参数向量。

这是种联邦学习的思路。

堆数据中心,每个拿到个全局共识模型的参数向量,可以把它理解为所有贡献者参数向量的平均。所有贡献者定期通过个中心服务器交换参数向量。

本地worker在新自己的参数时,同时尽量让它接近全局共识向量。随着训练进,所有参数都收敛到个共识模型,它就相当于在所有数据上训练出来的果。

现在你有了个开放模型,果跟在全世界数据上训练过样好。然后你可以针对自己的目的去微调。

我认为有种自然的力量会动这件事发生。

AI正在快速变成个平台,平台有自然走向开放的趋势。

Linux就是这样,互联网的软件基础设施也是这样,线网络也是这样。开始都是私有的,后来全被开源替代了。

OpenAI就是下个Sun Microsystems

主持人:这确实是个很聪明的式来对抗开源萎缩的趋势。很多人担心闭源模型越来越强,会被用来训练下代,形成种闭源的逃逸应。

LeCun:还记得1996年互联网基础设施的大玩是谁吗?

Sun Microsystems、HP、Dell。Sun给你搭配Solaris和他们的私有硬件,HP搭配HP-UX。

Unix比Windows可靠多了,你不会在Windows上跑web server。

但现在谁还在用Windows NT跑web server?全部被Linux干掉了。整个互联网跑在Linux上,连Azure都是,微软自己都是Linux。

所以今天的OpenAI、Anthropic,就是昨天的Sun Microsystems和HP-UX。

主持人:这背后隐含的是你对这些模型能力上限的判断,开源迟早能追上来。

LeCun:它们已经用完数据了。

公开可用的、有价值的文本数据已经全部用完了,没有多了。这些公司在做的就是购买商业版权数据的授权,或者用成数据训练。

主持人:但过去几年确实有些impressive的结果,是在大规模预训练之后取得的。IMO金、各种benchmark持续提升。

LeCun:这个很有意思。

想想这两个域,数学和代码。这两个域的共同点是什么?

语言本身就是理的载体。不是唯的载体,但当你在纸上做形式化的数学演时,你操作的就是语言,泡沫板橡塑板专用胶LLM在这上面确实很强。证明定理之类的,LLM很擅长。

但LLM不太擅长提出好的概念、好的定义。创造的行为,LLM做不到。数学不只是解题,大部分其实是创造行为。

代码也样。

LLM是好的程序员,但不是软件架构师,不是计机科学。它们能帮我们写代码,但还替代不了人类。

它改变的是人类的角。

人类现在往抽象层上走层,我们的工作是决定造什么,而造的过程可以让LLM帮忙。

主持人:LLM需要做到什么才能说服你改变看法?

LeCun:zero-shot的agenting。

给它个全新的问题,它没有被训练过解决这个问题,没有针对它的脚本。它能不能完成这个从未训练过的任务?

除非这个系统有预测行为后果的能力,并且能用这个能力来做规划。

也许个被大幅增强的LLM可以,加上了搜索和规划能力的那种。

目前做数学的LLM其实已经在做这件事了,它们搜索能完成特定任务的token序列,可以跑代码或验证证明是否正确,所以有种式来检查输出是否正确。

但这不是种的规划式,而且只在token空间里能做搜索的域有。

我说的JEPA,不是在token空间做这件事,是在抽象思维空间做。

主持人:可能有些听众会想,就率低,在token空间能work的事情已经覆盖了经济中很大部分了。

LeCun:对。

LLM擅长什么就用它做什么,这没问题。

我只是说,它不是通往AGI的路。而通用AGI能覆盖的域会相当巨大。

主持人:听起来你觉得LLM在成为软件架构师之前就会到达天花板。

LeCun:它不会到天花板。但它在越来越多的应用场景中部署起来会变得越来越困难,因为每个场景都要收集大量训练数据。

而且你没法让这些系统可靠,没有幻觉,没有危险行为。

为什么与Hinton和Bengio分道扬镳

主持人:你和另外两位图灵得主共享这份荣誉。但他们似乎对LLM的潜力,或者说潜在威胁和安全风险,看法不同。你们是什么时候开始分歧的?

LeCun:2023年。

主持人:什么驱动了这个分歧?

LeCun:不是我改了主意,是他们改了主意。

Hinton之前根本不这样,他从来没有特别关注过LLM。

结果2023年GPT-4出来的时候,他突然顿悟了:

天哪,这些系统已经非常接近人类水平的智能了,它们可能有主观体验。

我知道他的想法大概是这样的——

人类皮层大约有160亿个经元。

如果你想做某种类似反向传播的事情,大脑不是直接做反向传播的,但如果它做某种梯度估计来优化某种目标函数,你大概需要个几个经元组成的电路来复现个虚拟经元的。

所以假设你需要10个真实经元来复现个反向传播经元的,那你的皮层就只相当于16亿个经元。

然后他理得出:

天哪,GPT-4已经很接近这个数了!也许它会变得跟人样聪明。

我不认同这个说法。

我感觉他就是想摆烂了,然后到处去做关于AI的希望和危险的演讲。

好了,我可以退休了,我可以宣布胜利了。

我辈子都在寻找皮层的学习法,也许我没有发现它到底是什么,但反向传播似乎是个不错的替代品,它work得很好。

嗯嗯,这就是我们需要的,我可以退休了。

(笑)

……

不过他现在关于AI危险的声音比两年前小多了。

我觉得他意识到了几件事。

,现在的LLM没那么聪明。

二,在达到人类水平的智能之前,还需要些概念的突破。

三,这些系统的蓝图会跟LLM很不样,而且我们很可能有办法让它们可控。

我早在几年前就说过这些事,Hinton近才意识到。

Bengio的情况类似。

我觉得他们两个真正担心的,是社会体系能不能确保AI的好处被大化,确保AI不会只是加剧不平等。

这不是那种AI统世界的末日场景,多是坏的使用者的问题。

LLM本质上是不安全的

主持人:但这个风险光靠今天的LLM就已经存在了。

LeCun:确实。但我不认为它像些人声称的那么末日。肯定不像Anthropic声称的那么末日。

Anthropic在试图用恐惧来动AI监管。我不认同这种做法。

主持人:他们看起来是真的相信。

LeCun:我觉得他们确实真的相信。但我也觉得,他们有些很好的商业理由去相信这些。

主持人:说到这些新架构,你对LLM不是终局这件事很确定,但你自己对新架构的时间线也相当激进。你怎么看这些新架构如果真的带来突破,安全面的问题?

LeCun:我要说个可能有争议的话。我在Meta的同事肯定不会喜欢我说这个。

LLM不能被做到可靠,因为你没法阻止它们产生幻觉。

主持人:按你这么说,它们能完成那些15个小时的编程测试不让你意外吗?

LeCun:代码是个你能验证的域。你生成的代码是否满足specification,这是可以检查的。

但不是所有事情都是代码。已经有编程agent把你的硬盘给清了的例子,或者做了蠢事让你损失了大量数据或金钱。

你给个prompt,它完成对应的任务,但仅限于训练让它学会了对这个prompt做正确的事。没有任何硬约束强制它完成这个任务,也没有机制让它预测任务是否被正确完成。

而且它们没有常识。个月前流传的那个洗车笑话,我两周前又试了遍,所有模型都说你应该走路去。除了Gemini。

主持人:那Gemini大概是训练的时候用了你之前讲这个例子的。

LeCun:不是我的。不是我发明的这个例子。但确实有这种情况,我说LLM做不到某件事,六个月后它就能做了。

原因很简单,我在播客上说了LLM做不到这件事以后,所有人当然会去ChatGPT上这个问题。于是它就变成了训练集的部分。下个版本当然就能回答了。

但这不是因为它突然变聪明了,只是因为它被这个问题训练过了。

我不认为在当前范式下有办法修复这个问题。

我提出的架构是objective-driven AI。你给个AI系统个目标,就是完成这个任务。

系统怎么知道它会完成这个任务?

它有个世界模型,它预测系列想象中的行动的结果。

如果这个结果满足个cost function,描述任务完成到什么程度。那么这个系统通过优化来工作,找到个能完成任务、小化cost的行动序列。

当然还有很多可能出错的地。

cost function可能不准确,你以为它在衡量任务完成度,但也许不准。

世界模型可能不准确,系统对行动后果的预测可能是错的。

这个系统仍然会犯错,但它至少能在某种程度上预测行为的后果,我认为这对任何agentic系统都是不可或缺的。

你还可以在这个系统上不只加个保证任务完成的cost function,还可以加堆其他的目标函数、cost function,甚至是约束条件。

你可以在抽象层面指定这些,也可以有底层的目标函数,组起来保证系统不会危险。系统从构造上就不能违反这些条件。

LLM做不到这点。

LLM总是能逃逸。训练误差和测试误差之间总有gap,总会存在某个prompt让系统做出非常愚蠢的事情。

主持人:能不能聊个具体域。现在也有很多人在医疗域用LLM。LLM在医疗里做不到什么,需要个真正理解世界的模型?

LeCun:比如为慢病患者设计疗案,甚至非慢病也样,特别是当这个患者的情况不符你之前见过的模板时,如果你有个好的关于患者生理动态的心智模型,你可能能设计出个真正能把患者带到好状态的疗案。

患者也可以是个细胞。

怎么让个干细胞变成能产生胰岛素的胰腺beta细胞?

个1型糖尿病患者,疫系统攻击了自己的beta细胞。怎么持续制造beta细胞?

你有没有个人类细胞的模型,能让你搞清楚需要给干细胞发什么序列的信号,让它变成beta细胞?

LLM能做的是复述你能在书上读到的知识。

但你不能只靠读书当医生。你得做住院医培训,得会听心脏,按肚子,才能做诊断。

奥力斯    PVC管道管件粘结胶价格     联系人:王经理    手机:18231788377(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区/p>

为什么离开Meta?

主持人:你在Meta待了十多年,建了个世界上受尊敬的研究实验室。近离开了。回顾那段时间,你觉得做对了什么,做错了什么?

LeCun:做对的事情是,建了个顶研究实验室,真正做出了创新,产出了大量基础法、科学成果和工具,比如PyTorch。

还有种开放的、尊重科学过程的文化,我认为这对突破创新是要的。

创新有整条链条。前端是蓝天研究,全新的概念,大部分发生在大学里,少部分发生在工业界的研究实验室里,这样的实验室只手数得过来。

Google有个好的,FAIR曾经是个好的。希望它还会继续是。

然后下步是,这是个好想法,让我们进看看它能不能变得有用。

但仍然是研究层面的意思,我们不会自欺欺人只找个对这个问题work的案,我们要看这个技术能不能被进到practical,不定是产品别的,但至少能证明它在某个任务或benchmark上破了记录。

再下步是公司说,好了,我们要投入大量工程力量把这个向前。

这步是大量项目失败的地,也是很多公司掉链子的地。

Meta在这面其实还不错,但远非。

部分是组织问题。

你需要个离研究很近、但又不是产品组织的团队来接力。不是那种三个月deadline出产品的组织,而是能继续往前技术的。

我们曾经有过这样的组织,后来丢了。FAIR在公司里变得孤立,有很多想法没人接。

2023年Gen AI组织成立,从FAIR抽了60到70个科学和工程师,后来规模扩大了。

但它面临太大的短期压力,没时间跟FAIR交流。结果本来应该在LLM上保持前沿和创新的Gen AI,只能聚焦短期目标,变得非常保守。研究和产品之间出现了gap。

主持人:Llama 4就是这样的情况吗?

LeCun:甚至从Llama 3开始就是了。Llama 1是2022年到2023年初FAIR内部的个小项目。

然后Gen AI组织成立,Llama的人被调了过去,开始做Llama 2。

接着批人意识到,我可以出去创业。

这就是Mistral的起源,Llama 1的两位作者和个来自Google的人起创办了Mistral。

那段时间,不少人离开了Meta。

接手了Llama后续工作的Gen AI组织面临巨大的短期压力,变得非常保守。

有来自层的压力,也有团队自身的问题。事情出问题的式有很多种,你没法归咎于某个人。

主持人:现在很多组织都面临这种短期压力。你觉得像当年FAIR那样的纯研究环境,在今天的行业里还有可能存在吗?还是说唯的出路就是离开、自己开公司?

LeCun:我觉得Google Research和DeepMind内部还有少数地是真的在做研究。但整个行业越来越封闭了。

Google在收紧,Meta和FAIR也在往同个向走。现在对发表论文有了多限制,如果你做的东西中期来看跟公司业务相关,他们会告诉你不要公开讨论。

这种氛围对突破研究是不利的。

很遗憾,因为要获得突破研究其实很简单。就雇好的人,这些人有嗅觉,知道该做什么项目。

你给他们成功所需的资源,然后……

回望FAIR

主持人:这对广泛的研究社区意味着什么?FAIR的遗产之是培养了大量研究者,他们现在遍布整个生态系统。但现在进入这个域的年轻人,可能上来就被扔进短期向的环境。

LeCun:愿意跟我起工作的人,通常有两个特点。

是足够。

二是认同个理念,就是在学术界读PhD期间,你应该做下代AI系统,不应该做当前这代。

如果你现在在学术界做LLM,说实话非常聊。基本上就是研究LLM为什么work、怎么work、局限是什么。这是描述科学,没什么创造。没意思。

而且如果你真想用LLM做新东西,你在学校根本拿不到需要的GPU。

所以了。

如果你在读PhD,别做LLM。没有意义,你做不了贡献。

主持人:你怎么知道是时候离开Meta了?

LeCun:是多种因素的组。

很多人对我在Facebook和Meta的角有错误的认知。我2013年底加入,真正开始是2014年初。头四年半我是FAIR的director,我建立了FAIR的组织架构,确立了文化,雇了核心的人,管理整个团队。

四年半后我从这个角退下来了,变成了Chief AI Scientist。

面,快六十了,我就是不想做管理了。我愿意做阵子来把组织建起来,但我不擅长这个。

我像是个科学或技术上的visionary,个engineering scientist。

成为Chief AI Scientist之后,我向CTO汇报。开始进个我认为要的研究项目,因为FAIR的野心直是构建智能系统。我管FAIR的时候把自己的研究搁置了,没时间做。

当时我已经形成了个概念,这个架构会基于自监督学习,基于从感知信号比如中做预测。这些就是世界模型的想法。

2016年我在NeurIPS做了个keynote,说AI研究应该走这个向,世界模型,预测行为的后果,然后规划。

我说RL不会带我们到那里,因为太低了。监督学习已经显示了它的局限。未来是自监督学习和世界模型。

那怎么做自监督学习和世界模型?

我启动了几个项目,有些向没走通。做了些预测的工作,然后形成了这个概念:

你可以在上做自监督训练,但须让系统在表征空间做预测,而不是在像素空间。

这就是JEPA的核心想法。

这个想法大概在2020年成形。2022年我写了篇很长的vision paper,把我的整个愿景都写出来了。把所有秘密都摊开,我不在乎。我希望这能把批人拉到这个向上来。

确实work了。

不仅吸引来了批学生,在NYU和巴黎的,因为他们想做这个向。

FAIR内部也有整个团队说,这就是我们想做的。然后Joelle Pineau说,这应该成为FAIR的个重大使命,我们管它叫Advanced Machine Intelligence。

主持人:然后他们让你带着这个名字出去创业了。

LeCun:对。扎克伯格读了那篇论文,知道它在说什么,认同这个项目。CTO Andrew Bosworth也是,前CTO也是,CPO也是。层对这个项目有很多支持。

但后来公司把所有精力重新聚焦到LLM上了。

尽管有层的支持,下面的层不太买账。

而且JEPA世界模型的应用,虽然在可穿戴智能体和机器人面有场景,但Meta机器人研究组被掉了。

所以这个环境不对了。

JEPA的大部分应用场景在Meta不感兴趣的工业域。FAIR越来越被要求去帮LLM的忙。

主持人:Scale AI的收购是不是这个纯LLM聚焦的催化剂之?

LeCun:肯定是的。可能还有其他原因。我不确定我有足够的内部信息来评论,但有可能扎克伯格在亚历山大身上看到了某种接班人的影子,个年轻版本的自己。

主持人:很多媒体叙事是说亚历山大来了以后,纯研究组织就难运转了。

LeCun:这里有个很大的误解,关于我的角、我跟亚历山大的关系,以及AI在Meta是怎么运作的。

我对Llama的技术贡献是,没有。我对Llama的唯贡献是力主开源Llama 2。

当时内部有很大的争论。这是个非常层的讨论,每周两小时,从扎克伯格往下大概40个人,持续了好几个月。

我和Boz都非常明确地主张,安全风险被夸大了,创造个产业的机会非常大,开源Llama 2会启动整个AI产业。事实证明确实如此。

但Llama本身,我的技术贡献是。我既没有动它,也没有阻碍或拖慢它。

FAIR内部有很多人在做LLM,这很好。我从来没有反对过,只是说这不是通往人类水平智能的路。但它有用,跟语音识别或翻译样有用。

特别是2018年我从FAIR director退下来以后,我对别人在做什么没有直接影响。我只是发表我的愿景,然后把人拉到我的项目上来。

他们跟我作是因为他们愿意,不是因为我是他们的老板。

到了2024年初、尤其是2025年,FAIR的走向和管理式已经不符我认为保持创新、研究和突破所需要的条件了。

播客链接:

https://unsupervised-learning.simplecast.com/episodes/ep-86-yann-lecun-on-leaving-meta-breaking-the-llm-paradigm-why-hinton-is-wrong-rZ6fpa_8

参考链接:

[1]https://x.com/jacobeffron/status/2055279354821607551

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

AIGC产业峰会全阵容发布!🔍查看议程

从底层架构到爆款应用,从软件到硬件,从创作到投资... 这次,我们希望聚齐AI赛道的实战派,聊透AI到底怎么落地、怎么赚钱、怎么改变工作。

5月20日,北京·金茂万丽酒店,@所有人,马上AI起来!👉 

键关注 👇 点亮星标

科技前沿进展每日见

相关词条:储罐保温     异型材设备     钢绞线厂家    玻璃丝棉厂家    万能胶厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

推荐资讯

热点资讯

Powered by 任丘市奥力斯涂料厂 RSS地图 HTML地图

Copyright © 2025-2054