LeCun 最新访谈对 DeepSeek 一顿猛夸,还谈了 AI 发展需理解物理世界
LeCun在最新的访谈中对DeepSeek给予了高度评价。
他指出,DeepSeek是一项卓越的成就,其开源不仅使创造者受益,全球也将从中获益。
然而,LeCun也强调,金融市场对DeepSeek问世的反应,比如“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这样的说法是错误的。
最终,绝大部分基础设施建设和投资实际上是用在模型的运行上,而非训练。
同时,他还谈到了对OpenAI“星际之门”项目的看法。OpenAI之前宣布与软银和甲骨文共同成立合资公司,将在未来四年内投资5000亿美元,但LeCun表示不认为这会改变一切。
他认为,这个项目的投资规模和微软、Meta的投资差不多,并没有实质性区别。
此外,LeCun着重指出,现在的AI系统在许多方面依旧非常“愚蠢”,单靠大语言模型是无法满足其发展需求的,AI的发展需要理解复杂的物理世界。
LeCun的一些大胆言论让网友们惊讶不已:
他说当前的AI是“愚蠢”的,且将自己的“情感”概念强加于他正在构建的东西上,这点有些疯狂。
当然,也有研究者对LeCun的观点表示支持。
量子位在不改变原意的基础上,对部分问题进行了解释与整理。
最新访谈问题整理
谈AI是否会有类似人类的情绪
Q:我们努力推动AI达到与人类能力相匹配的水平。目前我们是否能让AI展现出类似人类的愤怒等情绪?您认为这可能实现吗?
LeCun:不,我不这么认为。
AI系统在许多方面仍然非常“愚蠢”,我们之所以觉得它们聪明,是因为它们能很有效地处理语言,但实则并不具备真正的智慧。
它们不理解物理世界,没有像人类一样的持久记忆,无法真正进行推理和计划,而这些都是智能行为的重要特征。
所以,我和我在FAIR以及纽约大学的同事们一直在努力设计一种新型的AI系统,仍然基于深度学习。
这种系统能够理解物理世界,具有实体记忆,并能够进行推理和规划。根据我的看法,一旦我们成功构建出这样的系统,它们就会拥有情感,或许会感到恐惧、兴奋或失落,这都是对结果的预期。
这些系统会根据我们设定的目标来运行,并尝试弄清楚自己可以选择何种行动来实现目标。如果它们能预测到目标将实现,某种程度上会感到“开心”;若预测到无法实现目标,则会“失落”。
因此在一定程度上它们会具备情感,因为它们能够预测自己采取的一系列行动结果。
但我们不会在程序中人为设定类似愤怒、嫉妒的情感。
然而,意识是另一回事,我们并不清楚它究竟是什么,目前并没有真实意义上的定义,无法评估某物是否具有意识。
就像我们观察动物时,我们大致认同猿类具有意识,或许大象以及类似的动物也有意识,但狗和老鼠呢?意识的界限在哪里?
由于我们对意识没有准确的定义,实际上无法判断。
谈机器学习三种模式
Q:你曾表示机器学习很差,现在情况有所改善吗?
LeCun:这正是我们在努力的方向,我们在寻求构建新型机器学习系统的方法,使其能够像人类和动物一样高效学习,而现状并非如此。
我可以谈谈过去几十年机器学习的发展,实际上机器学习主要有三种早期模式。
一种是监督学习,这是最经典的方式。
训练监督学习系统的方式是,如对于一个用于图像识别的系统,你给它展示一张图片,比如一张桌子的图片,然后告诉它“这是一张桌子”,这样就是监督学习,你告诉了它正确答案是什么,系统计算机的输出应该是怎样的。
如果输出不是“桌子”,则系统会调整自身参数,也就是内部结构,以使得输出更接近你想要的结果。
通过不断使用大量桌子、椅子、汽车、猫、狗等示例来训练,最终系统将能找到一种方法,识别出所有训练样本的图像,对那些未见过但相似的图像也能进行识别,这就是泛化能力。
另一种模式被认为更接近于动物和人类的学习方式,称为强化学习。
在强化学习中,你不告诉系统正确答案是什么,而是只告知它答案的好坏。在某种程度上,这可以解释人类和动物的一些学习形式。例如,尝试骑自行车时,你一开始不知道如何骑,摔倒后你便明白自己做错了,于是稍微改变策略,最终学会骑车。
然而,事实证明,强化学习的效率极低。
如果想训练一个系统来下国际象棋、围棋或玩扑克,它确实效果很好,因为可以让系统自我对弈数百万局游戏,基本上能够对自身进行微调。
但在现实世界中,这种适用性较差。如果想训练一辆自动驾驶汽车,绝不能使用强化学习的方法,否则将造成频繁的撞车。如果训练一个机器人抓取物体,强化学习可以部分解决问题,但仅靠强化学习是远远不够的。
另外还有第三种学习形式,被称为自监督学习。
自监督学习推动了近期自然语言理解和聊天机器人的进展。在自监督学习中,你不是为了特定任务训练系统,而是训练它捕捉输入的结构。
比如,在文本和语言应用中,可以采取对一段文本进行破坏,例如删除某些单词,并训练系统预测缺失的单词。
也可以选择一段文本,其最后一个单词不可见,训练系统预测最后一个单词。这就是训练大语言模型和所有聊天机器人所采用的方法。
虽然从技术层面可能有所不同,但基本原理是一样的。这就是自监督学习。你并不是为了某个任务训练系统,而是训练它学习输入内容内部的依赖关系。
自监督学习的成功令人惊叹,其效果异常良好,最终你得到的系统似乎真的理解了语言,如果通过监督学习或强化学习微调使其能正确回答问题,这些系统就能理解问题。
这正是目前行业内的研究方向,但如果想让系统理解物理世界,这种模型就不适用了。
谈AI系统所缺少的关键要素
LeCun:物理世界比语言复杂得多,我们常认为语言是智能的重要表现,因为仅人类能使用语言。但实际上,语言是相对简单的。
语言之所以简单,是因为它是离散的,由离散符号组成的序列。
字典中可能的单词数量有限,因此,尽管你绝对无法训练一个系统精准预测下一个出现的单词,但可以训练它估算字典中每个单词在那个位置出现的概率,从而处理预测的不确定性。
然而,你无法训练系统预测视频中发生的事情。
有人尝试过,我自己也为此努力了20年,如果你能训练一个系统预测视频中将发生的事情,那么它自然而然会理解世界的底层结构,比如直观的物理学知识,以及任何动物和人类在婴幼儿时期学到的关于物理方面的知识。
你知道的,若我拿起一个物体然后松手,它会掉落,重力作用下物体向地面下落,人类婴儿大约在9个月大时就能学会这一点。
这是个棘手的问题,猫或狗几个月内便能理解重力,猫对此非常擅长,能够规划复杂的动作,攀爬和跳跃,并且对我们所说的直观物理学有很好的理解。然而我们依然不知道如何用计算机再现这一点。
问题在于,这称为AI研究者所说的“莫拉维克悖论”。
汉斯·莫拉维克是一位机器人专家,他指出,为什么我们能让计算机下棋、解决数学问题,却无法让它们做一些动物能够执行的物体操作、跳跃等物理动作?
因此,这是一个悖论的另一个例子,即离散物体和符号的处理对于计算机而言相对简单,但现实世界过于复杂,在一种情况下有效的技术在另一种情况下却无能为力。
如果你想直观理解这一点,有个好方法:通过我们的感官,比如视觉或触觉传递给我们的信息量,与通过语言获取的信息量相比,绝对是极其庞大的。
这或许解释了为何我们有大型语言模型、聊天机器人,它们能通过律师资格考试,解决数学问题或写出听上去不错的文章,但我们依然没有家用机器人。我们至今无法创造出能完成猫或狗同样任务的机器人,也没有实现完全自动驾驶的L5汽车,更不谈能像17岁的孩子那样经过约20小时练习就学会驾驶的自动驾驶汽车。
显然,我们还缺少一些关键因素,而我们所缺少的正是如何训练系统去理解视觉等复杂感官输入。
若希望拥有与动物和人类智力相近的机器,具备常识,并在某个阶段或拥有意识和其它能力,能够真实应对复杂世界中的种种情况,就需要攻克这一难题。
一个典型的大语言模型所包含的信息量约为10的14次方字节,即1后跟14个零,这是互联网上所有公开可用文本的总和,任何人阅读这些资料需几十万年,信息量是极其庞大的。
相比之下,幼儿前四年通过视觉系统进入大脑的信息量也大致为这个数量。在头四年里,幼儿醒着的总时长约为16000小时,视神经传递到大脑的信息量大约为2MB/s。这大致也为10的14次方字节。
也就是说,幼儿在头四年间所接触的信息量与最大的大语言模型处理的信息量大致相当。
这告诉我们,单靠对文本进行训练,永远无法实现人类水平的人工智能,必须让系统理解真实世界。而实现这一点在现实世界中却非常困难。
Q:你在LinkedIn和Facebook主页上将AI与熵联系起来,它们之间有什么关联?您能否为我们简单解释一下?
LeCun:这个问题一直让我着迷,它是计算机科学、物理学、信息论及许多不同领域中诸多问题的根源,涉及如何量化信息,即某条消息中包含多少信息。
我多次提出的观点是,消息中的信息量并不是一个绝对值,而是取决于解读该信息的人。从传感器、他人告知的语言信息或其它信息中提取出的信息量,取决于如何解读,这一点至关重要。
认为信息可以以绝对方式衡量可能是错误的。每种对信息的度量都是相对于解读该信息的特定方式而言的。这就是我一直想表达的观点。
这会产生广泛的影响。如果没有一种绝对的方法来衡量信息,很多物理学概念实际上并没有象熵那样客观的定义,熵反映的是我们对物理系统状态未知程度的度量,当然,这取决于你对这个系统的了解。
因此,我一直试图找到一些好的方法来定义熵、复杂性或信息内容。
Q:你是否认为用于训练AI模型的全球数据库已达极限?2000年时数据的25%已数字化,如今已数字化100%的数据。
LeCun:不,仍有大量文本知识尚未数字化。或许在很多发达地区数据已被数字化,但大部分并非公开数据。
例如,大量医疗数据并不对外公开,还有很多文化数据、世界各地的历史数据无法数字化,即使有也往往只能以扫描文档的形式存在,因此并未真正利用。
所以我认为这种看法是错误的,我觉得仍有大量数据尚未得到合理利用。
谈o1式推理模型
Q:关于像o1这样的自由推理、抽象思维模型,我们能期待看到您实验室的类似成果吗?
LeCun:从观察中精心构建抽象表征的问题是深度学习的核心。深度学习的关键在于学习表征。
实际上,深度学习领域有一个主要会议叫国际学习表征会议(ICLR),我是这个会议的共同创始人之一。这表明学习抽象表征问题对于AI整体尤其是深度学习至关重要。
如今,如果希望一个系统进行推理,它需具备一套其他特性。AI领域的推理或规划概念由来已久,自20世纪50年代起就开始研究,经典模式是要找到一种搜索解决方案的方法。
例如,如果我给你一个城市列表,让你找出经过所有城市的最短路径。你会认为应从相邻城市开始,旨在尽可能缩短总行程。
现在,存在一个由所有可能路径构成的空间,也就是所有城市排列顺序的集合。这个空间非常庞大,像GPS等算法在搜索路径时,就是在所有可能路径中寻找最短的那一条。所有推理系统都基于这种搜索理念。
即在由可能解决方案构成的空间里,寻找符合预期目标的方案。
目前的系统,比如现有的大语言模型,它们进行这种搜索方式相对原始,是在所谓的token空间中进行搜索,基本上,系统随机生成大量不同token序列,然后用别的神经元查看这些假设的序列,以找出最优解并输出。
这种方法极其耗费资源,因为需要生成大量输出结果再挑选好的结果。而且这也不是我们人类思考的方式。我们不会通过生成大量行为再观察结果,最终判断哪个是最好的方式来思考。
例如,如果你想象在前方空中漂浮着一个立方体,现在拿起那个立方体,围绕垂直轴旋转90度,这样你就得到了一个旋转了90度的立方体。想象这个立方体,告诉我它看起来是否和旋转前的原始立方体一样。答案是肯定的。
因为你明白,对于立方体来说,如果将其旋转90度,并从同一视角看去,它依然看起来相同。
Q:这算是自由推理的假象吗?
LeCun:你所做的是在思维状态中推理,而不是在输出行为状态或行为空间中推理。
或者说,无论输出状态为何,你是在抽象空间中进行推理。
因此我们拥有关于世界的心理模型,这些模型使我们能够预测世界上将会发生什么,操控现实,预见行为结果。如果我们能预见行为结果,例如旋转一个立方体等,我们便能规划一系列行动以达成某一目标。
因此,当我们有意识地去完成任务时,全部思考会聚焦于此,思考如何采取一系列行动顺利完成任务。
基本上,我们每天用心去做的每项任务都需进行规划。而且大多数情况下,我们是分层次进行规划。
例如,我们不会一下子跳到最终步骤。如果你决定从纽约回到华沙,你知道得先去机场,再搭乘飞机。这个目标是分层的,去机场成了一个子目标。这就是分层规划的意义。
最终你会设定一个具体而无需再进一步规划的目标,比如“从椅子上站起来”,这个动作已经很习惯,无需规划,能直接做到,且拥有完成动作所需的全部信息。
因此,我们需要进行分层规划,智能系统也需进行分层规划,这一理念至关重要。当前,我们还不知道如何让机器做到这点。这是未来几年的重要挑战。
谈DeepSeek和OpenAI星际之门
Q:如今,全球都在讨论新模型DeepSeek,它比OpenAI的一些模型便宜得多,你难道不觉得木已成舟,大势已定了吗?你对此有何看法?
LeCun:有件事必须要很清楚地解释。如果某项研究成果被公开,并且相关技术或论文、白皮书、报告等也随之发布,代码是开源的,那么全世界都能从中获益。
这个意思是,不光创造者受益,创造者或团队会获得声誉与认可,但全世界也能从中受益,这就是开放开源的魅力。
就我个人而言以及Meta公司整体而言,都一直坚定支持开放研究和开源理念。每当有一个践行开放研究的机构取得成果,整个开源社区也会从中受益。
有人把这视为竞争,但其实不是,这更像是合作。
问题在于,我们是否希望这种合作是全球性的,我的答案是肯定的,因为全世界各地都能涌现出好创意。没有哪个机构能垄断好的创意,这就是为何开放合作能让这个领域更快发展。
现在行业内有些人曾积极践行开放研究并取得了成功,OpenAI便是这样的例子。
相反,Anthropic始终不对外开放,它们将所有内容保密。
谷歌则是从部分开放逐渐转向几乎不开放,例如他们不会公开PaLM背后的所有技术,他们虽在做一些开放研究,但更多是基础性、长远的研究。
我认为这很遗憾,因为许多人基本上将自己排除在环球研究社群之外,未能参与并为行业进步作出贡献。
AI领域过去十年的快速发展正是因为开放研究。这不仅是我的看法,而是事实。
我举个例子,几乎可以说整个AI行业在研发阶段构建系统时都使用名为PyTorch的开源软件。它最初由我在Meta FAIR实验室的同事开发,后来有更多人加入。
几年前,PyTorch的所有权转移到了Linux基金会,Meta是主要贡献者,但不再控制它。它实际上是由一个开发者社区管理的,整个平台都在使用它,包括OpenAI和许多其他公司。
谷歌有自己的软件,微软、英伟达等公司也都在使用PyTorch,整个学术界及全球的研究也都在使用PyTorch。
我认为,在科学文献中,约70%的论文提到了PyTorch。这说明AI领域的进步建立在相互研究成果之上。这是科技进步的合理方式。
Q:如果没有DeepSeek,那或许OpenAI的“星际之门”项目会有所不同吗?
LeCun:不,不。
我想再次谈谈DeepSeek,这是非常出色的成果,参与其中的团队有卓越的想法,他们也确实做了很棒的工作。
这并非中国首个取得卓越创新成果的案例。我们早就知道这一点,尤其是计算机视觉领域取得进展。
中国在大语言模型方面的贡献近期才凸显,但计算机视觉领域的顶尖会议上,很多与会者都是中国科学家,他们都是才华横溢的人。所以,全球哪个地方都无法垄断好的创意。
DeepSeek的创意或许会被迅速复制,但它现在已经成为世界知识的一部分,这便是开源和开放研究的美妙之处。在产品层面上或许是一种竞争,但在基本方法层面上,更像是一种合作。
此时我们再谈“星际之门”项目。如今,所有涉足AI领域的公司都预见到不远的未来,数十亿人每天都会想要使用AI助手。
我现在戴着一副眼镜,或许你能看到上面有个摄像头,这是Meta的一款产品,可以与它对话,它连接着一个AI助手,你可以向它询问各种问题,甚至让它通过摄像头识别植物品种等。
因此,我们预见的未来是,人们会佩戴智能眼镜、智能手机或其它智能设备,日常生活中会不断使用AI助手。
这意味着将会有数十亿的AI助手用户,他们每天多次使用这些助手。为此,需要相当庞大的计算基础设施,因为运行大型语言模型或任何AI系统的成本不低,强大的计算能力是必需的。
比如,Meta今年在基础设施上的投资约为600-650亿美元,主要用于AI领域;微软也宣布将投资800亿美元。
“星际之门”项目计划投资5000亿美元,但这是在5到10年的长期投资,且我们并不知道这些资金来源于何处,因此与微软和Meta的投资规模实际上没有太大区别。
这笔资金并不是用于训练大型模型的,实际上训练大型模型的成本相对较低,大多数投资是用于推理,也就是为数十亿人服务的AI助手运行相关的。
因此,我认为,金融市场对于DeepSeek的反应,说“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。
我的意思是,训练只是会变得更高效一些,结果是我们只会去训练更大规模的模型。而且,大部分基础设施建设和投资实际上用于模型的运行,而不是训练模型。这才是投资的真正方向。
-
原视频链接:https://www.youtube.com/ watch?v=RUnFgu8kH-4
-
参考链接:https://x.com/ vitrupo / status / 1898470276272210294
本文来自微信公众号:量子位(ID:QbitAI),作者:西风