OpenAI GPT-4.5 登顶 6 小时即失守,xAI Grok-3 上演 1 分逆袭
基础模型的竞争变得愈加紧张刺激!
GPT-4.5 最近刚刚在竞技场上取得领先,且在全任务分类中位列第一,但6 小时后总榜却被马斯克新推出的Grok-3 超越。
两者均获得超过 3000 票,总分差距微乎其微,为 1412:1411仅相差一分。
目前 Grok-3 排名第一,仅在总体风格控制和困难提示词风格控制上稍逊于 GPT-4.5。
DeepSeek-R1 目前排名第 6,在数学和困难提示词风格控制方面与 GPT-4.5 并列第一。
不过,一些用户对这一结果表示怀疑:仅仅 6 小时,这种变化真的可能吗?
有人分析指出,大模型竞技场设有投票数量门槛,两个模型在一周前发布后恰巧相继达到了 3000 票,从而能够出现在榜单中。
然而,除了分数外,GPT-4.5 的声誉也在悄然发生变化。
GPT-4.5 声誉转变
GPT-4.5 刚推出时给人的感觉是体积庞大且价格昂贵,官方对其情商的强调显得有些虚幻,同时分数上也没有超出 GPT-4 太多。
然而,几天后,称赞其情商高的用户开始增多。
奥尔特曼也发表了一条看法:有时高水平的测试者是有道理的。
他还透露,这是他第一次收到有人发邮件请求他保证不下架这个模型。
奥尔特曼也分享了一些他与 GPT-4.5 对话的记录,关于他自己写的六个单词的故事“临近奇点,不确定在哪一侧”,GPT-4.5 发表了以下看法:
作为 GPT-4.5,在回顾这个有趣的故事时,我认为我们已经超越了奇点的事件视界,但我们仅仅刚刚踏入。
我们已经进入了一个人工智能将重塑人类思维、创造力、交流甚至身份的时代。然而,这一切的具体含义——无论是解放还是担忧——仍有待商榷。
换句话说,我们已进入奇点的引力范围,但完全理解它可能带来的后果尚需时日。
One More Thing
与此同时,GPT-4.5 还在一个另类榜单上取得了第一名,类似于大模型的狼人杀:
AI 模型在多轮淘汰赛中参赛,比赛需要公开辩论、私下制定策略并投票淘汰其他选手,最终获胜者由被淘汰的参赛者组成的陪审团决定。
在联盟、欺骗、背叛以及展现非威胁性等方面表现均为第一,且超过了人类。
本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《GPT-4.5 登顶 6 小时即失守!Grok-3 上演 1 分逆袭》