GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务
OpenAI 推出了一个新功能,使 ChatGPT 输出的 速度大幅提升!
该功能被称为 “预测输出”(Predicted Outputs),在其支持下,GPT-4o 的速度可以比以前快 最多 5 倍。
以编程为例,来体验一下这种感觉:
实验结果表明,在“预测输出”加持下,GPT-4o 的响应时间比以前快了 2-4 倍,且依然能保持高精度。
官方还指出:
原本需要 70 秒完成的编程任务,现在只需 20 秒。
需要提醒的是,目前“预测输出”功能仅适用于 GPT-4o 和 GPT-4o mini 两种模型,并且是以 API 的形式提供。
对开发者来说,这无疑是个好消息。
网友们在线实测
消息一出,许多网友立刻进行了实测。
例如,Firecrawl 的创始人 Eric Ciarla 使用“预测输出”将博客文章转化为 SEO(搜索引擎优化)的内容,他表示:
速度真的非常快。
就像在 API 调用中添加一个预测参数一样简单。
另一位网友则是在已有的代码上输入了一条 Prompt:
change the details to be random pieces of text.
将详细信息更改为随机文本片段。
下面看看这个速度:
总之,快,确实很快。
怎么做到的?
关于“预测输出”的技术细节,OpenAI 在官方文档中也有介绍。
OpenAI 认为,在某些情况下,LLM 的大部分输出是可以预见的。
如果你只是要求模型对某些文本或代码进行微小修改,就可以利用“预测输出”将现有内容作为预测输入,从而显著减少延迟。
例如,如果你想重构一段 C# 代码,将 Username 属性更改为 Email :
你可以合理地假设文档的大部分内容是不会被更改的(例如类的文档字符串、一些现有的属性等)。
通过将现有的类文件作为预测文本传入,可以更快地生成整个文件。
使用“预测输出”生成 tokens 会显著降低这类请求的响应时间。
不过,关于“预测输出”的使用,OpenAI 官方也给出了一些注意事项。
首先正如我们之前提到的,仅支持 GPT-4o 和 GPT-4o-mini 系列模型。
其次,以下 API 参数在使用预测输出时不支持:
-
n 值大于 1
-
logprobs
-
presence_penalty 大于 0
-
frequency_penalty 大于 0
-
audio 选项
-
其他非文本的 modalities
-
max_completion_tokens
-
tools – 不支持函数调用
此外,OpenAI 在这份文档中还总结了一些其他延迟优化的方法,除了“预测输出”。
如“加速处理 token”、“生成更少的 token”、“使用更少的输入 token”、“减少请求”、“并行化”等等。
文档链接已在文末,感兴趣的朋友可以查阅哦~
One More Thing
虽然输出速度提升了,但 OpenAI 还有一个注意事项引起了网友们的讨论:
当提供预测时,任何未包含在最终完成部分的 tokens 都会按完成 tokens 费率收费。
有网友分享了他的测试结果:
-
未使用“预测输出”:5.2 秒,0.1555 美分
-
使用了“预测输出”:3.3 秒,0.2675 美分
嗯,速度快了,成本也增加了。
OpenAI 官方文档:
-
https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
参考链接:
-
[1]https://x.com/OpenAIDevs/status/1853564730872607229
-
[2]https://x.com/romainhuet/status/1853586848641433834
-
[3]https://x.com/GregKamradt/status/1853620167655481411
本文来自微信公众号:微信公众号(ID:QbitAI),作者:关注前沿科技