Loading...

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

OpenAI 的全模态模型尚未发布,谷歌的全模态图像生成工具却已率先上线!Gemini 2.0 Flash 中推出的原生图像生成功能,通过简单的口头指令,就能实现图像处理,轻松制作海报和表情包,动漫及漫画界也因此热议不断。

刚刚,谷歌 Gemini 新增了原生图像生成功能!这是谷歌首次向公众发布的全模态图像生成器。

现在,开发者们均可使用 Gemini 2.0 Flash 进行原生图像生成,只需通过 Gemini API 和 Google AI Studio 的实验版本即可。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

全模态图像生成器与其他 AI 生图模型最大的区别在哪?

主要体现在其超强的推理能力,它能够结合现实世界的知识生成更加符合上下文的图像,理解更多细节,更加遵循文化背景特征。

整个过程均由 Gemini 模型完成,无需调用其他模型,仅需通过自然语言提示即可。

另外,传统的 AI 生图工具需分别处理文本与图像,而此工具能同时输出文本和插图,保持令人惊讶的一致性。

  • 真正的多模态能力:同时理解文字、图像及二者之间的联系

  • 理解世界知识:具备智能推理能力,结合现实世界知识生成准确内容

  • 自然语言交互:仅通过对话即可修改图像,真正实现动嘴 PS

下图即用 Gemini 2.0 Flash 生成的内容,包括黑板上的文字。

许多图像生成模型在渲染长序列文本时屡屡受挫,而这个致命的弱点却被它克服了。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

有趣的是,实际上第一个展示全模态图像生成的还是 OpenAI,时间上比谷歌早了整整八个月。

昨天,OpenAI 传出即将发布其首个全模态模型的消息,没想到今天,谷歌便成功发布了第一个版本。

谷歌这一新功能可以根据上下文生成相关图像,支持对话式编辑,甚至能够在图像中生成长文本。

比如,只需简单指令,告诉模型给牛角面包加些巧克力边,立刻便能在对话框中获得满意的图像。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

也可以指示它,“在桌子上加些花吗?”它立刻会把花瓶放到桌子上。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

如果告诉它自己不太满意,更喜欢红色郁金香,它能在几秒内立刻转换为你所期望的图像。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

网友惊呼:太震撼了

现在,终于有了原生图像输出功能,使得图像能够智能地遵循上下文。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

该模型的真正强大之处在于能够深刻理解多模态的信息。

例如在一位网友的实测案例中,它能够直接从 URL 中解析 YouTube 视频,并提供基于时间戳的内容摘要。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

快速反应的网友已开始热火朝天地进行测试。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

生成了 30 岁的女性多角度照片,令人惊艳的一致性。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

未来你想要的照片,完全可以随心所欲进行编辑。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

瞬间生成一辆小汽车、模特和小汽车的广告大片。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

甚至可以用 Gemini 创建图像,开发任何游戏!

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

Gemini 2.0 Flash 的自画像,颇具趣味。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

一些人表示,这个功能太酷了,自己手上的许多图像将焕然一新。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

左右滑动查看

不少人认为,谷歌首个原生图像生成功能,或许是今年最佳发布之一。它的编辑过程和一致性都如此简约,令人期待何时能在 Gemini 上实现集成。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

当然,实测后也有用户指出,在某些情况下,如何让模型生成不带文字的图像依然颇具挑战性,甚至尝试了数种不同的提示都无法实现。

例如,试图让它根据奥尔特曼昨天分享的 OpenAI 创意写作模型编写的元小说,创作出一幅画作。

文字过多时,模型便无法运用其想象力,只能输出纯文字。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

小编的亲测结果也符合这一情况。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

对此,谷歌 Gemini 团队研究者表示将会进一步改善此功能,并建议让模型先以文本形式进行思考,可能会取得更好的效果。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

有趣的是,「一只马骑宇航员」这样的图像,模型依然无法生成。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

漫画与动漫界沸腾

此次,Gemini 2.0 Flash 迅速吸引了漫画圈的关注。

现在,使用它生成漫画只需动动嘴的功夫。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

有网友尝试后表示自己根本停不下来。只需简单的提示,就能选择性修改,而不影响整体图像。

他激动地表示,「用它制作漫画与故事分镜会变得非常简单。」

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

给漫画上色也只是轻轻一提的事儿。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

甚至漫画角色的动作——例如抬起手臂,也能通过口述完成。同时,输出图像与原图保持高度一致。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

动漫界的二次元们兴奋不已,有人惊叹,这是史上最优秀的动漫模型!

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

动漫创作的全流程,它都能根据指示完成,比如将素描转换成线稿;填充基础色;增加柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前光源和阴影相匹配,并使用合适角度;调整为单色灰度,以符合轻小说插画风格等。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

更多的测试 demo,期待你亲自体验。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

故事分镜

Gemini 2.0 Flash 也支持文本+配图输出形式,比如绘本、食谱等都能一并完成。

有网友让它生成一个经典故事《乌鸦喝水》。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

从内容到配图,Gemini 2.0 Flash 对故事的把控和现实逻辑都相当合理。

更惊人的是,以下所有内容都是一次性输出的。

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

还有网友让 Gemini 2.0 解释生命的意义,仅用图像进行回答。

<img w=\"1080\" h=\"654\" data-type=\"png\" title=\"谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引起动漫游戏圈关注\" src=\"https://img.

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...