Kimi 发布视觉思考模型 k1:试题拍照给出答题思考全过程
GoodNav 12 月 16 日消息,月之暗面 Kimi 今日推出了视觉思考模型 k1。该模型基于强化学习技术开发,原生支持端到端的图像理解和思维链技术,并将其能力扩展至数学以外的多个基础科学领域。
月之暗面官方表示,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了 OpenAI o1、GPT-4o 和 Claude 3.5 Sonnet。
据月之暗面官方介绍,Kimi 新模型发布后立即上线。k1 视觉思考模型已经逐步融入最新版的「Kimi 智能助手」,并在 Android 和 iPhone 手机 App 及网页版 kimi.com。用户可以在最新版手机 App 或网页版 Kimi+ 页面找到「Kimi 视觉思考版」,通过拍照或上传图片来体验该功能。
「Kimi 视觉思考版」将完整展示推理思维链 CoT,使用户不仅能够看到答案的结果,还能全面了解模型思考答案的过程。
在模型的训练方面,k1视觉思考模型的训练过程分为两个阶段,首先通过预训练形成基础模型,随后在此基础上进行强化学习培训。k1 的基础模型在字符识别能力上进行了重点优化,在 OCRBench 测试中得分 903 (达到了当前最佳水平),在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分别获得 69.1、66.7 和 96.9 的分数。
月之暗面表示,k1的强化学习后培训在数据质量和学习效率上也进行了进一步优化,并在强化学习规模化(scaling)方面取得了新的进展。
此外,科学模型能力基准测试方案是当前大模型行业面临的一个重要挑战。由于市场上缺少针对基础科学学科的图形测试集,Kimi模型研发团队自主构建了一个标准化测试集 Science Vista,涵盖了不同难度的数理化图片题目,且在分布上与实际用户需求较为一致。该测试集将向整个行业开放,用户可申请在许可范围内使用。
在内部测试中,月之暗面发现了一些 k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化能力、更复杂问题上的成功率、噪声环境中的准确率以及多轮问答的效果等方面尚有较大的提升空间。在部分场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍存在差距。