一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
长视频理解是多模态大模型核心能力之一,也是通向通用人工智能(AGI)的重要一步。然而,现有的多模态大模型在处理超过10分钟的超长视频时,依然面临性能与效...
2024 科大讯飞全球 1024 开发者节:AI 文娱论坛“重构内容与表达”完满落幕
2024年10月24日,科大讯飞在合肥成功举办了全球1024开发者节AI文娱论坛。本次论坛的主题是“重构内容与表达”,旨在讨论AI时代文娱产业的新趋势,见证讯飞AI文...
消息称 Meta 正开发自家 AI 搜索引擎:追赶 OpenAI,降低对微软、谷歌的依赖
10 月 29 日消息,科技媒体 The Information 昨日(10 月 28 日)发布博文,报道称 Meta 公司一方面为减少对微软、谷歌的依赖,另一方面追赶 OpenAI 在 AI 领...
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 / 电脑
10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。
国庆期间被 AI 雷军“骂了 7 天”,雷军本人呼吁网友不要再玩
10 月 29 日消息,在今年国庆假期期间,一些网友利用 AI 技术克隆雷军的声音,借此吐槽不文明行为或表达对他人的不满,有网友戏称“被 AI 雷军追着骂了整个假...
神秘 AI 模型“小熊猫”一夜刷屏:排名超 Flux、Midjourney
神秘的文生图模型“red_panda” (小熊猫)一夜之间火遍网络!! 它迅速攀升至文生图领域的顶端,直接超越了 Flux、Midjourney 等众多顶尖模型 —— 其 ELO...
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的扩散模型架构 OmniGen,这是一种用于统一图像生成的多模态模型。
全国首批人形机器人具身智能标准发布:按下肢运动、上肢作业等分 4 个等级
10 月 29 日消息,据浦东发布消息,人形机器人及具身智能创新论坛昨日在上海召开,国家地方共建人形机器人创新中心联合行业内头部企业和机构,共同发布全国首...
探秘全球最大 AI 集群 xAI Colossus:122 天建成,10 万张英伟达 H100 构筑马斯克 AI 愿景
10 月 29 日消息,科技媒体 servethehome 昨日(10 月 28 日)发布博文,应 xAI 公司邀请,参观了 Colossus 全球最大 AI 训练集群。
谷歌 CEO 桑达尔・皮查伊:努力在明年推出具有可视化功能的 AI 助理
10 月 30 日消息,北京时间今天凌晨,谷歌 CEO 桑达尔・皮查伊在公司第三季度财报电话会议上透露了“Project Astra”计划的最新进展。他表示,谷歌正在构建能够...