2026年5月3日,AI圈五大爆点齐发:DeepSeek以视觉原语思考突破多模态推理瓶颈;Anthropic获谷歌400亿美元重磅投资,估值剑指9000亿;英伟达Nemotron 3 Nano Omni开源,专为Agent设计;Gemini免费开放31种格式文件生成;四巨头Q1财报同日发布,AI军备竞赛全面提速。
① DeepSeek「以视觉原语思考」:多模态推理破壁
DeepSeek最新发表论文《以视觉原语思考》,提出用坐标作为推理锚点,彻底解决语言描述与视觉空间之间的”指代鸿沟”。在多项视觉推理基准测试中,该方法全面超越GPT-5.4和Claude Sonnet 4.6。这意味着多模态AI的能力从”感知层”真正跃升至”推理层”——AI不再只是”看”图片,而是能用精确的坐标语言”思考”图片。(第116期)
② Anthropic剑指9000亿估值,谷歌400亿重磅押注
Anthropic正推进新一轮融资,估值有望突破9000亿美元,超越OpenAI成为全球估值最高AI公司。与此同时,谷歌正式确认向Anthropic注资400亿美元(其中超60%为TPU算力资源),持有约14%股权。Anthropic年化收入已首次超越OpenAI,Claude在企业市场持续攻城略地。AI双雄格局正在重塑。(第116期)
③ 英伟达Nemotron 3 Nano Omni开源:Agent专用芯片现身
4月29日,英伟达正式开源Nemotron 3 Nano Omni——采用30B总参数、激活仅3B的MoE架构,专为边缘设备和实时Agent推理设计,吞吐量较前代飙升9.2倍。这标志着英伟达从”卖算力”向”卖模型+算力”双轨转型。行业竞争焦点正从模型参数规模,加速转向Agent落地效率。(第116期)
④ Gemini免费生成31种格式文件,直击Office生态
谷歌Gemini最新更新:支持一键生成PDF、Word、Excel等31种格式文件,甚至支持打包为Zip压缩包。免费用户即可使用,无需上传模板,一句自然语言即可生成完整文档。此举被视为对微软Office和Google Docs生态的主动挑战——AI正在从”辅助写作”进化为”直接生产文件”。(第116期)
⑤ 四巨头Q1财报同日发布:AI军备竞赛提速
北京时间4月30日,谷歌、微软、亚马逊、Meta四大科技巨头同日发布Q1财报:谷歌总营收1099亿美元(+22%),净利润625.7亿美元(+81%),谷歌云首破200亿美元;四巨头合计年度资本支出接近7000亿美元。谷歌上调全年资本支出指导至1800~1900亿美元。AI基础设施军备竞赛进入最激烈阶段。(第116期)
— AIDaily 每日AI资讯 第116期 —