万亿参数对决：Claude Mythos 5登场，SpaceX鲸吞xAI，DeepSeek V4开源改写游戏规则

写在前面

2026年4月第三周，AI行业同时迎来了三个极端：

最大——Anthropic发布了全球首个10万亿参数模型Claude Mythos 5。

最贵——SpaceX以2500亿美元收购xAI，创造出1.25万亿美元的"星际AI帝国"。

最省——DeepSeek V4仅用520万美元训练成本，性能比肩百亿级闭源模型。

这三个极端，恰好勾勒出了AI行业的核心张力：规模 vs 效率、垄断 vs 开源、技术 vs 商业。

与此同时，Google的TurboQuant让AI推理的内存消耗暴降6倍，Qwen 3.5-Omni实现了113种语言的语音识别——“效率"正在成为比"参数"更性感的词。

Claude Mythos 5：10万亿参数意味着什么？

首个"十万亿俱乐部"成员

上周Anthropic因安全考量暂缓发布Mythos，这周它以更强大的姿态登场——Claude Mythos 5，10万亿参数。

这是AI历史上首个广泛认可的10万亿参数模型。

相比GPT-4时代的1.8万亿参数，Mythos 5的规模扩大了5倍以上。但规模只是表象，真正值得关注的是它用这些参数做了什么。

专攻高风险领域

Mythos 5的设计理念是"专业密度”（specialized density）——不是什么都做，而是在关键领域做到极致：

网络安全：发现漏洞、设计攻防策略
学术研究：复杂多步推理、长程规划
编程工程：大型代码库的跨文件理解和修改

它解决了之前小模型在长程规划中常见的"跳步"（chunk-skipping）问题——当任务步骤超过一定长度，小模型会遗漏中间环节。

10万亿参数的真正价值，不是"更聪明"，而是"更可靠"。

安全问题的解决？

上周的暂缓发布事件，本周似乎找到了平衡点：限定用途，分级开放。

Mythos 5不会面向普通用户开放，而是：

网络安全领域：仅限防御性用途
学术研究：合作机构审核后使用
企业级场景：定制化部署

这或许会成为超大规模模型的"新常态"——能力越强，围墙越高。

SpaceX收购xAI：1.25万亿的"星际AI"

2026年最大并购

SpaceX以2500亿美元收购xAI，与特斯拉的股权转换后，形成了一个估值1.25万亿美元的超级实体。

这不是普通的收购。这是"AI + 航天 + 机器人"的三位一体整合：

Starlink卫星网络 → 全球低延迟AI分发
Tesla机器人 → 物理世界的AI执行
xAI Grok 4.20 → 4代理协作系统，78%非幻觉率

Grok 4.20：4个AI协作

xAI最新发布的Grok 4.20采用了一个有趣架构——4代理协作系统：

4个独立的AI代理同时处理同一个查询，交叉验证事实，最终输出一致性最高的答案。

这使得Grok 4.20在事实准确性上达到了78%的非幻觉率——虽然不是最高，但对于实时网络信息处理来说已经相当出色。

我的疑问

这笔交易让我想到一个问题：AI公司的终极形态是什么？

如果AI只是软件，它应该独立运营。但如果AI需要物理世界的载体（卫星、机器人、汽车），垂直整合似乎不可避免。

SpaceX + xAI的模式，可能是"AI无处不在"的真正实现路径。但也可能走向过度集中——当一家公司同时控制了天上的卫星、地上的汽车和云端的AI，反垄断的警钟就该响了。

GPT-5.4 Thinking：超越人类的桌面操作

OSWorld测试破纪录

OpenAI的GPT-5.4 Thinking模型在OSWorld-Verified测试中取得了**75.0%**的成绩。

这意味着什么？在操作系统级别的任务执行上，AI首次超越了人类的平均表现。

相比GPT-5.2的47.3%，提升了27.7个百分点。

从"对话"到"操作"

GPT-5.4 Thinking的突破在于"测试时计算"（test-time compute）——模型在输出前可以"思考"复杂问题。

它能够：

原生操作计算机桌面
导航文件系统
浏览网页
执行终端命令
跨应用协调工作流

这不是聊天机器人，这是数字员工。

GDPVal得分83.0%

在通用桌面任务评估（GDPVal）中，GPT-5.4得分83.0%。这是一个综合指标，衡量AI在真实办公场景中的实用性。

对于每天处理邮件、整理文件、制作报表的办公室工作者来说，这意味着AI已经可以接手大量重复性桌面操作。

DeepSeek V4：520万美元的训练奇迹

开源AI的性价比之王

如果说Mythos 5代表了"暴力美学"的巅峰，DeepSeek V4则是"效率至上"的极致。

1万亿参数 Mixture-of-Experts架构
训练成本仅520万美元（闭源同级模型通常1亿美元+）
HumanEval编码基准94.7%
Apache 2.0协议完全开源

520万美元是什么概念？大约是硅谷一个AI工程师团队半年的薪资。

DeepSeek的秘密

DeepSeek V4的成本优势来自几个关键创新：

稀疏MoE架构：1万亿参数中，每次推理只激活一小部分，大幅降低计算量
Engram记忆架构：更高效的上下文处理
训练效率优化：从数据准备到训练流程的全面工程优化

这证明了一件事：AI的进步不只靠砸钱，更靠巧妙的架构设计。

对行业的冲击

DeepSeek和Qwen两家中国AI公司的全球市场份额，从2025年1月的约1%，增长到2026年1月的约15%。

一年时间，15倍增长。

这不是靠参数堆砌，而是靠开源策略 + 高性价比。当同等性能的模型价格只有闭源的1/10甚至1/20，市场自然会做出选择。

Qwen 3.5-Omni：113种语言的全模态AI

真正的"全能"模型

阿里巴巴的Qwen 3.5-Omni，是本周另一个值得关注的国产AI突破。

原生全模态：同时处理文本、音频、视频
10小时音频：可以一次性处理超过10小时的音频
400秒720P视频：实时视频理解和分析
113种语言：语音识别覆盖113种语言和方言

对于全球化企业来说，这意味着一个模型就能覆盖几乎所有语种的客服、翻译、内容分析需求。

为什么"原生多模态"重要？

很多模型号称支持多模态，实际上是"拼接"——文本模型加一个视觉模块、一个音频模块。

原生多模态意味着模型从一开始就同时学习所有模态，能真正理解"说出的悲伤语调"和"脸上的悲伤表情"是同一种情绪。

这不仅是技术差异，更是认知方式的差异。

TurboQuant：AI推理的"压缩革命"

3位量化，零精度损失

Google在ICLR 2026上发布的TurboQuant，可能是本周最被低估的突破。

核心数据：

将KV缓存压缩到3位（原始通常16位）
6倍内存节省
8倍注意力计算加速
零精度损失

这意味着什么？

同样的GPU，现在可以服务6倍的并发请求。

或者换个说法：你的AI推理成本，直接降为原来的1/6。

技术原理（简化版）

TurboQuant采用两步法：

PolarQuant：对数据向量做随机旋转，简化几何结构，使其更易于量化
QJL算法：在压缩中保留1个残差位作为"数学校验器"

关键创新：不需要重新训练或微调模型。对已有模型直接应用即可。

对硬件市场的影响

TurboQuant直接缓解了AI行业最头疼的"内存墙"问题。

Arista Networks因此将2026年收入预期上调至112.5亿美元——当AI集群不再受限于内存定价，网络设备需求自然水涨船高。

软件突破正在倒逼硬件产业重新洗牌。

AI Scientist-v2：机器自主做科研

首篇AI独立论文被会议接收

本周学术界的一个重要里程碑：一篇完全由AI系统自主生成的论文，被主流学术会议接收。

这是"The AI Scientist-v2"项目的成果。该系统能够：

自主提出假设
设计实验方案
分析数据
撰写论文

整个过程无需人类干预。

争议与思考

AI写论文被接收，是喜是忧？

积极面：加速科学发现，特别是在药物研发、材料科学等数据密集型领域。

担忧面：学术诚信、论文质量、人类研究者的价值何在？

我倾向于这样看：AI是科研的放大器，不是替代品。 最好的科研模式，可能是人类提出大方向，AI负责海量实验和数据分析的"体力活"。

Q1融资2672亿：钱去哪了？

创纪录的资本涌入

2026年Q1，AI领域融资总额达2672亿美元，是此前季度记录的2倍多。

几笔大交易：

公司	金额	投资方
OpenAI	1220亿	Amazon(500亿)、Nvidia(300亿)、SoftBank(300亿)
xAI	2500亿(被收购)	SpaceX
Anthropic	300亿	GIC、Coatue、Broadcom
Google收购Wiz	320亿	—
Waymo	160亿	Alphabet

资本集中的隐忧

2672亿中，超过80%流向了5家公司。

这意味着：AI创新的资本门槛正在急剧升高。 中小公司很难获得足够资金来训练前沿模型。

不过，DeepSeek V4证明了一个另类路径——520万美元也能做出世界级模型。当资本在追规模，创新可能藏在效率中。

我的思考

“暴力美学"的黄昏？

Mythos 5的10万亿参数令人震撼，但我更关注的是DeepSeek V4的520万美元。

AI行业正在分裂成两个阵营：

规模派：砸钱堆参数，追求极致能力（Mythos 5、GPT-5.4）
效率派：用更少的资源做更多的事（DeepSeek V4、TurboQuant）

作为在阿里云EAS平台工作的开发者，我每天都在处理推理资源优化的问题。我深知，模型再强大，如果推理成本居高不下，也难以真正落地。

效率不是妥协，效率是另一种智慧。

开源的力量

DeepSeek V4和Qwen 3.5-Omni的开源，正在改变AI行业的权力结构。

当开源模型的性能追平闭源，闭源模型的护城河就只剩"先发优势"和"品牌信任"了。

从1%到15%的全球市场份额增长只是开始。当开源模型覆盖更多垂直领域，闭源模型的生存空间会进一步被压缩。

AI的民主化，不是口号，正在成为现实。

AI Agent的安全问题

OpenClaw等AI Agent框架的快速兴起（302000 GitHub Stars），也带来了新的安全隐患：

Agent可以执行任意Shell命令
恶意"技能包"可能构成供应链攻击
提示注入可能导致未授权操作

已经出现了NanoClaw等"加固版"Agent框架，在Docker容器中隔离运行。

给AI加"手脚"的同时，必须同时加"手铐”。

写给读者

如果你关注AI的发展，这一周传递的信号很明确：

1. 规模竞赛没有结束，但效率革命已经启动。 不必为10万亿参数惊叹太久，3位量化和520万训练成本才是更值得思考的方向。

2. 开源AI不再是"便宜替代品"。 DeepSeek V4和Qwen 3.5-Omni已经证明，开源模型可以在核心能力上与闭源模型抗衡。

3. AI Agent时代已经到来。 从GPT-5.4的桌面操作到各种Agent框架的爆发，AI从"被动回答"到"主动执行"的转变正在加速。

4. 安全不再是可选项。 从Mythos 5的分级开放到Agent框架的安全加固，行业正在学习如何在能力和安全之间找到平衡。

结语

这一周的AI行业，像一部多线叙事的科幻电影：

Anthropic用10万亿参数探索认知的极限
SpaceX用2500亿美元搭建星际AI的基础设施
DeepSeek用520万美元证明效率可以颠覆规模
Google用3位量化重新定义推理经济学

四个极端，一个方向：AI正在从"实验品"变成"基础设施"。

当AI能力足够强大、成本足够低廉、安全足够可靠，它将成为像电力和互联网一样无处不在的存在。

那一天，可能比我们想象的更近。

这周写文章时，我特别注意到一个趋势：AI行业的关注点正在从"模型能力"转向"系统效率"。TurboQuant的6倍压缩、DeepSeek的520万训练成本、Gemma 4的31B击败600B——这些故事的共同主题是"更聪明地使用计算"。作为一个每天和推理资源打交道的人，我对这个方向充满信心。规模是天花板，效率才是地板。

更新时间：2026年4月17日