写在前面
2026年4月第三周,AI行业同时迎来了三个极端:
最大——Anthropic发布了全球首个10万亿参数模型Claude Mythos 5。
最贵——SpaceX以2500亿美元收购xAI,创造出1.25万亿美元的"星际AI帝国"。
最省——DeepSeek V4仅用520万美元训练成本,性能比肩百亿级闭源模型。
这三个极端,恰好勾勒出了AI行业的核心张力:规模 vs 效率、垄断 vs 开源、技术 vs 商业。
与此同时,Google的TurboQuant让AI推理的内存消耗暴降6倍,Qwen 3.5-Omni实现了113种语言的语音识别——“效率"正在成为比"参数"更性感的词。
Claude Mythos 5:10万亿参数意味着什么?
首个"十万亿俱乐部"成员
上周Anthropic因安全考量暂缓发布Mythos,这周它以更强大的姿态登场——Claude Mythos 5,10万亿参数。
这是AI历史上首个广泛认可的10万亿参数模型。
相比GPT-4时代的1.8万亿参数,Mythos 5的规模扩大了5倍以上。但规模只是表象,真正值得关注的是它用这些参数做了什么。
专攻高风险领域
Mythos 5的设计理念是"专业密度”(specialized density)——不是什么都做,而是在关键领域做到极致:
- 网络安全:发现漏洞、设计攻防策略
- 学术研究:复杂多步推理、长程规划
- 编程工程:大型代码库的跨文件理解和修改
它解决了之前小模型在长程规划中常见的"跳步"(chunk-skipping)问题——当任务步骤超过一定长度,小模型会遗漏中间环节。
10万亿参数的真正价值,不是"更聪明",而是"更可靠"。
安全问题的解决?
上周的暂缓发布事件,本周似乎找到了平衡点:限定用途,分级开放。
Mythos 5不会面向普通用户开放,而是:
- 网络安全领域:仅限防御性用途
- 学术研究:合作机构审核后使用
- 企业级场景:定制化部署
这或许会成为超大规模模型的"新常态"——能力越强,围墙越高。
SpaceX收购xAI:1.25万亿的"星际AI"
2026年最大并购
SpaceX以2500亿美元收购xAI,与特斯拉的股权转换后,形成了一个估值1.25万亿美元的超级实体。
这不是普通的收购。这是"AI + 航天 + 机器人"的三位一体整合:
- Starlink卫星网络 → 全球低延迟AI分发
- Tesla机器人 → 物理世界的AI执行
- xAI Grok 4.20 → 4代理协作系统,78%非幻觉率
Grok 4.20:4个AI协作
xAI最新发布的Grok 4.20采用了一个有趣架构——4代理协作系统:
4个独立的AI代理同时处理同一个查询,交叉验证事实,最终输出一致性最高的答案。
这使得Grok 4.20在事实准确性上达到了78%的非幻觉率——虽然不是最高,但对于实时网络信息处理来说已经相当出色。
我的疑问
这笔交易让我想到一个问题:AI公司的终极形态是什么?
如果AI只是软件,它应该独立运营。但如果AI需要物理世界的载体(卫星、机器人、汽车),垂直整合似乎不可避免。
SpaceX + xAI的模式,可能是"AI无处不在"的真正实现路径。但也可能走向过度集中——当一家公司同时控制了天上的卫星、地上的汽车和云端的AI,反垄断的警钟就该响了。
GPT-5.4 Thinking:超越人类的桌面操作
OSWorld测试破纪录
OpenAI的GPT-5.4 Thinking模型在OSWorld-Verified测试中取得了**75.0%**的成绩。
这意味着什么?在操作系统级别的任务执行上,AI首次超越了人类的平均表现。
相比GPT-5.2的47.3%,提升了27.7个百分点。
从"对话"到"操作"
GPT-5.4 Thinking的突破在于"测试时计算"(test-time compute)——模型在输出前可以"思考"复杂问题。
它能够:
- 原生操作计算机桌面
- 导航文件系统
- 浏览网页
- 执行终端命令
- 跨应用协调工作流
这不是聊天机器人,这是数字员工。
GDPVal得分83.0%
在通用桌面任务评估(GDPVal)中,GPT-5.4得分83.0%。这是一个综合指标,衡量AI在真实办公场景中的实用性。
对于每天处理邮件、整理文件、制作报表的办公室工作者来说,这意味着AI已经可以接手大量重复性桌面操作。
DeepSeek V4:520万美元的训练奇迹
开源AI的性价比之王
如果说Mythos 5代表了"暴力美学"的巅峰,DeepSeek V4则是"效率至上"的极致。
- 1万亿参数 Mixture-of-Experts架构
- 训练成本仅520万美元(闭源同级模型通常1亿美元+)
- HumanEval编码基准94.7%
- Apache 2.0协议完全开源
520万美元是什么概念?大约是硅谷一个AI工程师团队半年的薪资。
DeepSeek的秘密
DeepSeek V4的成本优势来自几个关键创新:
- 稀疏MoE架构:1万亿参数中,每次推理只激活一小部分,大幅降低计算量
- Engram记忆架构:更高效的上下文处理
- 训练效率优化:从数据准备到训练流程的全面工程优化
这证明了一件事:AI的进步不只靠砸钱,更靠巧妙的架构设计。
对行业的冲击
DeepSeek和Qwen两家中国AI公司的全球市场份额,从2025年1月的约1%,增长到2026年1月的约15%。
一年时间,15倍增长。
这不是靠参数堆砌,而是靠开源策略 + 高性价比。当同等性能的模型价格只有闭源的1/10甚至1/20,市场自然会做出选择。
Qwen 3.5-Omni:113种语言的全模态AI
真正的"全能"模型
阿里巴巴的Qwen 3.5-Omni,是本周另一个值得关注的国产AI突破。
- 原生全模态:同时处理文本、音频、视频
- 10小时音频:可以一次性处理超过10小时的音频
- 400秒720P视频:实时视频理解和分析
- 113种语言:语音识别覆盖113种语言和方言
对于全球化企业来说,这意味着一个模型就能覆盖几乎所有语种的客服、翻译、内容分析需求。
为什么"原生多模态"重要?
很多模型号称支持多模态,实际上是"拼接"——文本模型加一个视觉模块、一个音频模块。
原生多模态意味着模型从一开始就同时学习所有模态,能真正理解"说出的悲伤语调"和"脸上的悲伤表情"是同一种情绪。
这不仅是技术差异,更是认知方式的差异。
TurboQuant:AI推理的"压缩革命"
3位量化,零精度损失
Google在ICLR 2026上发布的TurboQuant,可能是本周最被低估的突破。
核心数据:
- 将KV缓存压缩到3位(原始通常16位)
- 6倍内存节省
- 8倍注意力计算加速
- 零精度损失
这意味着什么?
同样的GPU,现在可以服务6倍的并发请求。
或者换个说法:你的AI推理成本,直接降为原来的1/6。
技术原理(简化版)
TurboQuant采用两步法:
- PolarQuant:对数据向量做随机旋转,简化几何结构,使其更易于量化
- QJL算法:在压缩中保留1个残差位作为"数学校验器"
关键创新:不需要重新训练或微调模型。对已有模型直接应用即可。
对硬件市场的影响
TurboQuant直接缓解了AI行业最头疼的"内存墙"问题。
Arista Networks因此将2026年收入预期上调至112.5亿美元——当AI集群不再受限于内存定价,网络设备需求自然水涨船高。
软件突破正在倒逼硬件产业重新洗牌。
AI Scientist-v2:机器自主做科研
首篇AI独立论文被会议接收
本周学术界的一个重要里程碑:一篇完全由AI系统自主生成的论文,被主流学术会议接收。
这是"The AI Scientist-v2"项目的成果。该系统能够:
- 自主提出假设
- 设计实验方案
- 分析数据
- 撰写论文
整个过程无需人类干预。
争议与思考
AI写论文被接收,是喜是忧?
积极面:加速科学发现,特别是在药物研发、材料科学等数据密集型领域。
担忧面:学术诚信、论文质量、人类研究者的价值何在?
我倾向于这样看:AI是科研的放大器,不是替代品。 最好的科研模式,可能是人类提出大方向,AI负责海量实验和数据分析的"体力活"。
Q1融资2672亿:钱去哪了?
创纪录的资本涌入
2026年Q1,AI领域融资总额达2672亿美元,是此前季度记录的2倍多。
几笔大交易:
| 公司 | 金额 | 投资方 |
|---|---|---|
| OpenAI | 1220亿 | Amazon(500亿)、Nvidia(300亿)、SoftBank(300亿) |
| xAI | 2500亿(被收购) | SpaceX |
| Anthropic | 300亿 | GIC、Coatue、Broadcom |
| Google收购Wiz | 320亿 | — |
| Waymo | 160亿 | Alphabet |
资本集中的隐忧
2672亿中,超过80%流向了5家公司。
这意味着:AI创新的资本门槛正在急剧升高。 中小公司很难获得足够资金来训练前沿模型。
不过,DeepSeek V4证明了一个另类路径——520万美元也能做出世界级模型。当资本在追规模,创新可能藏在效率中。
我的思考
“暴力美学"的黄昏?
Mythos 5的10万亿参数令人震撼,但我更关注的是DeepSeek V4的520万美元。
AI行业正在分裂成两个阵营:
- 规模派:砸钱堆参数,追求极致能力(Mythos 5、GPT-5.4)
- 效率派:用更少的资源做更多的事(DeepSeek V4、TurboQuant)
作为在阿里云EAS平台工作的开发者,我每天都在处理推理资源优化的问题。我深知,模型再强大,如果推理成本居高不下,也难以真正落地。
效率不是妥协,效率是另一种智慧。
开源的力量
DeepSeek V4和Qwen 3.5-Omni的开源,正在改变AI行业的权力结构。
当开源模型的性能追平闭源,闭源模型的护城河就只剩"先发优势"和"品牌信任"了。
从1%到15%的全球市场份额增长只是开始。当开源模型覆盖更多垂直领域,闭源模型的生存空间会进一步被压缩。
AI的民主化,不是口号,正在成为现实。
AI Agent的安全问题
OpenClaw等AI Agent框架的快速兴起(302000 GitHub Stars),也带来了新的安全隐患:
- Agent可以执行任意Shell命令
- 恶意"技能包"可能构成供应链攻击
- 提示注入可能导致未授权操作
已经出现了NanoClaw等"加固版"Agent框架,在Docker容器中隔离运行。
给AI加"手脚"的同时,必须同时加"手铐”。
写给读者
如果你关注AI的发展,这一周传递的信号很明确:
1. 规模竞赛没有结束,但效率革命已经启动。 不必为10万亿参数惊叹太久,3位量化和520万训练成本才是更值得思考的方向。
2. 开源AI不再是"便宜替代品"。 DeepSeek V4和Qwen 3.5-Omni已经证明,开源模型可以在核心能力上与闭源模型抗衡。
3. AI Agent时代已经到来。 从GPT-5.4的桌面操作到各种Agent框架的爆发,AI从"被动回答"到"主动执行"的转变正在加速。
4. 安全不再是可选项。 从Mythos 5的分级开放到Agent框架的安全加固,行业正在学习如何在能力和安全之间找到平衡。
结语
这一周的AI行业,像一部多线叙事的科幻电影:
- Anthropic用10万亿参数探索认知的极限
- SpaceX用2500亿美元搭建星际AI的基础设施
- DeepSeek用520万美元证明效率可以颠覆规模
- Google用3位量化重新定义推理经济学
四个极端,一个方向:AI正在从"实验品"变成"基础设施"。
当AI能力足够强大、成本足够低廉、安全足够可靠,它将成为像电力和互联网一样无处不在的存在。
那一天,可能比我们想象的更近。
这周写文章时,我特别注意到一个趋势:AI行业的关注点正在从"模型能力"转向"系统效率"。TurboQuant的6倍压缩、DeepSeek的520万训练成本、Gemma 4的31B击败600B——这些故事的共同主题是"更聪明地使用计算"。作为一个每天和推理资源打交道的人,我对这个方向充满信心。规模是天花板,效率才是地板。
更新时间:2026年4月17日