科技资讯

Google王炸！用一个模型搞定文本图片视频音频，AI进入全模态时代

发布于 2026-03-19 阅读 167

2026年3月，Google发布了一颗“核弹”：一个模型同时支持文本、图片、视频、音频、PDF五种模态的深度理解与生成，而且全部塞进同一个向量空间。这意味着——AI终于能像人一样“统一理解”世界了。

过去，AI是“偏科生”：GPT擅长文字，Midjourney擅长画图，Sora擅长视频，ElevenLabs擅长语音。各有各的模型，各有各的架构。

Google这次不一样了：

你可以这样做：

因为这代表着AI从“工具”进化到“助理”的关键一步。

以前的AI：你需要学会怎么用它（写prompt、找功能）

以后的AI：像人一样交流就行（给个眼神就能懂）

Google这一出，其他厂商压力山大了：

Google表示该模型将陆续开放给Gemini用户。预计2026年Q2，个人用户就能体验。国产类似模型估计年底跟上。

从“各有所长”到“全能冠军”，AI又向前迈出了一大步。属于多模态AI的时代，才刚刚开始。