谷歌7大模型22项AI大招轰炸！70秒视频生成、Gemini安卓合体、200万tokens上下文-奇宝库

作者 | 智东西编辑部

智东西5月15日报道，今日凌晨，在一年一度的谷歌I/O开发者大会上，谷歌干了一场AI硬仗！

时长不到2小时的开幕式期间，谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到121次“AI”。谷歌DeepMind的联合创始人兼CEO戴密斯·哈萨比斯首次在I/O大会上发表演讲，顺序仅次于皮查伊，足见AI大模型已经成谷歌的头等大事。

在昨天OpenAI发动奇袭、推出干掉传统语音助手的旗舰模型GPT-4o后，作为“全球AI一哥+搜索一哥”的谷歌，势必得扳回一城，搏一搏谁才是AI赛道的头号“大模王”。

这次，谷歌连珠炮般甩出了22项AI大招，包括公布200万tokens超长上下文Gemini 1.5 Pro进阶版、Gemini 1.5 Flash轻量级模型、通用AI Agent、高质量文生图模型Imagen 3、AI音乐创作工具Music AI Sandbox、70秒视频生成模型Veo、首个视觉语言开放模型PaliGemma等多款模型，还剧透了下一代Gemma 2大模型。

Veo生成视频的部分片段：

其他大招包括第六代TPU、AI基础设施、AI搜索新功能、Google Workspace应用Gemini功能、Gemini Live多模态功能、Gemini定制功能、Gemini Advanced、画圈即搜功能、Gemini Nano新功能、安卓Gemini合体、AI辅助红队技术、扩展和开源SynthID文本水印等。

谷歌还展示了一系列AI系统，包括将视觉和语言转化为机器人行动的RT-2、浏览复杂虚拟3D环境的SIMA、解决奥数问题的AlphaGeometry。

发布会开场，皮查伊称目前有超150万开发人员在使用Gemini模型，谷歌拥有20亿用户的产品都在使用Gemini，谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动，3个月内已有超过100万人注册尝试。

谷歌今天的诸多AI大招还有哪些精彩细节，这些技术又将如何深度影响产业，我们将带你一文看尽。

一、未来通用AI Agent：日常生活随时答疑解惑的超级助手

昨天OpenAI果然是有预谋的精准狙击，率先亮出聊天丝滑宛如真人、具有炫酷实时视频理解能力的旗舰模型GPT-4o，导致今天谷歌展示的未来AI助手Project Astra演示有点儿眼熟：

相关文章