“拿起产品,微笑着展示给镜头” — 你打几个字,虚拟人物就照做。
4 月 2 日,Google 给 Vids 加了一个功能:用自然语言提示词导演 AI 虚拟人物。它能和产品互动、拿道具、操作设备,而且不管动作多动态,角色一致性不崩。
这不是 PPT 动画,这是在用 AI 拍片。
Vids 是什么
2024 年 Google I/O 首次亮相,定位 Workspace 里的 AI 视频编辑器。核心卖点:不会剪视频?写个脚本,AI 帮你生成。
当时只是企业工具 — 培训视频、产品演示、内部沟通,省掉请摄制组的钱。但 Google 的胃口不止于此。
| 时间 | 事件 | 定位变化 |
|---|---|---|
| 2024 年 5 月 | Google I/O 首次发布 | 企业视频工具 |
| 2025 年 7 月 | 接入 Veo 3,支持图片生成 8 秒视频 | AI 视频编辑器 |
| 2025 年 8 月 | AI 虚拟人物上线,开放消费者版本 | 消费级 AI 视频平台 |
| 2026 年 2 月 | 2D/3D 卡通虚拟人物,7 种新配音语言 | 多风格多语言 |
| 2026 年 3 月 | Lyria 3/Lyria 3 Pro 音乐模型接入 | 音画一体 |
| 2026 年 4 月 | 提示词导演、Veo 3.1、YouTube 导出、Chrome 录屏 | 全流程 AI 拍片 |
两年时间,从”给企业做培训视频的工具”到”用文字拍片的 AI 视频平台”。
四月更新:四个大招
提示词导演虚拟人物
这是最核心的更新。不只是”选个虚拟人物念脚本”,而是用自然语言告诉它怎么演 — 跟产品互动、换衣服、换背景,全靠提示词驱动。
| 能力 | 说明 |
|---|---|
| 自然语言指令 | ”拿起产品,微笑着展示给镜头” |
| 产品互动 | 虚拟人物可以握持、操作真实产品 |
| 道具使用 | 支持换衣服、换背景、操作设备 |
| 角色一致性 | 动态场景下角色外貌保持稳定 |
Synthesia 和 HeyGen 做到了角色一致性,但 Google 把门槛降到了”打字就行”。
Veo 3.1 接入
Google 最新视频生成模型,在 Vids 里直接生成 8 秒片段。3 月上线的 Lyria 3/Lyria 3 Pro 音乐模型也整合进来 — 音效和配乐一条龙。
| 用户等级 | Veo 3.1 月生成额度 |
|---|---|
| 免费用户 | 10 次 |
| Google AI Pro | 待公布 |
| Google AI Ultra / Workspace AI Ultra | 最多 1000 次 |
一键导出 YouTube
之前得下载再上传,现在直接从 Vids 推到 YouTube 频道。默认私密状态,审核完再公开。功能虽小,但说明 Google 在打通 Vids → YouTube 的创作闭环。
Chrome 录屏扩展
新的 Chrome 屏幕录制扩展,带音频和视频录制。录屏素材直接丢进 Vids 剪辑 — 做教程和演示的效率工具。
技术机制:从”念稿”到”演戏”
传统 AI 虚拟人物视频的工作流是:选形象 → 输入脚本 → 生成口播视频。角色只是”念稿机器”,动作固定、表情僵硬。
Vids 的提示词导演机制改变了这个逻辑:
| 维度 | 传统方式 | 提示词导演 |
|---|---|---|
| 输入 | 脚本文本 | 脚本 + 动作指令 |
| 角色行为 | 固定口播 | 根据提示词动态生成 |
| 互动能力 | 无 | 与产品/道具互动 |
| 场景控制 | 预设背景 | 提示词换装换景 |
| 一致性维护 | 仅面部 | 全身动作一致性 |
核心难点在于:当虚拟人物执行复杂动作(如”拿起杯子喝水”)时,如何保持面部、手部、身体的一致性?Google 没有公开技术细节,但从演示效果看,应该采用了类似参考图像 + 运动解耦的策略 — 先锁定角色外观特征,再在动作空间中生成,避免每帧重新生成导致的外貌漂移。
“打字就行”的背后,是把运动控制从参数空间搬到了语义空间。用户不需要调关键帧,只需要描述意图。
基准数据:8 秒天花板
Veo 3.1 一次生成 8 秒视频。做一条 3 分钟的视频需要拼几十段。这不是创作者的效率工具,更像是一个快速出片的原型机。
| 规格 | Veo 3.1(Vids 内) |
|---|---|
| 单次时长 | 8 秒 |
| 分辨率 | 720p |
| 音频 | Lyria 3 自动配乐 + 音效 |
| 生成速度 | 约 30-60 秒/片段 |
| 角色一致性 | 动态场景下稳定 |
| 虚拟人物能力 | 当前状态 |
|---|---|
| 面部表情 | 自然,接近真人 |
| 肢体语言 | 可用,微动作有僵硬感 |
| 产品互动 | 支持握持/操作,精细动作有限 |
| 多语言配音 | 支持英/法/德/意/韩/葡/西/日 |
| 风格选项 | 写实 + 2D/3D 卡通 |
8 秒是当前视频生成模型的技术天花板,不是 Google 一家的限制。Sora 早期也是 5-10 秒级别。从”能不能生成”到”生成多长”,需要的是架构级别的突破。
竞品对比
| 维度 | Google Vids | Synthesia | HeyGen | D-ID | Lemon Slice |
|---|---|---|---|---|---|
| 定位 | 生态型 AI 视频平台 | 企业级虚拟人物视频 | 消费级虚拟人物视频 | 照片转视频 | 短内容创作 |
| 虚拟人物 | 写实 + 卡通 | 写实为主 | 2D → 3D 过渡 | 照片驱动 | 有限 |
| 提示词导演 | ✅ | ❌ | ❌ | ❌ | ❌ |
| 视频生成 | Veo 3.1 | 自研 | 自研 | Stable Video | 第三方 |
| 音乐生成 | Lyria 3 | ❌ | ❌ | ❌ | ❌ |
| 生态整合 | Gmail/Docs/Drive/YouTube | 独立平台 | 独立平台 | 独立平台 | 独立平台 |
| 估值/规模 | Google 子产品 | 21 亿美元(2025) | 增长迅猛 | 中等 | 小而美 |
| 月费起步 | $19.99(AI Pro) | $29 | $24 | $5.9 | 免费 |
Google 的优势不在技术上比别人强多少,而在于生态 — 20 亿 Gmail 用户,YouTube 是全球第二大搜索引擎。脚本在 Docs 里写,素材在 Drive 里存,视频在 Vids 里剪,成品一键推到 YouTube。
全家桶的威力:Synthesia 和 HeyGen 也许在单点上做得更好,但它们没有 20 亿用户的邮箱,也没有全球第二大视频平台。
定价与可用性
| 方案 | 价格 | 包含功能 |
|---|---|---|
| 消费者免费版 | $0 | 基础编辑,不含 AI 功能 |
| Google AI Pro | $19.99/月 | 虚拟人物 + Veo 生成(额度待公布) |
| Google AI Ultra | 更高 | Veo 3.1 最多 1000 次/月 |
| Workspace AI Ultra | 企业定价 | 全功能 + 团队协作 |
免费版几乎没用 — 不含 AI 功能,跟 iMovie 没有本质区别。想用虚拟人物和 Veo,必须订阅。Google AI Pro 月费 $19.99,比 Synthesia($29)和 HeyGen($24)便宜,但对普通创作者来说不便宜。
| 问题 | 现状 |
|---|---|
| 虚拟人物恐怖谷 | 微表情、肢体语言与真人有差距,产品演示够用,“有人味”的内容还早 |
| 8 秒视频天花板 | 做 3 分钟视频需拼几十段,更像是快速出片原型机 |
| 免费版价值 | 不含 AI 功能,与 iMovie 无本质差异 |
| 版权和伦理 | AI 生成”演员”的形象版权归谁?视频中品牌谁授权?Google 未明确说明 |
行业影响
提示词导演消费级化。 从 Synthesia 的企业级虚拟人物到 Vids 的”打字就行”,AI 视频制作的门槛正在从”需要专业软件”降到”会打字就行”。这和当年 iMovie 让视频剪辑从专业走向大众的逻辑一样 — 不是功能更强,而是门槛更低。
生态闭环即护城河。 Vids 的单个功能没有不可替代性,但 Docs → Vids → YouTube 的闭环有。当你的脚本、素材、剪辑、发布全在 Google 体系内完成,迁移成本就变成了护城河。这不是技术胜利,是入口胜利。
AI 虚拟人物的伦理空白。 用 AI 生成”演员”来表演,形象权、肖像权、版权全部悬而未决。Google 未明确说明,竞品也未解决。当 AI 虚拟人物越来越逼真,这个空白会从”法律问题”升级为”社会问题”。
Google Vids 的未来不取决于虚拟人物有多逼真,而取决于 20 亿用户愿不愿意用它来拍片 — 以及法律是否允许它这样拍。