Home / 前沿动态 / 2026.04.02

Google Vids:用文字导演一个不存在的演员

Google Vids 四月更新:用自然语言提示词导演 AI 虚拟人物,Veo 3.1 接入 8 秒视频生成,一键导出 YouTube。从企业培训工具到消费级 AI 视频平台,Google 打的不是技术,是入口。

“拿起产品,微笑着展示给镜头” — 你打几个字,虚拟人物就照做。

4 月 2 日,Google 给 Vids 加了一个功能:用自然语言提示词导演 AI 虚拟人物。它能和产品互动、拿道具、操作设备,而且不管动作多动态,角色一致性不崩。

这不是 PPT 动画,这是在用 AI 拍片。

Vids 是什么

2024 年 Google I/O 首次亮相,定位 Workspace 里的 AI 视频编辑器。核心卖点:不会剪视频?写个脚本,AI 帮你生成。

当时只是企业工具 — 培训视频、产品演示、内部沟通,省掉请摄制组的钱。但 Google 的胃口不止于此。

时间事件定位变化
2024 年 5 月Google I/O 首次发布企业视频工具
2025 年 7 月接入 Veo 3,支持图片生成 8 秒视频AI 视频编辑器
2025 年 8 月AI 虚拟人物上线,开放消费者版本消费级 AI 视频平台
2026 年 2 月2D/3D 卡通虚拟人物,7 种新配音语言多风格多语言
2026 年 3 月Lyria 3/Lyria 3 Pro 音乐模型接入音画一体
2026 年 4 月提示词导演、Veo 3.1、YouTube 导出、Chrome 录屏全流程 AI 拍片

两年时间,从”给企业做培训视频的工具”到”用文字拍片的 AI 视频平台”。

四月更新:四个大招

提示词导演虚拟人物

这是最核心的更新。不只是”选个虚拟人物念脚本”,而是用自然语言告诉它怎么演 — 跟产品互动、换衣服、换背景,全靠提示词驱动。

能力说明
自然语言指令”拿起产品,微笑着展示给镜头”
产品互动虚拟人物可以握持、操作真实产品
道具使用支持换衣服、换背景、操作设备
角色一致性动态场景下角色外貌保持稳定

Synthesia 和 HeyGen 做到了角色一致性,但 Google 把门槛降到了”打字就行”。

Veo 3.1 接入

Google 最新视频生成模型,在 Vids 里直接生成 8 秒片段。3 月上线的 Lyria 3/Lyria 3 Pro 音乐模型也整合进来 — 音效和配乐一条龙。

用户等级Veo 3.1 月生成额度
免费用户10 次
Google AI Pro待公布
Google AI Ultra / Workspace AI Ultra最多 1000 次

一键导出 YouTube

之前得下载再上传,现在直接从 Vids 推到 YouTube 频道。默认私密状态,审核完再公开。功能虽小,但说明 Google 在打通 Vids → YouTube 的创作闭环。

Chrome 录屏扩展

新的 Chrome 屏幕录制扩展,带音频和视频录制。录屏素材直接丢进 Vids 剪辑 — 做教程和演示的效率工具。

技术机制:从”念稿”到”演戏”

传统 AI 虚拟人物视频的工作流是:选形象 → 输入脚本 → 生成口播视频。角色只是”念稿机器”,动作固定、表情僵硬。

Vids 的提示词导演机制改变了这个逻辑:

维度传统方式提示词导演
输入脚本文本脚本 + 动作指令
角色行为固定口播根据提示词动态生成
互动能力与产品/道具互动
场景控制预设背景提示词换装换景
一致性维护仅面部全身动作一致性

核心难点在于:当虚拟人物执行复杂动作(如”拿起杯子喝水”)时,如何保持面部、手部、身体的一致性?Google 没有公开技术细节,但从演示效果看,应该采用了类似参考图像 + 运动解耦的策略 — 先锁定角色外观特征,再在动作空间中生成,避免每帧重新生成导致的外貌漂移。

“打字就行”的背后,是把运动控制从参数空间搬到了语义空间。用户不需要调关键帧,只需要描述意图。

基准数据:8 秒天花板

Veo 3.1 一次生成 8 秒视频。做一条 3 分钟的视频需要拼几十段。这不是创作者的效率工具,更像是一个快速出片的原型机。

规格Veo 3.1(Vids 内)
单次时长8 秒
分辨率720p
音频Lyria 3 自动配乐 + 音效
生成速度约 30-60 秒/片段
角色一致性动态场景下稳定
虚拟人物能力当前状态
面部表情自然,接近真人
肢体语言可用,微动作有僵硬感
产品互动支持握持/操作,精细动作有限
多语言配音支持英/法/德/意/韩/葡/西/日
风格选项写实 + 2D/3D 卡通

8 秒是当前视频生成模型的技术天花板,不是 Google 一家的限制。Sora 早期也是 5-10 秒级别。从”能不能生成”到”生成多长”,需要的是架构级别的突破。

竞品对比

维度Google VidsSynthesiaHeyGenD-IDLemon Slice
定位生态型 AI 视频平台企业级虚拟人物视频消费级虚拟人物视频照片转视频短内容创作
虚拟人物写实 + 卡通写实为主2D → 3D 过渡照片驱动有限
提示词导演
视频生成Veo 3.1自研自研Stable Video第三方
音乐生成Lyria 3
生态整合Gmail/Docs/Drive/YouTube独立平台独立平台独立平台独立平台
估值/规模Google 子产品21 亿美元(2025)增长迅猛中等小而美
月费起步$19.99(AI Pro)$29$24$5.9免费

Google 的优势不在技术上比别人强多少,而在于生态 — 20 亿 Gmail 用户,YouTube 是全球第二大搜索引擎。脚本在 Docs 里写,素材在 Drive 里存,视频在 Vids 里剪,成品一键推到 YouTube。

全家桶的威力:Synthesia 和 HeyGen 也许在单点上做得更好,但它们没有 20 亿用户的邮箱,也没有全球第二大视频平台。

定价与可用性

方案价格包含功能
消费者免费版$0基础编辑,不含 AI 功能
Google AI Pro$19.99/月虚拟人物 + Veo 生成(额度待公布)
Google AI Ultra更高Veo 3.1 最多 1000 次/月
Workspace AI Ultra企业定价全功能 + 团队协作

免费版几乎没用 — 不含 AI 功能,跟 iMovie 没有本质区别。想用虚拟人物和 Veo,必须订阅。Google AI Pro 月费 $19.99,比 Synthesia($29)和 HeyGen($24)便宜,但对普通创作者来说不便宜。

问题现状
虚拟人物恐怖谷微表情、肢体语言与真人有差距,产品演示够用,“有人味”的内容还早
8 秒视频天花板做 3 分钟视频需拼几十段,更像是快速出片原型机
免费版价值不含 AI 功能,与 iMovie 无本质差异
版权和伦理AI 生成”演员”的形象版权归谁?视频中品牌谁授权?Google 未明确说明

行业影响

提示词导演消费级化。 从 Synthesia 的企业级虚拟人物到 Vids 的”打字就行”,AI 视频制作的门槛正在从”需要专业软件”降到”会打字就行”。这和当年 iMovie 让视频剪辑从专业走向大众的逻辑一样 — 不是功能更强,而是门槛更低。

生态闭环即护城河。 Vids 的单个功能没有不可替代性,但 Docs → Vids → YouTube 的闭环有。当你的脚本、素材、剪辑、发布全在 Google 体系内完成,迁移成本就变成了护城河。这不是技术胜利,是入口胜利。

AI 虚拟人物的伦理空白。 用 AI 生成”演员”来表演,形象权、肖像权、版权全部悬而未决。Google 未明确说明,竞品也未解决。当 AI 虚拟人物越来越逼真,这个空白会从”法律问题”升级为”社会问题”。

Google Vids 的未来不取决于虚拟人物有多逼真,而取决于 20 亿用户愿不愿意用它来拍片 — 以及法律是否允许它这样拍。