AI Baby Dance Generator

图生视频 Prompt 调研笔记

这份笔记总结了市面上主流图生视频（Image-to-Video / I2V）工具的提示词共性，并给出在本仓库“照片变舞蹈”场景下更易落地的 prompt 结构。

市场共性（高层规律）

图决定主体与构图：输入图通常已经锁定了“人是谁、在什么位置、画面构图是什么”。提示词更应该写动作/运动/镜头，而不是重复描述静态外观。
写“时间维度的变化”：比起“这个人长什么样”，更有效的是“从静止到开始跳舞、手脚怎么动、节奏与力度、镜头是否推拉”等。
许多平台支持 negative prompt（负向提示词），用于减少常见瑕疵：脸部/手部扭曲、肢体多/少、闪烁、抖动、文字水印等。

Veo（通过 Replicate）建议暴露的参数

prompt
image（图生视频：以该图作为起始画面）或 reference_images（参考生视频：用 1-3 张图保持主体一致性）
negative_prompt
duration（秒）
aspect_ratio
resolution

“照片变舞蹈”推荐 prompt 结构

尽量短、以动作为中心：

动作：照片里的宝宝开始跳舞（原地/小范围移动）
舞蹈风格：街舞/可爱扭动/热门舞蹈/温柔摇摆…
约束：保持人脸身份与服装一致、背景稳定、动作自然顺滑
镜头：固定机位中景（或轻微推进）

介绍

Previous Page

On this page

市场共性（高层规律）

Veo（通过 Replicate）建议暴露的参数

“照片变舞蹈”推荐 prompt 结构