图生视频 Prompt 调研笔记
这份笔记总结了市面上主流图生视频(Image-to-Video / I2V)工具的提示词共性,并给出在本仓库“照片变舞蹈”场景下更易落地的 prompt 结构。
市场共性(高层规律)
- 图决定主体与构图:输入图通常已经锁定了“人是谁、在什么位置、画面构图是什么”。提示词更应该写动作/运动/镜头,而不是重复描述静态外观。
- 写“时间维度的变化”:比起“这个人长什么样”,更有效的是“从静止到开始跳舞、手脚怎么动、节奏与力度、镜头是否推拉”等。
- 许多平台支持 negative prompt(负向提示词),用于减少常见瑕疵:脸部/手部扭曲、肢体多/少、闪烁、抖动、文字水印等。
Veo(通过 Replicate)建议暴露的参数
promptimage(图生视频:以该图作为起始画面)或reference_images(参考生视频:用 1-3 张图保持主体一致性)negative_promptduration(秒)aspect_ratioresolution
“照片变舞蹈”推荐 prompt 结构
尽量短、以动作为中心:
- 动作:照片里的宝宝开始跳舞(原地/小范围移动)
- 舞蹈风格:街舞/可爱扭动/热门舞蹈/温柔摇摆…
- 约束:保持人脸身份与服装一致、背景稳定、动作自然顺滑
- 镜头:固定机位中景(或轻微推进)