图生视频 Prompt 调研笔记

这份笔记总结了市面上主流图生视频(Image-to-Video / I2V)工具的提示词共性,并给出在本仓库“照片变舞蹈”场景下更易落地的 prompt 结构。

市场共性(高层规律)

  • 图决定主体与构图:输入图通常已经锁定了“人是谁、在什么位置、画面构图是什么”。提示词更应该写动作/运动/镜头,而不是重复描述静态外观。
  • 写“时间维度的变化”:比起“这个人长什么样”,更有效的是“从静止到开始跳舞、手脚怎么动、节奏与力度、镜头是否推拉”等。
  • 许多平台支持 negative prompt(负向提示词),用于减少常见瑕疵:脸部/手部扭曲、肢体多/少、闪烁、抖动、文字水印等。

Veo(通过 Replicate)建议暴露的参数

  • prompt
  • image(图生视频:以该图作为起始画面)或 reference_images(参考生视频:用 1-3 张图保持主体一致性)
  • negative_prompt
  • duration(秒)
  • aspect_ratio
  • resolution

“照片变舞蹈”推荐 prompt 结构

尽量短、以动作为中心:

  • 动作:照片里的宝宝开始跳舞(原地/小范围移动)
  • 舞蹈风格:街舞/可爱扭动/热门舞蹈/温柔摇摆…
  • 约束:保持人脸身份与服装一致、背景稳定、动作自然顺滑
  • 镜头:固定机位中景(或轻微推进)