1. 入门先搞懂:图生视频到底适合做什么
图生视频,简单理解就是先准备一张静态图片,再让 AI 根据这张图片生成一段动态视频。它和纯文字生成视频不同,优势在于画面起点更明确:人物长什么样、场景是什么氛围、构图如何安排,都可以提前通过图片控制。对初学者来说,这比直接用文字生成视频更容易稳定出效果。
图生视频特别适合三类内容:第一是 AI漫剧制作,例如让角色眨眼、转头、说话、走动;第二是短视频分镜,把一张张分镜图变成动态镜头;第三是角色动态展示,比如展示虚拟人、IP 角色、游戏角色或商品海报。它不一定要一上来就做复杂大片,更适合从 3 秒到 6 秒的小镜头开始练习。
一个清晰的入门思路是:GPT Images 2 负责生成高质量图片,Seedance 2.0 负责让图片动起来。前者重点解决角色设计、场景设计、画面风格和分镜参考;后者重点解决人物动作、镜头运动、画面节奏和视频比例。只要先把这条工作流跑通,你就能开始做 AI视频和 AI漫剧片段。

2. 工具准备:GPT Images 2 + Seedance 2.0 工作流怎么搭
完整工作流可以分成四步:先用 GPT Images 2 生成角色定妆图,再生成场景图或分镜图,然后把选好的图片导入 Seedance 2.0,最后根据视频效果反复微调提示词和参数。初学者不要一开始就追求长视频,建议先做单镜头练习,例如一个角色在街角回头、一个人物坐在窗边抬头、一个战士在风中站立。
你需要准备的素材主要有三类:角色图、场景图、分镜图。角色图用于确定人物外观,比如发型、服装、年龄、气质;场景图用于确定环境,比如教室、街道、办公室、赛博城市;分镜图用于确定画面构图,比如近景、半身、中景、背影、俯拍。做 AI漫剧制作时,建议至少准备一张角色定妆图和 3 到 5 张不同镜头的分镜图。
基础参数方面,图片建议尽量清晰,角色主体不要太小,画面不要过度复杂。视频比例要根据发布平台选择:短视频常用 9:16,横版剧情或教程常用 16:9,方形展示可用 1:1。运动幅度初期建议选择低到中等,不要一开始就让人物大幅奔跑、转身或打斗,这样更容易保持角色一致性和画面稳定。

3. 第一步:用 GPT Images 2 生成可用于视频的高质量图片
在 AI生图阶段,最重要的是把图片当作视频的“首帧”来设计,而不是只追求一张好看的海报。适合图生视频的图片通常有几个特点:人物轮廓清楚、五官稳定、手部遮挡少、背景结构合理、主体和背景有足够分离度。如果人物被复杂光效、烟雾、碎片遮住,后续生成视频时更容易出现变形。
角色设定提示词可以按这个结构写:人物身份 + 年龄气质 + 发型服装 + 表情动作 + 镜头景别 + 风格。比如:“一位 18 岁的短发少女侦探,穿深蓝色制服外套,神情冷静,站在雨夜街道边,半身近景,电影感光影,日系漫剧风格,清晰五官,背景虚化”。如果是 AI漫剧角色,建议反复固定角色关键词,例如发色、服装颜色、标志性配饰和面部特征。
场景和分镜提示词要加入镜头语言。不要只写“一个女孩在街上”,可以写成“中景镜头,女孩站在霓虹街道中央,雨水反光,镜头略低角度,背景有模糊行人,电影级构图”。如果你要后续做视频,可以提前设计动作空间,例如让人物面向镜头、侧身站立、留出前进方向,这样导入 Seedance 2.0 后更容易生成自然运动。

4. 第二步:把图片导入 Seedance 2.0 做图生视频
进入 Seedance 2.0 后,选择图生视频功能,上传你在 GPT Images 2 中生成的图片。先确认视频比例是否和图片构图匹配:如果原图是竖版人物图,就优先选择 9:16;如果是横版场景镜头,就选择 16:9。不要强行把横版图做成竖版,否则人物可能被裁切,背景也可能出现拉伸或变形。
接下来设置运动幅度和视频提示词。初学者建议从小动作开始,例如“人物轻轻眨眼,微微转头,衣服和头发被风轻轻吹动,镜头缓慢推进,画面稳定”。如果想做剧情镜头,可以写得更具体:“少女侦探站在雨夜街边,缓慢抬头看向镜头,雨滴落下,霓虹灯闪烁,镜头轻微向前推进,电影感,动作自然”。
控制镜头运动时,要避免一次性加入太多动作。比如“镜头推进、人物转身、背景移动、手部挥动、头发飞舞”同时出现,模型容易顾不过来,导致人物变脸或画面抖动。建议一个镜头只设计一个主要动作和一个辅助运动,例如主要动作是“抬头”,辅助运动是“镜头缓慢推进”。这样生成结果更稳定,也更适合后期剪辑成 AI漫剧片段。
5. 第三步:优化画面稳定性、角色一致性和镜头效果
初学者最常遇到的问题是人物变脸。解决方法是:原图尽量使用正脸或清晰侧脸,提示词中重复关键外观信息,例如“保持同一位短发少女,深蓝制服,银色发夹,五官一致”。如果生成后脸部变化明显,可以降低动作幅度,减少“转身”“大幅表情变化”等指令,改成“轻微点头”“自然眨眼”“视线移动”。
画面抖动和背景变形通常来自两个原因:原图背景太复杂,或者视频提示词中的运动太激烈。优化时可以把提示词改成“画面稳定,背景保持一致,镜头缓慢移动,人物动作轻微自然”。如果是建筑、室内、街道这类场景,尽量避免让镜头大幅旋转或快速穿梭;如果必须做大运动,建议重新生成一张更适合运动方向的分镜图。
动作夸张和镜头不自然时,可以把抽象词换成具体动作。不要只写“激动地说话”,可以写“嘴唇轻微开合,眼神坚定,肩膀略微前倾”。不要只写“电影感运镜”,可以写“镜头缓慢向前推进,保持人物位于画面中央”。做 AI漫剧制作时,稳定比炫技更重要,先保证角色不崩、背景不炸、镜头看得懂,再考虑复杂动作。
6. 完整案例:从一张角色图到一段 AI漫剧片段
下面用一个简单案例串起来:我们要制作一段“少女侦探在雨夜发现线索”的 AI漫剧片段。第一步,在 GPT Images 2 里生成角色定妆图,提示词可以写:“18 岁短发少女侦探,深蓝制服外套,银色发夹,冷静表情,清晰五官,半身正面,日系漫剧风格,柔和电影光影,干净背景”。生成后选一张五官最稳定、服装特征最清楚的图作为角色参考。
第二步,继续用 GPT Images 2 生成分镜图。镜头一是少女站在雨夜街道,镜头二是她低头看地上的线索,镜头三是她抬头望向远处霓虹灯。每张图都保留相同角色关键词,例如“短发、深蓝制服、银色发夹、冷静气质”,同时加入不同镜头语言。这样做的目的,是让每个镜头既有变化,又尽量保持角色一致。
第三步,把每张分镜图分别导入 Seedance 2.0。镜头一提示词写:“少女站在雨夜街道,雨滴缓慢落下,头发和衣角轻微摆动,镜头缓慢推进,画面稳定”;镜头二写:“少女低头观察地面线索,眼神专注,镜头轻微下移,动作自然”;镜头三写:“少女缓慢抬头看向远处霓虹灯,表情变得坚定,背景灯光轻微闪烁”。生成后把 3 段视频按顺序剪在一起,就能得到一段基础 AI漫剧片段。
