AI 视频生成器

用 AI 创造引人入胜的视频

AI 图像 AI 视频

生成音频

截止目前您已消耗积分：0

核心功能

图生视频

让您的静态图片动起来，生成流畅自然的动态视频。

文生视频

直接通过文字提示生成具有完整场景理解能力的视频。

原生 AI 音频

部分模型可自动生成同步音频，无需后期音效制作。

多模态参考生成

Seedance 2.0 和 Kling O3 支持图片、视频、音频组合参考，生成视觉和动作控制更强的新视频。

支持的视频模型

六款顶级模型覆盖所有使用场景——从快速社交短片到 4K 电影级制作。

Seedance 2.0

字节跳动最新一代模型。原生多镜头角色一致性、原生音频，最长支持 15 秒，专为叙事性短视频内容而生。

支持仿真人参考生成（即 AI 生成的真人图作为参考图）

时长: 4 – 15 秒
分辨率: 480p / 720p
宽高比: 6 种
音频: 原生
参考输入: 图片 / 视频 / 音频

Seedance 参考素材限制

单张图片大小不能超过 30M。
图片宽和高都必须在 300 ~ 6000 px 之间。
所有参考图、参考视频、参考音频加起来不能超过 64M。
添加参考音频时，必须至少添加一张参考图。
Prompt 中文不能超过 500 字，英文不能超过 1000 个单词。
Aspect ratio 宽高比必须在 0.4 ~ 2.5 之间。

字节跳动最长 15 秒480p / 720p原生音频全能参考

Seedance 2.0 Fast

字节跳动速度优化版 Seedance 模型。拥有 Seedance 2.0 的全部核心能力——音频、角色一致性、长时长——以更快的速度和更低的成本完成生成。

支持仿真人参考生成（即 AI 生成的真人图作为参考图）

时长: 4 – 15 秒
分辨率: 480p / 720p
宽高比: 6 种
音频: 原生

Seedance 参考素材限制

单张图片大小不能超过 30M。
图片宽和高都必须在 300 ~ 6000 px 之间。
所有参考图、参考视频、参考音频加起来不能超过 64M。
添加参考音频时，必须至少添加一张参考图。
Prompt 中文不能超过 500 字，英文不能超过 1000 个单词。
Aspect ratio 宽高比必须在 0.4 ~ 2.5 之间。

字节跳动极速生成最长 15 秒原生音频

全能

Kling O3

快手旗舰全能模型。支持在单次提示中同时使用图片、视频片段和音频作为参考，实现高度可控的多模态视频生成。

时长: 3 – 15 秒
分辨率: 720p / 1080p
宽高比: 3 种
参考输入: 图片 / 视频 / 音频

Kling O3 参考素材限制

提示词不得超过 2,500 个字符。
参考图：仅支持 .jpg / .jpeg / .png；文件大小 ≤10 MB；最小边长 300 px；宽高比 1:2.5 ~ 2.5:1。
不添加参考视频时最多 7 张参考图，添加参考视频时最多 3 张。
参考视频：仅支持 MP4 / MOV；时长 ≥3 秒；分辨率 720–2160 px；帧率 24–60 fps（输出为 24 fps）。
最多添加 1 个参考视频，大小 ≤200 MB。

多模态3–15 秒720p / 1080p全能参考

Kling V3

快手旗舰视频模型。支持丰富宽高比、流畅动作和可选音频生成，是通用视频创作的首选。

时长: 3 – 15 秒
分辨率: 720p / 1080p
宽高比: 8 种
音频: 可选

Kling V3 参考素材限制

提示词不得超过 2,500 个字符。
参考图（必填）：仅支持 .jpg / .jpeg / .png；文件大小 ≤10 MB；最小边长 300 px；宽高比 1:2.5 ~ 2.5:1。

通用型3–15 秒720p / 1080p支持音频

Veo 3.1 标准版

Google DeepMind 旗舰视频模型。原生音频生成，最高 4K 分辨率，出色的提示词跟随能力，适合高端影视制作。

时长: 5 – 10 秒
分辨率: 720p / 1080p / 4K
宽高比: 8 种
音频: 原生

Google DeepMind最高 4K原生音频电影级画质

Veo 3.1 极速版

Veo 3.1 的速度优化版本。同样支持 4K 和原生音频，生成速度显著更快，适合时间敏感的创作场景。

时长: 5 – 10 秒
分辨率: 720p / 1080p / 4K
宽高比: 8 种
音频: 原生

Google DeepMind极速生成最高 4K原生音频

如何使用

输入源

上传参考图片或输入文字提示词。

配置

选择模型、时长、分辨率和音频选项。

生成

创建视频并下载结果。

常见问题

Seedance 2 是什么？

Seedance 2 是字节跳动推出的下一代 AI 视频模型，具备强提示词跟随能力、原生多镜头叙事连贯性和最高 1080p 的快速视频生成，专为文生视频和图生视频工作流而打造。

Seedance 2 有什么优势？

Seedance 2 具备原生音频生成、强大的多镜头角色一致性和高质量 1080p 输出，非常适合叙事性短视频和广告内容创作。

应该用文生视频还是图生视频？

想从零构建场景时用文生视频，拥有完整的创意控制；如果已有参考图或角色设定图，并希望动作与视觉保持一致，则选择图生视频。

Seedance 2 适合做广告和短视频吗？

非常适合。5–12 秒的输出时长完美匹配最常见的广告和社交平台规格，原生音频意味着视频生成后无需额外音效设计即可直接测试投放。

有什么简单好用的提示词结构？

以主体和动作开头，然后补充环境和氛围。例如：‘一个年轻女性在霓虹闪烁的东京小巷中奔跑，雨夜，电影感慢动作。’尽量具体，同时为模型留出诠释氛围的空间。

Seedance 2 视频应该多长？

用于社交和广告内容时，5–8 秒是最佳区间——足够传递一个清晰的故事节拍，又短到足以抓住注意力。需要完整的微型三幕式故事时，可以用 10–12 秒。

如何让系列视频的输出保持一致？

在每个角色或场景上复用相同的核心提示词结构和锚定描述，并固定画面比例和分辨率。只要主体描述保持一致，动作或运镜方向的细微变化仍会让整体感觉统一连贯。

写提示词时应该避免什么？

避免在一个提示词里堆砌过多不相关的主体或相互矛盾的风格。「史诗感」「唯美」之类的模糊修饰词作用有限，不如用具体的视觉线索来替代，例如光线风格、镜头角度或运镜方式。

Seedance 2 能替代视频剪辑吗？

对于短视频来说，它能大幅减少剪辑工作量。但将多个片段拼接成较长的成片、添加字幕或同步自定义音频，在生成之后仍然需要一个专门的剪辑步骤。

对第一次生成应该有怎样的合理预期？

把第一次生成当作草稿。目标是获得清晰的故事节拍和流畅的动作，然后每次只调整一个细节，逐步打磨到可以发布。每次给出聚焦的修改意见，比整体重写提示词进步更快。