AI 视频生成器

用 AI 创造引人入胜的视频

生成音频
截止目前您已消耗积分:0

核心功能

图生视频

让您的静态图片动起来,生成流畅自然的动态视频。

文生视频

直接通过文字提示生成具有完整场景理解能力的视频。

原生 AI 音频

部分模型可自动生成同步音频,无需后期音效制作。

多模态参考生成

Seedance 2.0 和 Kling O3 支持图片、视频、音频组合参考,生成视觉和动作控制更强的新视频。

支持的视频模型

六款顶级模型覆盖所有使用场景——从快速社交短片到 4K 电影级制作。

Seedance 2.0

字节跳动最新一代模型。原生多镜头角色一致性、原生音频,最长支持 15 秒,专为叙事性短视频内容而生。

支持仿真人参考生成(即 AI 生成的真人图作为参考图)

时长
4 – 15 秒
分辨率
480p / 720p
宽高比
6 种
音频
原生
参考输入
图片 / 视频 / 音频

Seedance 参考素材限制

  • 单张图片大小不能超过 30M。
  • 图片宽和高都必须在 300 ~ 6000 px 之间。
  • 所有参考图、参考视频、参考音频加起来不能超过 64M。
  • 添加参考音频时,必须至少添加一张参考图。
  • Prompt 中文不能超过 500 字,英文不能超过 1000 个单词。
  • Aspect ratio 宽高比必须在 0.4 ~ 2.5 之间。
字节跳动最长 15 秒480p / 720p原生音频全能参考

Seedance 2.0 Fast

字节跳动速度优化版 Seedance 模型。拥有 Seedance 2.0 的全部核心能力——音频、角色一致性、长时长——以更快的速度和更低的成本完成生成。

支持仿真人参考生成(即 AI 生成的真人图作为参考图)

时长
4 – 15 秒
分辨率
480p / 720p
宽高比
6 种
音频
原生

Seedance 参考素材限制

  • 单张图片大小不能超过 30M。
  • 图片宽和高都必须在 300 ~ 6000 px 之间。
  • 所有参考图、参考视频、参考音频加起来不能超过 64M。
  • 添加参考音频时,必须至少添加一张参考图。
  • Prompt 中文不能超过 500 字,英文不能超过 1000 个单词。
  • Aspect ratio 宽高比必须在 0.4 ~ 2.5 之间。
字节跳动极速生成最长 15 秒原生音频
全能

Kling O3

快手旗舰全能模型。支持在单次提示中同时使用图片、视频片段和音频作为参考,实现高度可控的多模态视频生成。

时长
3 – 15 秒
分辨率
720p / 1080p
宽高比
3 种
参考输入
图片 / 视频 / 音频

Kling O3 参考素材限制

  • 提示词不得超过 2,500 个字符。
  • 参考图:仅支持 .jpg / .jpeg / .png;文件大小 ≤10 MB;最小边长 300 px;宽高比 1:2.5 ~ 2.5:1。
  • 不添加参考视频时最多 7 张参考图,添加参考视频时最多 3 张。
  • 参考视频:仅支持 MP4 / MOV;时长 ≥3 秒;分辨率 720–2160 px;帧率 24–60 fps(输出为 24 fps)。
  • 最多添加 1 个参考视频,大小 ≤200 MB。
多模态3–15 秒720p / 1080p全能参考

Kling V3

快手旗舰视频模型。支持丰富宽高比、流畅动作和可选音频生成,是通用视频创作的首选。

时长
3 – 15 秒
分辨率
720p / 1080p
宽高比
8 种
音频
可选

Kling V3 参考素材限制

  • 提示词不得超过 2,500 个字符。
  • 参考图(必填):仅支持 .jpg / .jpeg / .png;文件大小 ≤10 MB;最小边长 300 px;宽高比 1:2.5 ~ 2.5:1。
通用型3–15 秒720p / 1080p支持音频
4K

Veo 3.1 标准版

Google DeepMind 旗舰视频模型。原生音频生成,最高 4K 分辨率,出色的提示词跟随能力,适合高端影视制作。

时长
5 – 10 秒
分辨率
720p / 1080p / 4K
宽高比
8 种
音频
原生
Google DeepMind最高 4K原生音频电影级画质

Veo 3.1 极速版

Veo 3.1 的速度优化版本。同样支持 4K 和原生音频,生成速度显著更快,适合时间敏感的创作场景。

时长
5 – 10 秒
分辨率
720p / 1080p / 4K
宽高比
8 种
音频
原生
Google DeepMind极速生成最高 4K原生音频

如何使用

1

输入源

上传参考图片或输入文字提示词。

2

配置

选择模型、时长、分辨率和音频选项。

3

生成

创建视频并下载结果。

常见问题

Seedance 2 是什么?

Seedance 2 是字节跳动推出的下一代 AI 视频模型,具备强提示词跟随能力、原生多镜头叙事连贯性和最高 1080p 的快速视频生成,专为文生视频和图生视频工作流而打造。

Seedance 2 有什么优势?

Seedance 2 具备原生音频生成、强大的多镜头角色一致性和高质量 1080p 输出,非常适合叙事性短视频和广告内容创作。

应该用文生视频还是图生视频?

想从零构建场景时用文生视频,拥有完整的创意控制;如果已有参考图或角色设定图,并希望动作与视觉保持一致,则选择图生视频。

Seedance 2 适合做广告和短视频吗?

非常适合。5–12 秒的输出时长完美匹配最常见的广告和社交平台规格,原生音频意味着视频生成后无需额外音效设计即可直接测试投放。

有什么简单好用的提示词结构?

以主体和动作开头,然后补充环境和氛围。例如:‘一个年轻女性在霓虹闪烁的东京小巷中奔跑,雨夜,电影感慢动作。’尽量具体,同时为模型留出诠释氛围的空间。

Seedance 2 视频应该多长?

用于社交和广告内容时,5–8 秒是最佳区间——足够传递一个清晰的故事节拍,又短到足以抓住注意力。需要完整的微型三幕式故事时,可以用 10–12 秒。

如何让系列视频的输出保持一致?

在每个角色或场景上复用相同的核心提示词结构和锚定描述,并固定画面比例和分辨率。只要主体描述保持一致,动作或运镜方向的细微变化仍会让整体感觉统一连贯。

写提示词时应该避免什么?

避免在一个提示词里堆砌过多不相关的主体或相互矛盾的风格。「史诗感」「唯美」之类的模糊修饰词作用有限,不如用具体的视觉线索来替代,例如光线风格、镜头角度或运镜方式。

Seedance 2 能替代视频剪辑吗?

对于短视频来说,它能大幅减少剪辑工作量。但将多个片段拼接成较长的成片、添加字幕或同步自定义音频,在生成之后仍然需要一个专门的剪辑步骤。

对第一次生成应该有怎样的合理预期?

把第一次生成当作草稿。目标是获得清晰的故事节拍和流畅的动作,然后每次只调整一个细节,逐步打磨到可以发布。每次给出聚焦的修改意见,比整体重写提示词进步更快。