fastvideo

短视频自动合成的工程探索。

2026 原型 FFmpeg · Whisper · TypeScript

为什么做

短视频内容生产是高频但重复劳动密集的环节：素材剪辑、字幕、配音、卡点。各家工具都在做，但大多停留在「模板填充」层。我想看看如果把整个 pipeline 做成可编程的，能不能让一个普通人一天产出几十条质量稳定的视频。

怎么实现

FFmpeg 是地基，所有合成动作最终落到 ffmpeg 命令
上层包一层 TypeScript DSL，把「转场 / 卡点 / 画中画」描述成结构化数据
Whisper 跑 ASR 拿到时间戳，自动生成字幕和卡点
探索用 LLM 把文字脚本直接编译成 DSL，跳过手工剪辑

学到了什么

视频合成的瓶颈不在算力，在「素材的语义化」。一段没有任何标签的素材，AI 不知道什么时候该用它。把素材入库时做好标签，比算法本身重要。

也意味着 fastvideo 真正的护城河可能是素材库，不是合成引擎。