← 返回
fastvideo
短视频自动合成的工程探索。
为什么做
短视频内容生产是高频但重复劳动密集的环节:素材剪辑、字幕、配音、卡点。各家工具都在做,但大多停留在「模板填充」层。我想看看如果把整个 pipeline 做成可编程的,能不能让一个普通人一天产出几十条质量稳定的视频。
怎么实现
- FFmpeg 是地基,所有合成动作最终落到 ffmpeg 命令
- 上层包一层 TypeScript DSL,把「转场 / 卡点 / 画中画」描述成结构化数据
- Whisper 跑 ASR 拿到时间戳,自动生成字幕和卡点
- 探索用 LLM 把文字脚本直接编译成 DSL,跳过手工剪辑
学到了什么
视频合成的瓶颈不在算力,在「素材的语义化」。一段没有任何标签的素材,AI 不知道什么时候该用它。把素材入库时做好标签,比算法本身重要。
也意味着 fastvideo 真正的护城河可能是素材库,不是合成引擎。