← 返回

fastvideo

短视频自动合成的工程探索。


2026 原型 FFmpeg · Whisper · TypeScript

为什么做

短视频内容生产是高频但重复劳动密集的环节:素材剪辑、字幕、配音、卡点。各家工具都在做,但大多停留在「模板填充」层。我想看看如果把整个 pipeline 做成可编程的,能不能让一个普通人一天产出几十条质量稳定的视频。

怎么实现

  • FFmpeg 是地基,所有合成动作最终落到 ffmpeg 命令
  • 上层包一层 TypeScript DSL,把「转场 / 卡点 / 画中画」描述成结构化数据
  • Whisper 跑 ASR 拿到时间戳,自动生成字幕和卡点
  • 探索用 LLM 把文字脚本直接编译成 DSL,跳过手工剪辑

学到了什么

视频合成的瓶颈不在算力,在「素材的语义化」。一段没有任何标签的素材,AI 不知道什么时候该用它。把素材入库时做好标签,比算法本身重要。

也意味着 fastvideo 真正的护城河可能是素材库,不是合成引擎。