CutClaw – 湾大联合北交大开源的 AI 视频剪辑工具

AI项目 2026-04-09

CutClaw是什么

CutClaw是大湾区大学GVC实验室与北交大团队开源的AI视频剪辑工具。工具采用多智能体架构,通过”音乐驱动”方式将几小时长视频自动剪辑成节奏精准的短片。系统先解析音乐节拍与结构,再结合用户文字指令,由AI编剧规划镜头、剪辑师选取片段、审阅者质检,最终渲染出适配多平台的电影感视频。CutClaw支持一键素材解构与缓存复用,适合旅拍、营销等场景。

CutClaw

CutClaw的主要功能

  • 音乐驱动剪辑:分析音乐节拍、重拍、能量曲线,将视觉叙事严格对齐音乐结构,实现真正的音画同步。
  • 多智能体协作:模拟专业后期流程:AI 编剧(规划故事节奏与镜头)、AI 剪辑师(选取片段时点)、AI 审阅者(质检镜头长度与美学),形成闭环优化。
  • 指令化控制:仅需一句文字描述(如”展现主角的疯狂”),系统自动理解风格并执行,无需手动拉时间轴。
  • 智能素材解构:一键将数小时长视频拆解为结构化镜头库,标注摄影手法、人物情绪、叙事节点;音频提取节拍与能量特征,转为可搜索资产。
  • 内容感知裁剪:自动识别画面核心主体,智能调整画面比例(9:16、16:9 等),适配抖音、小红书等多平台发布需求。
  • 缓存加速:首次处理后缓存解构结果,后续同素材再剪辑时直接复用,大幅提升效率。

如何使用CutClaw

  • 安装环境:从 GitHub 克隆代码仓库后,创建 Python 3.12 虚拟环境并安装项目依赖。
  • 准备素材:在 resource/ 目录下分别放入视频、音频文件,可选放入字幕文件跳过语音识别。
  • 启动运行:执行 streamlit run app.py 启动可视化界面,或用命令行传入文件路径和指令参数直接运行。
  • 配置模型:在配置文件中设置 LiteLLM 支持的 API 密钥,分别指定视频理解、音频解析和智能体推理所用的大模型。
  • 获取成片:等待系统自动完成素材解构、镜头规划与剪辑渲染,下载适配各平台的多种比例视频文件。

CutClaw的关键信息和使用要求

  • 项目背景:大湾区大学 GVC 实验室与北京交通大学联合开源的 AI 视频剪辑系统,基于多智能体架构实现音乐驱动的长视频自动剪辑。
  • 核心机制:采用”编剧-剪辑师-审阅者”多智能体流水线,解构素材生成结构化字幕,依据音乐节拍(重拍/能量/音高)规划镜头,最终渲染成节奏精准的电影感短片。
  • 技术依赖:通过 LiteLLM 网关调用大模型 API,视频理解推荐 Gemini-3/Qwen3.5,音频解析推荐 Gemini-3,智能体推理推荐 MiniMax-2.7/Kimi-2.5。
  • 环境配置:Python 3.12、Conda 环境、强烈建议 GPU(CUDA)加速视频编解码。
  • 文件准备:需将视频(.mp4/.mkv)和音频(.mp3/.wav)放入 resource/ 目录,可选 .srt 字幕跳过 ASR 节省时间和 API 费用。
  • API 配置:必须配置各模型提供商的 API 密钥(OpenAI、Google、Moonshot 等),通过环境变量或配置文件设置。
  • 运行方式:支持 Streamlit 可视化界面(streamlit run app.py,访问 localhost:8501)或 CLI 命令行(python local_run.py 传入路径和指令参数)。

CutClaw的核心优势

  • 真·音乐驱动剪辑 区别于”先剪视频再配BGM”的传统工具,CutClaw 先深度解析音乐节拍、重拍与能量曲线,让剪辑决策完全由音乐结构驱动,实现真正的音画合一。
  • 专业级多智能体协作 模拟影视后期全流程:AI 编剧规划叙事节奏,AI 剪辑师选取精准片段时间点,AI 审阅者质检(镜头长度、主角占比、美学评分),形成自我修正的闭环,而非单次生成。
  • 长视频端到端处理 专为”几小时素材剪成几分钟短片”场景优化,一键解构海量素材为结构化可搜索资产,配合缓存机制实现”首剪慢、复剪快”的高效工作流。
  • 零门槛指令控制 无需专业知识,一句自然语言描述(如”展现小丑的疯狂与优雅”)即可驱动风格化剪辑,自动理解情绪、节奏与视觉偏好。
  • 平台原生适配 内容感知智能裁剪自动识别画面主体,一键生成 9:16(抖音)、16:9(B站)、1:1(小红书)等多比例版本,告别黑边与画面裁切失误。

CutClaw的项目地址

  • GitHub仓库:https://github.com/GVCLab/CutClaw
  • arXiv技术论文:https://arxiv.org/pdf/2603.29664

CutClaw的同类竞品对比

对比维度 CutClaw OpusClip Mora
核心定位 长视频电影感剪辑,音乐驱动叙事 长视频转短视频,病毒式片段提取 视频生成,多智能体场景协调
音乐同步方式 先解析音乐结构(节拍/能量/主副歌),再驱动视觉剪辑决策 支持音乐节拍对齐,侧重内容高光提取后配乐 侧重画面一致性,音乐同步非核心功能
长视频支持 数小时级(Hours-long)端到端处理 支持(播客/直播回放转短视频) 支持长序列生成
架构特点 多智能体闭环(编剧+剪辑师+审阅者协作) 单模型算法推荐 多智能体(与CutClaw架构相似)
开源性
控制方式 自然语言指令控制风格 自动提取+手动调整片段 文本提示控制生成
适用场景 旅拍/Vlog电影感制作、影视二创 社交媒体营销、直播切片 创意视频生成、虚拟场景构建

CutClaw的应用场景

  • 旅拍与 Vlog 制作:几小时的旅行素材配合背景音乐,快速生成节奏精准、踩点自然的电影感短片,大幅节省后期时间。
  • 影视二创与混剪:基于特定音乐节奏重新剪辑电影或剧集片段,自动生成角色向、情感向或剧情向的混剪视频。
  • 营销内容批量生产:根据同一批素材和不同音乐风格,快速生成多版本宣传片,适配品牌在不同平台的投放需求。
  • 多平台短视频分发:自动裁剪生成 9:16(抖音/视频号)、16:9(B站)、1:1(小红书)等多种比例,一次制作全平台覆盖。
  • 音乐 MV 与节奏向内容:用音乐结构解析能力,将画面严格对齐音乐节拍,制作强节奏感的可视化音乐内容或舞蹈视频。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章