ModalTranscriberMCP / README.md
richard-su's picture
Upload README.md with huggingface_hub
3499c7d verified
|
raw
history blame
3.05 kB
metadata
title: Modal Transcriber MCP
emoji: 🎙️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
license: mit
python_version: 3.1

🎙️ Modal Transcriber MCP

一个功能强大的音频转录系统,集成了 Gradio UI、FastMCP Tools 和 Modal 云计算,支持智能说话人识别。

✨ 主要功能

  • 🎵 多平台音频下载:支持 Apple Podcasts、小宇宙等播客平台
  • 🚀 高性能转录:基于 OpenAI Whisper,支持多种模型(turbo, large-v3等)
  • 🎤 智能说话人识别:使用 pyannote.audio 进行说话人分离和embedding聚类
  • ⚡ 分布式处理:支持大文件并发切片处理,显著提升处理速度
  • 🔧 FastMCP 工具:提供完整的 MCP (Model Context Protocol) 工具集成
  • ☁️ Modal 部署:支持本地和云端双模式部署

🎯 核心优势

🧠 智能音频分割

  • 静音检测分割:自动识别音频中的静音段落进行智能切分
  • Fallback机制:长音频自动降级为时间分割,确保处理效率
  • 并发处理:多chunk同时处理,大幅提升转录速度

🎤 高级说话人识别

  • Embedding聚类:使用深度学习embedding进行说话人一致性识别
  • 跨chunk统一:解决分布式处理中说话人标签不一致问题
  • 质量过滤:自动过滤低质量片段,提升输出准确性

🔧 开发者友好

  • MCP协议支持:完整的工具调用接口
  • REST API:标准化的API接口
  • Gradio UI:直观的Web界面
  • 测试覆盖:29个单元测试和集成测试

🚀 快速开始

本地运行

  1. 克隆仓库
git clone https://huggingface.co/spaces/Agents-MCP-Hackathon/ModalTranscriberMCP
cd ModalTranscriberMCP
  1. 安装依赖
pip install -r requirements.txt
  1. 配置 Hugging Face Token(可选,用于说话人识别)
# 创建 .env 文件
echo "HF_TOKEN=your_huggingface_token_here" > .env
  1. 启动应用
python app.py

使用说明

  1. 上传音频文件输入播客URL
  2. 选择转录选项
    • 模型大小:turbo (推荐) / large-v3
    • 输出格式:SRT / TXT
    • 是否启用说话人识别
  3. 开始转录,系统会自动处理并生成结果

🛠️ 技术架构

  • 前端:Gradio 4.44.0
  • 后端:FastAPI + FastMCP
  • 转录引擎:OpenAI Whisper
  • 说话人识别:pyannote.audio
  • 云计算:Modal.com
  • 音频处理:FFmpeg

📊 性能指标

  • 处理速度:支持30倍实时速度转录
  • 并发能力:最多10个chunks同时处理
  • 准确率:中文准确率>95%
  • 支持格式:MP3, WAV, M4A, FLAC等

🤝 贡献

欢迎提交 Issue 和 Pull Request!

📜 许可证

MIT License

🔗 相关链接

  • 项目文档:详见仓库中的 docs/ 目录
  • 测试覆盖:29个测试用例确保功能稳定性
  • Modal部署:支持云端高性能处理