Spaces:
Sleeping
Sleeping
Document Summarization Web App
本專案是一個基於 Gradio 的文件摘要工具,支援 .txt, .md, 及 .pdf 檔案上傳與處理,具備以下特色:
🧠 功能特色
- ⌨️ 純文字摘要模式:適用
.txt或.md,自動斷詞並進行摘要 - 🖼️ **OCR 模式 (自動切換)**:針對
.pdf檔案使用 OCR 模型(Doctr)讀取文字後進行摘要 - 📑 多模型支援:支援多種 long document summarization 模型
- ⚙️ 可調參數:支援 beam search, token batch size, repetition penalty 等參數設定
- 📤 可上傳/選擇內建範例進行摘要
- 📄 下載摘要結果:可將摘要輸出下載為文字檔
📁 使用方式
安裝依賴套件
pip install -r requirements.txt
執行應用程式
python app.py
Command line 參數說明
| 參數 | 說明 |
|---|---|
--share |
建立可分享的 public 網址 |
--model |
加入自訂模型名稱 |
--add_beam_option |
新增 beam 選項 |
--token_batch_option |
新增 token batch 大小 |
--log_level |
設定日誌等級(DEBUG/INFO/WARNING/ERROR) |
📂 範例資料夾說明
- 將
.txt、.md、.pdf範例檔案放置於examples/資料夾內 - 啟動時自動讀取資料夾內檔案並於 UI 中顯示範例選項
✅ 支援語系
- 中文(含繁體)與英文文件皆可摘要
- 建議使用 OCR 模式處理掃描型 PDF
📌 備註
- OCR 模式預設最大讀取 20 頁(可透過環境變數
APP_OCR_MAX_PAGES設定) - OCR 使用的模型為
doctr,預設配置為"db_resnet50" + "crnn_mobilenet_v3_large"
本專案修改自 pszemraj/document-summarization,加入多種中文處理優化與 UI 強化功能。