DocSummarizer_Jimmy / README.md
Jimmy0866's picture
Upload 4 files
edb74d5 verified
|
raw
history blame
1.85 kB

Document Summarization Web App

本專案是一個基於 Gradio 的文件摘要工具,支援 .txt, .md, 及 .pdf 檔案上傳與處理,具備以下特色:

🧠 功能特色

  • ⌨️ 純文字摘要模式:適用 .txt.md,自動斷詞並進行摘要
  • 🖼️ **OCR 模式 (自動切換)**:針對 .pdf 檔案使用 OCR 模型(Doctr)讀取文字後進行摘要
  • 📑 多模型支援:支援多種 long document summarization 模型
  • ⚙️ 可調參數:支援 beam search, token batch size, repetition penalty 等參數設定
  • 📤 可上傳/選擇內建範例進行摘要
  • 📄 下載摘要結果:可將摘要輸出下載為文字檔

📁 使用方式

安裝依賴套件

pip install -r requirements.txt

執行應用程式

python app.py

Command line 參數說明

參數 說明
--share 建立可分享的 public 網址
--model 加入自訂模型名稱
--add_beam_option 新增 beam 選項
--token_batch_option 新增 token batch 大小
--log_level 設定日誌等級(DEBUG/INFO/WARNING/ERROR)

📂 範例資料夾說明

  • .txt.md.pdf 範例檔案放置於 examples/ 資料夾內
  • 啟動時自動讀取資料夾內檔案並於 UI 中顯示範例選項

✅ 支援語系

  • 中文(含繁體)與英文文件皆可摘要
  • 建議使用 OCR 模式處理掃描型 PDF

📌 備註

  • OCR 模式預設最大讀取 20 頁(可透過環境變數 APP_OCR_MAX_PAGES 設定)
  • OCR 使用的模型為 doctr,預設配置為 "db_resnet50" + "crnn_mobilenet_v3_large"

本專案修改自 pszemraj/document-summarization,加入多種中文處理優化與 UI 強化功能。