Spaces:

Jimmy0866
/

DocSummarizer_Jimmy

Running

App Files Files Community

Jimmy0866 commited on Jul 13

Commit

edb74d5

verified ·

1 Parent(s): 71fadee

Upload 4 files

Browse files

Files changed (2) hide show

README.md +35 -31
requirements.txt +1 -1

README.md CHANGED Viewed

@@ -1,51 +1,55 @@
-# DocSummarizer
-本工具可將 PDF 文件自動擷取內容並摘要，支援兩種文字擷取模式：
-## ✅ 功能特色
-- 📄 支援 PDF 檔文字擷取
-- 🔍 可選「文字擷取」或「OCR 模式」
-- 🤖 利用 BART 模型進行摘要
-- 🌐 Gradio 介面操作簡便
----
-## 🧑‍💻 操作方式
-1. 啟動應用：
 ```bash
 python app.py
 ```
-2. 上傳 PDF 後選擇擷取模式：
-- `simple`：適用於文字可複製的 PDF
-- `ocr`：適用於圖片 PDF 或文字亂碼
-3. 查看並修改匯入文字後按下「Generate Summary」
----
-## 📦 依賴安裝
-```bash
-pip install -r requirements.txt
-sudo apt install tesseract-ocr tesseract-ocr-chi-tra poppler-utils
-```
----
-## 📁 檔案結構
-```
-├── app.py              # 主介面
-├── pdf2text.py         # PDF 文字擷取
-├── summarize.py        # 摘要產生邏輯
-├── requirements.txt
-├── examples/
-│   └── example1.txt
-```
 ---
-Jimmy 製作 ✨

+# Document Summarization Web App
+本專案是一個基於 Gradio 的文件摘要工具，支援 `.txt`, `.md`, 及 `.pdf` 檔案上傳與處理，具備以下特色：
+## 🧠 功能特色
+- ⌨️ **純文字摘要模式**：適用 `.txt` 或 `.md`，自動斷詞並進行摘要
+- 🖼️ **OCR 模式 (自動切換)**：針對 `.pdf` 檔案使用 OCR 模型（Doctr）讀取文字後進行摘要
+- 📑 **多模型支援**：支援多種 long document summarization 模型
+- ⚙️ **可調參數**：支援 beam search, token batch size, repetition penalty 等參數設定
+- 📤 **可上傳/選擇內建範例進行摘要**
+- 📄 **下載摘要結果**：可將摘要輸出下載為文字檔
+## 📁 使用方式
+### 安裝依賴套件
+```bash
+pip install -r requirements.txt
+```
+### 執行應用程式
 ```bash
 python app.py
 ```
+### Command line 參數說明
+| 參數 | 說明 |
+|------|------|
+| `--share` | 建立可分享的 public 網址 |
+| `--model` | 加入自訂模型名稱 |
+| `--add_beam_option` | 新增 beam 選項 |
+| `--token_batch_option` | 新增 token batch 大小 |
+| `--log_level` | 設定日誌等級（DEBUG/INFO/WARNING/ERROR）|
+## 📂 範例資料夾說明
+- 將 `.txt`、`.md`、`.pdf` 範例檔案放置於 `examples/` 資料夾內
+- 啟動時自動讀取資料夾內檔案並於 UI 中顯示範例選項
+## ✅ 支援語系
+- 中文（含繁體）與英文文件皆可摘要
+- 建議使用 OCR 模式處理掃描型 PDF
+## 📌 備註
+- OCR 模式預設最大讀取 20 頁（可透過環境變數 `APP_OCR_MAX_PAGES` 設定）
+- OCR 使用的模型為 `doctr`，預設配置為 `"db_resnet50" + "crnn_mobilenet_v3_large"`
 ---
+本專案修改自 [pszemraj/document-summarization](https://huggingface.co/spaces/pszemraj/document-summarization)，加入多種中文處理優化與 UI 強化功能。

requirements.txt CHANGED Viewed

@@ -1,6 +1,6 @@
 accelerate
 clean-text[gpl]
-gradio==5.5.0
 natsort
 nltk
 pyspellchecker

 accelerate
 clean-text[gpl]
+gradio>=4.28.3
 natsort
 nltk
 pyspellchecker