KevinHuSh
commited on
Commit
·
e31db28
1
Parent(s):
14174de
add a new model for 'Laws' (#290)
Browse files### What problem does this PR solve?
Issue link:#289
### Type of change
- [x] New Feature (non-breaking change which adds functionality)
- README.md +3 -2
- README_ja.md +3 -3
- README_zh.md +3 -2
- rag/app/laws.py +4 -1
README.md
CHANGED
|
@@ -172,8 +172,9 @@ $ docker compose up -d
|
|
| 172 |
|
| 173 |
## 🆕 Latest Features
|
| 174 |
|
| 175 |
-
-
|
| 176 |
-
- Support
|
|
|
|
| 177 |
|
| 178 |
## 📜 Roadmap
|
| 179 |
|
|
|
|
| 172 |
|
| 173 |
## 🆕 Latest Features
|
| 174 |
|
| 175 |
+
- 2023-04-10 Add a new layout recognize model for method 'Laws'.
|
| 176 |
+
- 2023-04-08 Support [Ollama](./docs/ollama.md) for local LLM deployment.
|
| 177 |
+
- 2023-04-07 Support Chinese UI.
|
| 178 |
|
| 179 |
## 📜 Roadmap
|
| 180 |
|
README_ja.md
CHANGED
|
@@ -171,9 +171,9 @@ $ docker compose up -d
|
|
| 171 |
```
|
| 172 |
|
| 173 |
## 🆕 最新の新機能
|
| 174 |
-
|
| 175 |
-
- [Ollama](./docs/ollama.md) を使用した大規模モデルのローカライズされたデプロイメントをサポートします。
|
| 176 |
-
- 中国語インターフェースをサポートします。
|
| 177 |
|
| 178 |
## 📜 ロードマップ
|
| 179 |
|
|
|
|
| 171 |
```
|
| 172 |
|
| 173 |
## 🆕 最新の新機能
|
| 174 |
+
- 2023-04-10 メソッド「Laws」に新しいレイアウト認識モデルを追加します。
|
| 175 |
+
- 2023-04-08 [Ollama](./docs/ollama.md) を使用した大規模モデルのローカライズされたデプロイメントをサポートします。
|
| 176 |
+
- 2023-04-07 中国語インターフェースをサポートします。
|
| 177 |
|
| 178 |
## 📜 ロードマップ
|
| 179 |
|
README_zh.md
CHANGED
|
@@ -172,8 +172,9 @@ $ docker compose up -d
|
|
| 172 |
|
| 173 |
## 🆕 最近新特性
|
| 174 |
|
| 175 |
-
-
|
| 176 |
-
-
|
|
|
|
| 177 |
|
| 178 |
## 📜 路线图
|
| 179 |
|
|
|
|
| 172 |
|
| 173 |
## 🆕 最近新特性
|
| 174 |
|
| 175 |
+
- 2023-04-10 为‘Laws’版面分析增加了模型。
|
| 176 |
+
- 2023-04-08 支持用 [Ollama](./docs/ollama.md) 对大模型进行本地化部署。
|
| 177 |
+
- 2023-04-07 支持中文界面。
|
| 178 |
|
| 179 |
## 📜 路线图
|
| 180 |
|
rag/app/laws.py
CHANGED
|
@@ -14,6 +14,8 @@ import copy
|
|
| 14 |
import re
|
| 15 |
from io import BytesIO
|
| 16 |
from docx import Document
|
|
|
|
|
|
|
| 17 |
from rag.nlp import bullets_category, is_english, tokenize, remove_contents_table, hierarchical_merge, \
|
| 18 |
make_colon_as_title, add_positions, tokenize_chunks
|
| 19 |
from rag.nlp import huqie
|
|
@@ -23,7 +25,8 @@ from rag.settings import cron_logger
|
|
| 23 |
|
| 24 |
class Docx(DocxParser):
|
| 25 |
def __init__(self):
|
| 26 |
-
|
|
|
|
| 27 |
|
| 28 |
def __clean(self, line):
|
| 29 |
line = re.sub(r"\u3000", " ", line).strip()
|
|
|
|
| 14 |
import re
|
| 15 |
from io import BytesIO
|
| 16 |
from docx import Document
|
| 17 |
+
|
| 18 |
+
from api.db import ParserType
|
| 19 |
from rag.nlp import bullets_category, is_english, tokenize, remove_contents_table, hierarchical_merge, \
|
| 20 |
make_colon_as_title, add_positions, tokenize_chunks
|
| 21 |
from rag.nlp import huqie
|
|
|
|
| 25 |
|
| 26 |
class Docx(DocxParser):
|
| 27 |
def __init__(self):
|
| 28 |
+
self.model_speciess = ParserType.LAWS.value
|
| 29 |
+
super().__init__()
|
| 30 |
|
| 31 |
def __clean(self, line):
|
| 32 |
line = re.sub(r"\u3000", " ", line).strip()
|