wanglaiqi
commited on
Commit
·
a4eb16c
1
Parent(s):
372125e
update code
Browse files
README.md
CHANGED
|
@@ -12,11 +12,29 @@ tags:
|
|
| 12 |
# 中文语法纠错任务介绍
|
| 13 |
Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)
|
| 14 |
CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。
|
| 15 |
-
|
| 16 |
# 中文语法纠错方法
|
| 17 |
主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。
|
| 18 |
-
|
| 19 |
# 模型描述
|
| 20 |
我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。
|
| 21 |
在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 22 |
|
|
|
|
| 12 |
# 中文语法纠错任务介绍
|
| 13 |
Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)
|
| 14 |
CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。
|
|
|
|
| 15 |
# 中文语法纠错方法
|
| 16 |
主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。
|
|
|
|
| 17 |
# 模型描述
|
| 18 |
我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。
|
| 19 |
在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。
|
| 20 |
+
# 模型训练
|
| 21 |
+
模型训练是基于fairseq库进行训练的。
|
| 22 |
+
# 如何使用
|
| 23 |
+
step1: 下载fairseq库,并进行安装
|
| 24 |
+
step2: 使用interactive.py方法进行推理
|
| 25 |
+
python -u ${FAIRSEQ_DIR}/interactive.py $PROCESSED_DIR \
|
| 26 |
+
--task syntax-enhanced-translation \
|
| 27 |
+
--path ${MODEL_PATH} \
|
| 28 |
+
--beam ${BEAM} \
|
| 29 |
+
--nbest ${N_BEST} \
|
| 30 |
+
-s src \
|
| 31 |
+
-t tgt \
|
| 32 |
+
--buffer-size 1000 \
|
| 33 |
+
--batch-size 32 \
|
| 34 |
+
--num-workers 12 \
|
| 35 |
+
--log-format tqdm \
|
| 36 |
+
--remove-bpe \
|
| 37 |
+
--fp16 \
|
| 38 |
+
--output_file $OUTPUT_DIR/output.nbest \
|
| 39 |
+
<$OUTPUT_DIR/lang8_test.char
|
| 40 |
|