|
--- |
|
license: apache-2.0 |
|
language: |
|
- zh |
|
library_name: fairseq |
|
tags: |
|
- BART |
|
- pytorch |
|
- CGEC |
|
metrics: |
|
- bleu |
|
pipeline_tag: translation |
|
--- |
|
|
|
# 中文语法纠错任务介绍 |
|
Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC) |
|
CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。 |
|
# 中文语法纠错方法 |
|
主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。 |
|
# 模型描述 |
|
我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。 |
|
在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。 |
|
# 模型训练 |
|
模型训练是基于fairseq库进行训练的。 |
|
# 如何使用 |
|
step1: 下载fairseq库,并进行安装 |
|
step2: 使用interactive.py方法进行推理 |
|
python -u ${FAIRSEQ_DIR}/interactive.py $PROCESSED_DIR \ |
|
--task syntax-enhanced-translation \ |
|
--path ${MODEL_PATH} \ |
|
--beam ${BEAM} \ |
|
--nbest ${N_BEST} \ |
|
-s src \ |
|
-t tgt \ |
|
--buffer-size 1000 \ |
|
--batch-size 32 \ |
|
--num-workers 12 \ |
|
--log-format tqdm \ |
|
--remove-bpe \ |
|
--fp16 \ |
|
--output_file $OUTPUT_DIR/output.nbest \ |
|
<$OUTPUT_DIR/lang8_test.char |