Spaces:

retopara
/

ragflow

Build error

Kevin Hu commited on Nov 8, 2024

Commit

0f25ebd

1 Parent(s): 916b3cc

make language judgement robuster (#3287)

### What problem does this PR solve?

### Type of change

- [x] Performance Improvement

Files changed (1) hide show

rag/nlp/query.py CHANGED Viewed

@@ -63,9 +63,9 @@ class EsQueryer:
             rag_tokenizer.tradi2simp(
                 rag_tokenizer.strQ2B(
                     txt.lower()))).strip()
-        txt = EsQueryer.rmWWW(txt)
         if not self.isChinese(txt):
             tks = rag_tokenizer.tokenize(txt).split(" ")
             tks_w = self.tw.weights(tks)
             tks_w = [(re.sub(r"[ \\\"'^]", "", tk), w) for tk, w in tks_w]
@@ -89,6 +89,7 @@ class EsQueryer:
                 return False
             return True
         qs, keywords = [], []
         for tt in self.tw.split(txt)[:256]:  # .split(" "):
             if not tt:

             rag_tokenizer.tradi2simp(
                 rag_tokenizer.strQ2B(
                     txt.lower()))).strip()
         if not self.isChinese(txt):
+            txt = EsQueryer.rmWWW(txt)
             tks = rag_tokenizer.tokenize(txt).split(" ")
             tks_w = self.tw.weights(tks)
             tks_w = [(re.sub(r"[ \\\"'^]", "", tk), w) for tk, w in tks_w]
                 return False
             return True
+        txt = EsQueryer.rmWWW(txt)
         qs, keywords = [], []
         for tt in self.tw.split(txt)[:256]:  # .split(" "):
             if not tt: