makcrx commited on
Commit
64a1cc9
·
1 Parent(s): a37ec14

update model

Browse files
Files changed (2) hide show
  1. app.py +3 -2
  2. extract_keywords.py +8 -6
app.py CHANGED
@@ -10,11 +10,12 @@ db = FAISS.load_local('faiss_qa_2023-08-20', embeddings)
10
 
11
  def main(query):
12
  query = query.lower()
13
- query_keywords = set(extract_keywords2(query))
14
  result_docs = db.similarity_search_with_score(query, k=20)
 
15
 
16
  if len(query_keywords) > 0:
17
- result_docs = list(filter(lambda doc: len(set(extract_keywords2(doc[0].page_content)).intersection(query_keywords)) > 0, result_docs))
18
 
19
  if len(result_docs) == 0:
20
  return 'Ответ не найден', 0, ''
 
10
 
11
  def main(query):
12
  query = query.lower()
13
+ query_keywords, query = extract_keywords2(query)
14
  result_docs = db.similarity_search_with_score(query, k=20)
15
+ print(query, query_keywords)
16
 
17
  if len(query_keywords) > 0:
18
+ result_docs = list(filter(lambda doc: len(extract_keywords2(doc[0].page_content)[0].intersection(query_keywords)) > 0, result_docs))
19
 
20
  if len(result_docs) == 0:
21
  return 'Ответ не найден', 0, ''
extract_keywords.py CHANGED
@@ -19,7 +19,7 @@ aliases = [
19
  ('пешкарики', []),
20
  ('импорт лидов директ', []),
21
  ('яндекс доставка экспресс', ['яндекс доставка express', 'яд экспресс', 'ядоставка экспресс']),
22
- ('яндекс доставка ndd', ['яд ндд', 'я доставка ндд', 'ядоставка ндд', 'модуль ндд']),
23
  ('яндекс доставка', ['яд', 'я доставка', 'ядоставка']),
24
  ('яндекс метрика', ['яндекс метрика импорт']),
25
  ('альфабанк', ['альфа банк', 'alfabank', 'альфа']),
@@ -142,8 +142,10 @@ def extract_keywords(text):
142
  def extract_keywords2(text):
143
  vocab = sorted([" ".join(tokenize_sentence(s)) for s in vocab_raw], key=len, reverse=True)
144
  text = normalize_sentence(text)
145
- keywords = []
146
- for w in vocab:
147
- if w in text:
148
- keywords.append(w)
149
- return merge_keywords(canonical_keywords(keywords))
 
 
 
19
  ('пешкарики', []),
20
  ('импорт лидов директ', []),
21
  ('яндекс доставка экспресс', ['яндекс доставка express', 'яд экспресс', 'ядоставка экспресс']),
22
+ ('яндекс доставка ndd', ['ндд', 'ndd', 'яд ндд', 'я доставка ндд', 'ядоставка ндд', 'модуль ндд']),
23
  ('яндекс доставка', ['яд', 'я доставка', 'ядоставка']),
24
  ('яндекс метрика', ['яндекс метрика импорт']),
25
  ('альфабанк', ['альфа банк', 'alfabank', 'альфа']),
 
142
  def extract_keywords2(text):
143
  vocab = sorted([" ".join(tokenize_sentence(s)) for s in vocab_raw], key=len, reverse=True)
144
  text = normalize_sentence(text)
145
+ keywords = [w for w in vocab if w in text]
146
+ #for w in vocab:
147
+ # if w in text:
148
+ # keywords.append(w)
149
+ for k in keywords:
150
+ text = text.replace(k, '')
151
+ return set(merge_keywords(canonical_keywords(keywords))), text