Spaces:
Sleeping
Sleeping
# Регулярные выражения | |
NEXT_MARKER_RE = r'далее (--|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-|-|-)' | |
ABBREVIATION_RE = ( | |
r'\b[А-Я0-9]{1,}(?:\s?[А-Я0-9]{1,}|[:\-.]?[А-Я0-9]{1,}|[а-я]{1}[А-Я0-9]{1,})*\b' | |
) | |
UPPERCASE_LETTER_RE = r'[A-ZА-Я]' | |
CLOSE_BRACKET_RE = r'\)' | |
# Сокращения, после которых точка не означает конец предложения | |
NON_SENTENCE_ENDINGS = ['г', 'д-р', 'т.е', 'и т.д', 'и т.п', 'и т.п.', 'ул', 'пр'] | |
FIRST_CHARS_SET = {'.', ':', ';'} | |
SECOND_CHARS_SET = { | |
'‒', | |
'–', | |
'—', | |
'―', | |
'⸺', | |
'⸻', | |
'﹘', | |
'﹣', | |
'-', | |
'-', | |
'-', | |
'-', | |
'\uf0b7', | |
'', | |
} | |
BLACKLIST = [ | |
'Ненецкого муниципального района', | |
'Изменение идентифицирующих', | |
'Systems, Applications and Products in Data Processing Enterprise Resource Planning', | |
'Российской Федерации, Уставом', | |
'Собственника Объекта защиты', | |
] | |
REMOVING_SUBSTRINGS = ['ПАО', 'ОАО', '№', '('] | |
MAX_LENGTH = 100 | |
# Strings to remove from abbreviations | |
PREFIX_PARTS_TO_REMOVE = ['далее', '–', '-'] | |
# Strings to remove when processing abbreviations | |
ABBREVIATION_CLEANUP_REPLACEMENTS = { | |
' и ': ' ', | |
' или ': ' ', | |
', ': ' ', | |
' ГО': ' ', | |
} | |
# Regex pattern for dashes/hyphens to be replaced with space | |
DASH_PATTERN = '(-|-|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-)' | |