muryshev's picture
init
57cf043
raw
history blame
1.56 kB
# Регулярные выражения
NEXT_MARKER_RE = r'далее (--|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-|-|-)'
ABBREVIATION_RE = (
r'\b[А-Я0-9]{1,}(?:\s?[А-Я0-9]{1,}|[:\-.]?[А-Я0-9]{1,}|[а-я]{1}[А-Я0-9]{1,})*\b'
)
UPPERCASE_LETTER_RE = r'[A-ZА-Я]'
CLOSE_BRACKET_RE = r'\)'
# Сокращения, после которых точка не означает конец предложения
NON_SENTENCE_ENDINGS = ['г', 'д-р', 'т.е', 'и т.д', 'и т.п', 'и т.п.', 'ул', 'пр']
FIRST_CHARS_SET = {'.', ':', ';'}
SECOND_CHARS_SET = {
'‒',
'–',
'—',
'―',
'⸺',
'⸻',
'﹘',
'﹣',
'-',
'-',
'-',
'-',
'\uf0b7',
'',
}
BLACKLIST = [
'Ненецкого муниципального района',
'Изменение идентифицирующих',
'Systems, Applications and Products in Data Processing Enterprise Resource Planning',
'Российской Федерации, Уставом',
'Собственника Объекта защиты',
]
REMOVING_SUBSTRINGS = ['ПАО', 'ОАО', '№', '(']
MAX_LENGTH = 100
# Strings to remove from abbreviations
PREFIX_PARTS_TO_REMOVE = ['далее', '–', '-']
# Strings to remove when processing abbreviations
ABBREVIATION_CLEANUP_REPLACEMENTS = {
' и ': ' ',
' или ': ' ',
', ': ' ',
' ГО': ' ',
}
# Regex pattern for dashes/hyphens to be replaced with space
DASH_PATTERN = '(-|-|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-)'