# Регулярные выражения NEXT_MARKER_RE = r'далее (--|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-|-|-)' ABBREVIATION_RE = ( r'\b[А-Я0-9]{1,}(?:\s?[А-Я0-9]{1,}|[:\-.]?[А-Я0-9]{1,}|[а-я]{1}[А-Я0-9]{1,})*\b' ) UPPERCASE_LETTER_RE = r'[A-ZА-Я]' CLOSE_BRACKET_RE = r'\)' # Сокращения, после которых точка не означает конец предложения NON_SENTENCE_ENDINGS = ['г', 'д-р', 'т.е', 'и т.д', 'и т.п', 'и т.п.', 'ул', 'пр'] FIRST_CHARS_SET = {'.', ':', ';'} SECOND_CHARS_SET = { '‒', '–', '—', '―', '⸺', '⸻', '﹘', '﹣', '-', '-', '-', '-', '\uf0b7', '', } BLACKLIST = [ 'Ненецкого муниципального района', 'Изменение идентифицирующих', 'Systems, Applications and Products in Data Processing Enterprise Resource Planning', 'Российской Федерации, Уставом', 'Собственника Объекта защиты', ] REMOVING_SUBSTRINGS = ['ПАО', 'ОАО', '№', '('] MAX_LENGTH = 100 # Strings to remove from abbreviations PREFIX_PARTS_TO_REMOVE = ['далее', '–', '-'] # Strings to remove when processing abbreviations ABBREVIATION_CLEANUP_REPLACEMENTS = { ' и ': ' ', ' или ': ' ', ', ': ' ', ' ГО': ' ', } # Regex pattern for dashes/hyphens to be replaced with space DASH_PATTERN = '(-|-|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-)'