# Регулярные выражения
NEXT_MARKER_RE = r'далее (--|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|－|-|-)'
ABBREVIATION_RE = (
    r'\b[А-Я0-9]{1,}(?:\s?[А-Я0-9]{1,}|[:\-.]?[А-Я0-9]{1,}|[а-я]{1}[А-Я0-9]{1,})*\b'
)
UPPERCASE_LETTER_RE = r'[A-ZА-Я]'
CLOSE_BRACKET_RE = r'\)'

# Сокращения, после которых точка не означает конец предложения
NON_SENTENCE_ENDINGS = ['г', 'д-р', 'т.е', 'и т.д', 'и т.п', 'и т.п.', 'ул', 'пр']

FIRST_CHARS_SET = {'.', ':', ';'}
SECOND_CHARS_SET = {
    '‒',
    '–',
    '—',
    '―',
    '⸺',
    '⸻',
    '﹘',
    '﹣',
    '－',
    '-',
    '-',
    '-',
    '\uf0b7',
    '',
}

BLACKLIST = [
    'Ненецкого муниципального района',
    'Изменение идентифицирующих',
    'Systems, Applications and Products in Data Processing Enterprise Resource Planning',
    'Российской Федерации, Уставом',
    'Собственника Объекта защиты',
]

REMOVING_SUBSTRINGS = ['ПАО', 'ОАО', '№', '(']

MAX_LENGTH = 100

# Strings to remove from abbreviations
PREFIX_PARTS_TO_REMOVE = ['далее', '–', '-']

# Strings to remove when processing abbreviations
ABBREVIATION_CLEANUP_REPLACEMENTS = {
    ' и ': ' ',
    ' или ': ' ',
    ', ': ' ',
    ' ГО': ' ',
}

# Regex pattern for dashes/hyphens to be replaced with space
DASH_PATTERN = '(-|-|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|－)'