File size: 1,560 Bytes
57cf043
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
# Регулярные выражения
NEXT_MARKER_RE = r'далее (--|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-|-|-)'
ABBREVIATION_RE = (
    r'\b[А-Я0-9]{1,}(?:\s?[А-Я0-9]{1,}|[:\-.]?[А-Я0-9]{1,}|[а-я]{1}[А-Я0-9]{1,})*\b'
)
UPPERCASE_LETTER_RE = r'[A-ZА-Я]'
CLOSE_BRACKET_RE = r'\)'

# Сокращения, после которых точка не означает конец предложения
NON_SENTENCE_ENDINGS = ['г', 'д-р', 'т.е', 'и т.д', 'и т.п', 'и т.п.', 'ул', 'пр']

FIRST_CHARS_SET = {'.', ':', ';'}
SECOND_CHARS_SET = {
    '‒',
    '–',
    '—',
    '―',
    '⸺',
    '⸻',
    '﹘',
    '﹣',
    '-',
    '-',
    '-',
    '-',
    '\uf0b7',
    '',
}

BLACKLIST = [
    'Ненецкого муниципального района',
    'Изменение идентифицирующих',
    'Systems, Applications and Products in Data Processing Enterprise Resource Planning',
    'Российской Федерации, Уставом',
    'Собственника Объекта защиты',
]

REMOVING_SUBSTRINGS = ['ПАО', 'ОАО', '№', '(']

MAX_LENGTH = 100

# Strings to remove from abbreviations
PREFIX_PARTS_TO_REMOVE = ['далее', '–', '-']

# Strings to remove when processing abbreviations
ABBREVIATION_CLEANUP_REPLACEMENTS = {
    ' и ': ' ',
    ' или ': ' ',
    ', ': ' ',
    ' ГО': ' ',
}

# Regex pattern for dashes/hyphens to be replaced with space
DASH_PATTERN = '(-|-|־|᠆|‐|‑|‒|–|—|―|⸺|⸻|﹘|﹣|-)'