Features Module

ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности.

Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации.

Основные компоненты

HierarchyParser

Класс для извлечения иерархической структуры из текста документа. Позволяет:

Парсить текстовый контент с учетом уровней вложенности
Парсить табличный контент
Создавать иерархическое представление документа

DatasetCreator

Класс для создания структурированного датасета из обработанных документов. Функциональность:

Обработка иерархической структуры текста и таблиц
Создание унифицированного представления данных
Интеграция с векторизатором для создания эмбеддингов

DocumentsDataset

Класс для хранения и управления данными датасета. Возможности:

Хранение структурированных данных документов
Векторизация текстов с помощью предоставленного векторизатора
Экспорт данных в pandas DataFrame
Сохранение датасета в pickle формате

Структура данных

Каждая строка датасета (DatasetRow) содержит следующие поля:

Index: уникальный идентификатор строки
Text: текстовое содержание
DocName: имя документа
Title: заголовок документа
DocNumber: номер документа
LevelParagraph: уровень параграфа
Pargaraph: номер параграфа
Duplicate: метка дубликата
PartLevel1, PartLevel2: уровни частей
Appendix: информация о приложении
Table: информация о таблице

Использование

from components.embedding_extraction import EmbeddingExtractor
from components.parser.features import DatasetCreator, DocumentsDataset

# Инициализация создателя датасета
vectorizer = EmbeddingExtractor()
creator = DatasetCreator(vectorizer)

# Создание датасета
dataset = creator.create_dataset(parsed_xmls, hierarchies)

# Векторизация текстов
dataset.vectorize_with(vectorizer)

# Экспорт в pandas DataFrame
df = dataset.to_pandas()

Зависимости

numpy
pandas
компоненты для векторизации текста (EmbeddingExtractor)