muryshev's picture
init
57cf043
|
raw
history blame
3.31 kB

Features Module

ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности.

Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации.

Основные компоненты

HierarchyParser

Класс для извлечения иерархической структуры из текста документа. Позволяет:

  • Парсить текстовый контент с учетом уровней вложенности
  • Парсить табличный контент
  • Создавать иерархическое представление документа

DatasetCreator

Класс для создания структурированного датасета из обработанных документов. Функциональность:

  • Обработка иерархической структуры текста и таблиц
  • Создание унифицированного представления данных
  • Интеграция с векторизатором для создания эмбеддингов

DocumentsDataset

Класс для хранения и управления данными датасета. Возможности:

  • Хранение структурированных данных документов
  • Векторизация текстов с помощью предоставленного векторизатора
  • Экспорт данных в pandas DataFrame
  • Сохранение датасета в pickle формате

Структура данных

Каждая строка датасета (DatasetRow) содержит следующие поля:

  • Index: уникальный идентификатор строки
  • Text: текстовое содержание
  • DocName: имя документа
  • Title: заголовок документа
  • DocNumber: номер документа
  • LevelParagraph: уровень параграфа
  • Pargaraph: номер параграфа
  • Duplicate: метка дубликата
  • PartLevel1, PartLevel2: уровни частей
  • Appendix: информация о приложении
  • Table: информация о таблице

Использование

from components.embedding_extraction import EmbeddingExtractor
from components.parser.features import DatasetCreator, DocumentsDataset

# Инициализация создателя датасета
vectorizer = EmbeddingExtractor()
creator = DatasetCreator(vectorizer)

# Создание датасета
dataset = creator.create_dataset(parsed_xmls, hierarchies)

# Векторизация текстов
dataset.vectorize_with(vectorizer)

# Экспорт в pandas DataFrame
df = dataset.to_pandas()

Зависимости

  • numpy
  • pandas
  • компоненты для векторизации текста (EmbeddingExtractor)