Spaces:

muryshev
/

generic-chatbot-backend

Sleeping

File size: 3,309 Bytes

57cf043

# Features Module

> ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности.

Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации.

## Основные компоненты

### HierarchyParser

Класс для извлечения иерархической структуры из текста документа. Позволяет:
- Парсить текстовый контент с учетом уровней вложенности
- Парсить табличный контент
- Создавать иерархическое представление документа

### DatasetCreator

Класс для создания структурированного датасета из обработанных документов. Функциональность:
- Обработка иерархической структуры текста и таблиц
- Создание унифицированного представления данных
- Интеграция с векторизатором для создания эмбеддингов

### DocumentsDataset

Класс для хранения и управления данными датасета. Возможности:
- Хранение структурированных данных документов
- Векторизация текстов с помощью предоставленного векторизатора
- Экспорт данных в pandas DataFrame
- Сохранение датасета в pickle формате

## Структура данных

Каждая строка датасета (`DatasetRow`) содержит следующие поля:
- Index: уникальный идентификатор строки
- Text: текстовое содержание
- DocName: имя документа
- Title: заголовок документа
- DocNumber: номер документа
- LevelParagraph: уровень параграфа
- Pargaraph: номер параграфа
- Duplicate: метка дубликата
- PartLevel1, PartLevel2: уровни частей
- Appendix: информация о приложении
- Table: информация о таблице

## Использование

```python
from components.embedding_extraction import EmbeddingExtractor
from components.parser.features import DatasetCreator, DocumentsDataset

# Инициализация создателя датасета
vectorizer = EmbeddingExtractor()
creator = DatasetCreator(vectorizer)

# Создание датасета
dataset = creator.create_dataset(parsed_xmls, hierarchies)

# Векторизация текстов
dataset.vectorize_with(vectorizer)

# Экспорт в pandas DataFrame
df = dataset.to_pandas()
```

## Зависимости

- numpy
- pandas
- компоненты для векторизации текста (EmbeddingExtractor)