muryshev's picture
init
57cf043
|
raw
history blame
3.31 kB
# Features Module
> ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности.
Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации.
## Основные компоненты
### HierarchyParser
Класс для извлечения иерархической структуры из текста документа. Позволяет:
- Парсить текстовый контент с учетом уровней вложенности
- Парсить табличный контент
- Создавать иерархическое представление документа
### DatasetCreator
Класс для создания структурированного датасета из обработанных документов. Функциональность:
- Обработка иерархической структуры текста и таблиц
- Создание унифицированного представления данных
- Интеграция с векторизатором для создания эмбеддингов
### DocumentsDataset
Класс для хранения и управления данными датасета. Возможности:
- Хранение структурированных данных документов
- Векторизация текстов с помощью предоставленного векторизатора
- Экспорт данных в pandas DataFrame
- Сохранение датасета в pickle формате
## Структура данных
Каждая строка датасета (`DatasetRow`) содержит следующие поля:
- Index: уникальный идентификатор строки
- Text: текстовое содержание
- DocName: имя документа
- Title: заголовок документа
- DocNumber: номер документа
- LevelParagraph: уровень параграфа
- Pargaraph: номер параграфа
- Duplicate: метка дубликата
- PartLevel1, PartLevel2: уровни частей
- Appendix: информация о приложении
- Table: информация о таблице
## Использование
```python
from components.embedding_extraction import EmbeddingExtractor
from components.parser.features import DatasetCreator, DocumentsDataset
# Инициализация создателя датасета
vectorizer = EmbeddingExtractor()
creator = DatasetCreator(vectorizer)
# Создание датасета
dataset = creator.create_dataset(parsed_xmls, hierarchies)
# Векторизация текстов
dataset.vectorize_with(vectorizer)
# Экспорт в pandas DataFrame
df = dataset.to_pandas()
```
## Зависимости
- numpy
- pandas
- компоненты для векторизации текста (EmbeddingExtractor)