Spaces:
Sleeping
Sleeping
# Features Module | |
> ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности. | |
Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации. | |
## Основные компоненты | |
### HierarchyParser | |
Класс для извлечения иерархической структуры из текста документа. Позволяет: | |
- Парсить текстовый контент с учетом уровней вложенности | |
- Парсить табличный контент | |
- Создавать иерархическое представление документа | |
### DatasetCreator | |
Класс для создания структурированного датасета из обработанных документов. Функциональность: | |
- Обработка иерархической структуры текста и таблиц | |
- Создание унифицированного представления данных | |
- Интеграция с векторизатором для создания эмбеддингов | |
### DocumentsDataset | |
Класс для хранения и управления данными датасета. Возможности: | |
- Хранение структурированных данных документов | |
- Векторизация текстов с помощью предоставленного векторизатора | |
- Экспорт данных в pandas DataFrame | |
- Сохранение датасета в pickle формате | |
## Структура данных | |
Каждая строка датасета (`DatasetRow`) содержит следующие поля: | |
- Index: уникальный идентификатор строки | |
- Text: текстовое содержание | |
- DocName: имя документа | |
- Title: заголовок документа | |
- DocNumber: номер документа | |
- LevelParagraph: уровень параграфа | |
- Pargaraph: номер параграфа | |
- Duplicate: метка дубликата | |
- PartLevel1, PartLevel2: уровни частей | |
- Appendix: информация о приложении | |
- Table: информация о таблице | |
## Использование | |
```python | |
from components.embedding_extraction import EmbeddingExtractor | |
from components.parser.features import DatasetCreator, DocumentsDataset | |
# Инициализация создателя датасета | |
vectorizer = EmbeddingExtractor() | |
creator = DatasetCreator(vectorizer) | |
# Создание датасета | |
dataset = creator.create_dataset(parsed_xmls, hierarchies) | |
# Векторизация текстов | |
dataset.vectorize_with(vectorizer) | |
# Экспорт в pandas DataFrame | |
df = dataset.to_pandas() | |
``` | |
## Зависимости | |
- numpy | |
- pandas | |
- компоненты для векторизации текста (EmbeddingExtractor) |