Spaces:

muryshev
/

generic-chatbot-backend

Sleeping

App Files Files Community

generic-chatbot-backend / components /parser /features /README.md

muryshev

init

57cf043 24 days ago

preview code

raw

history blame

3.31 kB

	# Features Module

	> ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности.

	Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации.

	## Основные компоненты

	### HierarchyParser

	Класс для извлечения иерархической структуры из текста документа. Позволяет:
	- Парсить текстовый контент с учетом уровней вложенности
	- Парсить табличный контент
	- Создавать иерархическое представление документа

	### DatasetCreator

	Класс для создания структурированного датасета из обработанных документов. Функциональность:
	- Обработка иерархической структуры текста и таблиц
	- Создание унифицированного представления данных
	- Интеграция с векторизатором для создания эмбеддингов

	### DocumentsDataset

	Класс для хранения и управления данными датасета. Возможности:
	- Хранение структурированных данных документов
	- Векторизация текстов с помощью предоставленного векторизатора
	- Экспорт данных в pandas DataFrame
	- Сохранение датасета в pickle формате

	## Структура данных

	Каждая строка датасета (`DatasetRow`) содержит следующие поля:
	- Index: уникальный идентификатор строки
	- Text: текстовое содержание
	- DocName: имя документа
	- Title: заголовок документа
	- DocNumber: номер документа
	- LevelParagraph: уровень параграфа
	- Pargaraph: номер параграфа
	- Duplicate: метка дубликата
	- PartLevel1, PartLevel2: уровни частей
	- Appendix: информация о приложении
	- Table: информация о таблице

	## Использование

	```python
	from components.embedding_extraction import EmbeddingExtractor
	from components.parser.features import DatasetCreator, DocumentsDataset

	# Инициализация создателя датасета
	vectorizer = EmbeddingExtractor()
	creator = DatasetCreator(vectorizer)

	# Создание датасета
	dataset = creator.create_dataset(parsed_xmls, hierarchies)

	# Векторизация текстов
	dataset.vectorize_with(vectorizer)

	# Экспорт в pandas DataFrame
	df = dataset.to_pandas()
	```

	## Зависимости

	- numpy
	- pandas
	- компоненты для векторизации текста (EmbeddingExtractor)