Spaces:
Sleeping
Sleeping
File size: 2,957 Bytes
86c402d fd485d9 86c402d fd485d9 86c402d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 |
import json
import numpy as np
from sqlalchemy import ForeignKey, Integer, LargeBinary, String
from sqlalchemy.orm import Mapped, mapped_column, relationship
from sqlalchemy.types import TypeDecorator
from components.dbo.models.base import Base
from components.dbo.models.dataset import Dataset
class JSONType(TypeDecorator):
"""Тип для хранения JSON в SQLite."""
impl = String
cache_ok = True
def process_bind_param(self, value, dialect):
"""Сохранение dict в JSON строку."""
if value is None:
return None
return json.dumps(value)
def process_result_value(self, value, dialect):
"""Загрузка JSON строки в dict."""
if value is None:
return None
return json.loads(value)
class EmbeddingType(TypeDecorator):
"""Тип для хранения эмбеддингов в SQLite."""
impl = LargeBinary
cache_ok = True
def process_bind_param(self, value, dialect):
"""Сохранение numpy array в базу."""
if value is None:
return None
# Убеждаемся, что массив двумерный перед сохранением
value = np.asarray(value, dtype=np.float32)
if value.ndim == 1:
value = value.reshape(1, -1)
return value.tobytes()
def process_result_value(self, value, dialect):
"""Загрузка из базы в numpy array."""
if value is None:
return None
return np.frombuffer(value, dtype=np.float32)
class EntityModel(Base):
"""
SQLAlchemy модель для хранения сущностей.
"""
__tablename__ = "entity"
uuid: Mapped[str] = mapped_column(String, unique=True)
name: Mapped[str] = mapped_column(String, nullable=False)
text: Mapped[str] = mapped_column(String, nullable=False)
in_search_text: Mapped[str] = mapped_column(String, nullable=True)
entity_type: Mapped[str] = mapped_column(String, nullable=False)
# Поля для связей (триплетный подход)
source_id: Mapped[str] = mapped_column(String, nullable=True)
target_id: Mapped[str] = mapped_column(String, nullable=True)
number_in_relation: Mapped[int] = mapped_column(Integer, nullable=True)
# Поле для индекса чанка в документе
chunk_index: Mapped[int] = mapped_column(Integer, nullable=True)
# JSON-поле для хранения метаданных
metadata_json: Mapped[dict] = mapped_column(JSONType, nullable=True)
embedding: Mapped[np.ndarray] = mapped_column(EmbeddingType, nullable=True)
dataset_id: Mapped[int] = mapped_column(Integer, ForeignKey("dataset.id"), nullable=False)
dataset: Mapped["Dataset"] = relationship(
"Dataset",
back_populates="entities",
cascade="all",
)
|