Spaces:

KingZack
/

ctp-slack-bot

Runtime error

App Files Files Community

LiKenun commited on May 17

Commit

bb7c9a3

1 Parent(s): a08a6f4

Refactor #3

Browse files

Files changed (37) hide show

.env.template +4 -0
README.md +14 -9
pyproject.toml +2 -1
scripts/run-dev.sh +1 -1
src/ctp_slack_bot/app.py +10 -3
src/ctp_slack_bot/containers.py +11 -5
src/ctp_slack_bot/core/__init__.py +1 -0
src/ctp_slack_bot/core/abstractions.py +31 -0
src/ctp_slack_bot/core/config.py +47 -46
src/ctp_slack_bot/core/logging.py +3 -2
src/ctp_slack_bot/db/mongo_db.py +20 -17
src/ctp_slack_bot/db/repositories/mongo_db_vectorized_chunk_repository.py +12 -8
src/ctp_slack_bot/db/repositories/vector_repository_base.py +15 -18
src/ctp_slack_bot/db/repositories/vectorized_chunk_repository.py +4 -2
src/ctp_slack_bot/mime_type_handlers/base.py +4 -4
src/ctp_slack_bot/mime_type_handlers/text/vtt.py +1 -0
src/ctp_slack_bot/models/base.py +10 -8
src/ctp_slack_bot/models/google_drive.py +2 -2
src/ctp_slack_bot/models/slack.py +14 -5
src/ctp_slack_bot/models/webvtt.py +3 -3
src/ctp_slack_bot/services/__init__.py +1 -0
src/ctp_slack_bot/services/answer_retrieval_service.py +9 -10
src/ctp_slack_bot/services/application_database_service.py +9 -10
src/ctp_slack_bot/services/application_health_service.py +25 -0
src/ctp_slack_bot/services/content_ingestion_service.py +13 -10
src/ctp_slack_bot/services/context_retrieval_service.py +12 -12
src/ctp_slack_bot/services/embeddings_model_service.py +19 -16
src/ctp_slack_bot/services/event_brokerage_service.py +11 -10
src/ctp_slack_bot/services/google_drive_service.py +27 -24
src/ctp_slack_bot/services/http_client_service.py +14 -0
src/ctp_slack_bot/services/http_server_service.py +15 -0
src/ctp_slack_bot/services/language_model_service.py +20 -19
src/ctp_slack_bot/services/question_dispatch_service.py +12 -10
src/ctp_slack_bot/services/schedule_service.py +16 -14
src/ctp_slack_bot/services/slack_service.py +28 -16
src/ctp_slack_bot/services/vectorization_service.py +10 -10
src/ctp_slack_bot/utils/secret_stripper.py +1 -0

.env.template CHANGED Viewed

@@ -1,5 +1,9 @@
 # Copy this file and modify. Do not save or commit the secrets!
 # APScheduler Configuration
 SCHEDULER_TIMEZONE=UTC

 # Copy this file and modify. Do not save or commit the secrets!
+# HTTP Server Configuration
+HTTP_HOST=0.0.0.0
+HTTP_PORT=8080
 # APScheduler Configuration
 SCHEDULER_TIMEZONE=UTC

README.md CHANGED Viewed

@@ -24,10 +24,10 @@ You need to configure it first. This is done via environment variables, or an `.
 Obtaining the values requires setting up API tokens/secrets with:
-* Slack: for `SLACK_BOT_TOKEN` and `SLACK_APP_TOKEN`
-* MongoDB: for `MONGODB_URI`
-* OpenAI: for `OPENAI_API_KEY`
-* Google Drive: for `GOOGLE_PROJECT_ID`, `GOOGLE_CLIENT_ID`, `GOOGLE_CLIENT_EMAIL`, `GOOGLE_PRIVATE_KEY_ID`, and `GOOGLE_PRIVATE_KEY`
     * For Google Drive, set up a service account. It’s the only supported authentication type.
 ### Normally
@@ -58,12 +58,14 @@ pip3 install -e .
 Make a copy of `.env.template` as `.env` and define the environment variables. (You can also define them by other means, but this has the least friction.) This file should not be committed and is excluded by `.gitignore`!
-If `localhost` port `8000` is free, running the following will make the application available on that port:
 ```sh
 scripts/run-dev.sh
 ```
 ## Tech Stack
 * Hugging Face Spaces for hosting
@@ -77,14 +79,17 @@ scripts/run-dev.sh
 ## General Project Structure
 * `src/`
     * `ctp_slack_bot/`
         * `core/`: fundamental components like configuration (using pydantic), logging setup (loguru), and custom exceptions
-        * `db/`: database connection
-            * `repositories/`: repository pattern implementation
-        * `models/`: Pydantic models for data validation and serialization
         * `services/`: business logic
             * `answer_retrieval_service.py`: obtains an answer to a question from a language model using relevant context
             * `content_ingestion_service.py`: converts content into chunks and stores them into the database
             * `context_retrieval_service.py`: queries for relevant context from the database to answer a question
             * `embeddings_model_service.py`: converts text to embeddings
@@ -95,7 +100,7 @@ scripts/run-dev.sh
             * `slack_service.py`: handles events from Slack and sends back responses
             * `vector_database_service.py`: stores and queries chunks
             * `vectorization_service.py`: converts chunks into chunks with embeddings
-        * `tasks/`: background scheduled jobs
         * `utils/`: reusable utilities
         * `app.py`: application entry point
         * `containers.py`: the dependency injection container

 Obtaining the values requires setting up API tokens/secrets with:
+* Slack: for `slack_bot_token` and `slack_app_token`
+* MongoDB: for `mongodb_uri`
+* OpenAI: for `openai_api_key`
+* Google Drive: for `google_project_id`, `google_client_id`, `google_client_email`, `google_private_key_id`, and `google_private_key`
     * For Google Drive, set up a service account. It’s the only supported authentication type.
 ### Normally
 Make a copy of `.env.template` as `.env` and define the environment variables. (You can also define them by other means, but this has the least friction.) This file should not be committed and is excluded by `.gitignore`!
+If `localhost` port `8080` is free, running the following will make the application available on that port:
 ```sh
 scripts/run-dev.sh
 ```
+Visiting http://localhost:8080/health will return HTTP status OK and a payload containing the health status of individual components if everything is working.
 ## Tech Stack
 * Hugging Face Spaces for hosting
 ## General Project Structure
+Not every file or folder is listed, but the important stuff is here.
 * `src/`
     * `ctp_slack_bot/`
         * `core/`: fundamental components like configuration (using pydantic), logging setup (loguru), and custom exceptions
+        * `db/`: data connection and interface logic
+            * `repositories/`: data collection/table interface logic
+        * `models/`: data models
         * `services/`: business logic
             * `answer_retrieval_service.py`: obtains an answer to a question from a language model using relevant context
+            * `application_health_service.py`: collects the health status of the application components
             * `content_ingestion_service.py`: converts content into chunks and stores them into the database
             * `context_retrieval_service.py`: queries for relevant context from the database to answer a question
             * `embeddings_model_service.py`: converts text to embeddings
             * `slack_service.py`: handles events from Slack and sends back responses
             * `vector_database_service.py`: stores and queries chunks
             * `vectorization_service.py`: converts chunks into chunks with embeddings
+        * `tasks/`: scheduled tasks to run in the background
         * `utils/`: reusable utilities
         * `app.py`: application entry point
         * `containers.py`: the dependency injection container

pyproject.toml CHANGED Viewed

@@ -19,7 +19,7 @@ classifiers = [
     "Operating System :: OS Independent",
 ]
 dependencies = [
-    "pydantic>=2.11.2",
     "pydantic-settings>=2.8.1",
     "cachetools>=5.5.2",
     "more-itertools>=10.6.0",
@@ -30,6 +30,7 @@ dependencies = [
     "apscheduler>=3.11.0",
 #    "tenacity>=9.1.2",
 #    "pybreaker>=1.3.0",
     "aiohttp>=3.11.16",
     "webvtt-py>=0.5.1",
     "slack-sdk>=3.35.0",

     "Operating System :: OS Independent",
 ]
 dependencies = [
+    "pydantic[email]>=2.11.2",
     "pydantic-settings>=2.8.1",
     "cachetools>=5.5.2",
     "more-itertools>=10.6.0",
     "apscheduler>=3.11.0",
 #    "tenacity>=9.1.2",
 #    "pybreaker>=1.3.0",
+    "httpx>=0.28.1",
     "aiohttp>=3.11.16",
     "webvtt-py>=0.5.1",
     "slack-sdk>=3.35.0",

scripts/run-dev.sh CHANGED Viewed

@@ -2,4 +2,4 @@
 parent_path=$(cd "$(dirname "${BASH_SOURCE[0]}")"; pwd -P)
-LOG_LEVEL=DEBUG python3 "${parent_path}/../src/ctp_slack_bot/app.py"


2
3	parent_path=$(cd "$(dirname "${BASH_SOURCE[0]}")"; pwd -P)
4
5	+ log_level=DEBUG python3 "${parent_path}/../src/ctp_slack_bot/app.py"

src/ctp_slack_bot/app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from aiohttp.web import Application as WebApplication, AppRunner as WebAppRunner, Response, TCPSite
 from asyncio import all_tasks, CancelledError, create_task, current_task, get_running_loop, run
 from loguru import logger
 from signal import SIGINT, SIGTERM
 from typing import Any, Callable
@@ -18,17 +19,22 @@ async def main() -> None:
     container.wire(packages=["ctp_slack_bot"])
     # Kick off services which should be active from the start.
     container.content_ingestion_service()
     container.question_dispatch_service()
     container.schedule_service()
-    async def health(request):
-        return Response(text="lol")
     http_server = WebApplication()
     http_server.router.add_get("/health", health)
     web_app_runner = WebAppRunner(http_server)
     await web_app_runner.setup()
-    website = TCPSite(web_app_runner, "0.0.0.0", 8080)
     await website.start()
     async def handle_shutdown_signal() -> None:
@@ -61,5 +67,6 @@ async def main() -> None:
         await socket_mode_handler.close_async()
         await container.shutdown_resources()
 if __name__ == "__main__":
     run(main())

 from aiohttp.web import Application as WebApplication, AppRunner as WebAppRunner, Response, TCPSite
 from asyncio import all_tasks, CancelledError, create_task, current_task, get_running_loop, run
+from json import dumps
 from loguru import logger
 from signal import SIGINT, SIGTERM
 from typing import Any, Callable
     container.wire(packages=["ctp_slack_bot"])
     # Kick off services which should be active from the start.
+    application_health_service = await container.application_health_service()
     container.content_ingestion_service()
     container.question_dispatch_service()
     container.schedule_service()
+    async def health(request): # TODO: Abstract away
+        health_statuses = await application_health_service.get_health()
+        if all(health_statuses.values()):
+            return Response(text=dumps(dict(health_statuses)), content_type="application/json")
+        else:
+            return Response(body=dumps(dict(health_statuses)), content_type="application/json", status=503)
     http_server = WebApplication()
     http_server.router.add_get("/health", health)
     web_app_runner = WebAppRunner(http_server)
     await web_app_runner.setup()
+    website = TCPSite(web_app_runner, "0.0.0.0", 8080) # TODO: Un-hard-code
     await website.start()
     async def handle_shutdown_signal() -> None:
         await socket_mode_handler.close_async()
         await container.shutdown_resources()
 if __name__ == "__main__":
     run(main())

src/ctp_slack_bot/containers.py CHANGED Viewed

@@ -1,21 +1,23 @@
 from dependency_injector.containers import DeclarativeContainer
-from dependency_injector.providers import Callable, Resource, Singleton
 from importlib import import_module
 from pkgutil import iter_modules
 from slack_bolt.adapter.socket_mode.async_handler import AsyncSocketModeHandler
 from slack_bolt.async_app import AsyncApp
 from types import ModuleType
-from ctp_slack_bot.core.config import Settings
 from ctp_slack_bot.db.mongo_db import MongoDBResource
 from ctp_slack_bot.db.repositories.mongo_db_vectorized_chunk_repository import MongoVectorizedChunkRepositoryResource
-from ctp_slack_bot.mime_type_handlers.base import MimeTypeHandler
 from ctp_slack_bot.services.answer_retrieval_service import AnswerRetrievalService
 from ctp_slack_bot.services.content_ingestion_service import ContentIngestionService
 from ctp_slack_bot.services.context_retrieval_service import ContextRetrievalService
 from ctp_slack_bot.services.embeddings_model_service import EmbeddingsModelService
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 from ctp_slack_bot.services.google_drive_service import GoogleDriveService
 from ctp_slack_bot.services.language_model_service import LanguageModelService
 from ctp_slack_bot.services.question_dispatch_service import QuestionDispatchService
 from ctp_slack_bot.services.schedule_service import ScheduleServiceResource
@@ -42,6 +44,7 @@ class Container(DeclarativeContainer): # TODO: audit for potential async-related
     event_brokerage_service     = Singleton(EventBrokerageService)
     schedule_service            = Resource (ScheduleServiceResource,
                                             settings=settings)
     mongo_db                    = Resource (MongoDBResource,
                                             settings=settings)
     vectorized_chunk_repository = Resource (MongoVectorizedChunkRepositoryResource,
@@ -73,12 +76,13 @@ class Container(DeclarativeContainer): # TODO: audit for potential async-related
                                             content_ingestion_service=content_ingestion_service,
                                             context_retrieval_service=context_retrieval_service,
                                             answer_retrieval_service=answer_retrieval_service)
-    slack_bolt_app              = Singleton(lambda settings: AsyncApp(token=settings.SLACK_BOT_TOKEN.get_secret_value()),
                                             settings)
     slack_service               = Resource (SlackServiceResource,
                                             event_brokerage_service=event_brokerage_service,
                                             slack_bolt_app=slack_bolt_app)
-    socket_mode_handler         = Singleton(lambda _, app, settings: AsyncSocketModeHandler(app, settings.SLACK_APP_TOKEN.get_secret_value()),
                                             slack_service,
                                             slack_bolt_app,
                                             settings)
@@ -89,3 +93,5 @@ class Container(DeclarativeContainer): # TODO: audit for potential async-related
     #                                         settings=settings,
     #                                         google_drive_service=google_drive_service,
     #                                         mime_type_handler_factory=mime_type_handler_factory)

 from dependency_injector.containers import DeclarativeContainer
+from dependency_injector.providers import Callable, List, Resource, Singleton
 from importlib import import_module
 from pkgutil import iter_modules
 from slack_bolt.adapter.socket_mode.async_handler import AsyncSocketModeHandler
 from slack_bolt.async_app import AsyncApp
 from types import ModuleType
+from ctp_slack_bot.core import Settings
 from ctp_slack_bot.db.mongo_db import MongoDBResource
 from ctp_slack_bot.db.repositories.mongo_db_vectorized_chunk_repository import MongoVectorizedChunkRepositoryResource
+from ctp_slack_bot.mime_type_handlers import MimeTypeHandler
 from ctp_slack_bot.services.answer_retrieval_service import AnswerRetrievalService
+from ctp_slack_bot.services.application_health_service import ApplicationHealthService
 from ctp_slack_bot.services.content_ingestion_service import ContentIngestionService
 from ctp_slack_bot.services.context_retrieval_service import ContextRetrievalService
 from ctp_slack_bot.services.embeddings_model_service import EmbeddingsModelService
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 from ctp_slack_bot.services.google_drive_service import GoogleDriveService
+from ctp_slack_bot.services.http_client_service import HTTPClientServiceResource
 from ctp_slack_bot.services.language_model_service import LanguageModelService
 from ctp_slack_bot.services.question_dispatch_service import QuestionDispatchService
 from ctp_slack_bot.services.schedule_service import ScheduleServiceResource
     event_brokerage_service     = Singleton(EventBrokerageService)
     schedule_service            = Resource (ScheduleServiceResource,
                                             settings=settings)
+    http_client                 = Resource (HTTPClientServiceResource)
     mongo_db                    = Resource (MongoDBResource,
                                             settings=settings)
     vectorized_chunk_repository = Resource (MongoVectorizedChunkRepositoryResource,
                                             content_ingestion_service=content_ingestion_service,
                                             context_retrieval_service=context_retrieval_service,
                                             answer_retrieval_service=answer_retrieval_service)
+    slack_bolt_app              = Singleton(lambda settings: AsyncApp(token=settings.slack_bot_token.get_secret_value()),
                                             settings)
     slack_service               = Resource (SlackServiceResource,
                                             event_brokerage_service=event_brokerage_service,
+                                            http_client=http_client,
                                             slack_bolt_app=slack_bolt_app)
+    socket_mode_handler         = Singleton(lambda _, app, settings: AsyncSocketModeHandler(app, settings.slack_app_token.get_secret_value()),
                                             slack_service,
                                             slack_bolt_app,
                                             settings)
     #                                         settings=settings,
     #                                         google_drive_service=google_drive_service,
     #                                         mime_type_handler_factory=mime_type_handler_factory)
+    application_health_service  = Singleton(ApplicationHealthService,
+                                            services=List(mongo_db, slack_service))

src/ctp_slack_bot/core/__init__.py CHANGED Viewed

	@@ -1 +1,2 @@

1	from ctp_slack_bot.core.config import Settings


1	+ from ctp_slack_bot.core.abstractions import AbstractBaseModel, ApplicationComponentBase, HealthReportingApplicationComponentBase
2	from ctp_slack_bot.core.config import Settings

src/ctp_slack_bot/core/abstractions.py ADDED Viewed

	@@ -0,0 +1,31 @@

+from abc import ABC, abstractmethod
+from loguru import logger
+from pydantic import BaseModel
+from typing import Any, Self
+class AbstractModelMetaclass(type(BaseModel), type(ABC)):
+    pass
+class AbstractBaseModel(BaseModel, ABC, metaclass=AbstractModelMetaclass):
+    pass
+class ApplicationComponentBase(AbstractBaseModel):
+    def __init__(self: Self, **data: dict[str, Any]) -> None:
+        super().__init__(**data)
+        logger.debug("Created {}", self.__class__.__name__)
+    @property
+    @abstractmethod
+    def name(self: Self) -> str:
+        pass
+class HealthReportingApplicationComponentBase(ApplicationComponentBase):
+    @abstractmethod
+    async def is_healthy(self: Self) -> bool:
+        pass

src/ctp_slack_bot/core/config.py CHANGED Viewed

@@ -1,78 +1,79 @@
 from loguru import logger
-from pydantic import Field, MongoDsn, NonNegativeFloat, NonNegativeInt, PositiveInt, SecretStr
 from pydantic_settings import BaseSettings, SettingsConfigDict
 from types import MappingProxyType
 from typing import Literal, Mapping, Optional, Self
 class Settings(BaseSettings):
     """
     Application settings loaded from environment variables.
     """
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
-        if self.__pydantic_extra__:
-            logger.warning("Extra unrecognized environment variables were provided: {}", ", ".join(self.__pydantic_extra__))
     # Logging Configuration ― not actually used to configure Loguru, but defined to prevent warnings about “unknown” environment variables
-    LOG_LEVEL: Literal["DEBUG", "INFO", "WARNING", "ERROR", "CRITICAL"] = Field(default_factory=lambda data: "DEBUG" if data.get("DEBUG", False) else "INFO")
-    LOG_FORMAT: Literal["text", "json"] = "json"
     # APScheduler Configuration
-    SCHEDULER_TIMEZONE: Optional[str] = "UTC"
     # Slack Configuration
-    SLACK_BOT_TOKEN: SecretStr
-    SLACK_APP_TOKEN: SecretStr
     # Vectorization Configuration
-    EMBEDDING_MODEL: str
-    VECTOR_DIMENSION: PositiveInt
-    CHUNK_SIZE: PositiveInt
-    CHUNK_OVERLAP: NonNegativeInt
-    TOP_K_MATCHES: PositiveInt
     # MongoDB Configuration
-    MONGODB_URI: SecretStr # TODO: Contemplate switching to MongoDsn type for the main URL, and separate out the credentials to SecretStr variables.
-    MONGODB_NAME: str
-    VECTORIZED_CHUNKS_COLLECTION_NAME: str = "vectorized_chunks"
-    VECTORIZED_CHUNKS_SEARCH_INDEX_NAME: Optional[str] = None
-    SCORE_THRESHOLD: NonNegativeFloat
     # Hugging Face Configuration
-    HF_API_TOKEN: Optional[SecretStr] = None # TODO: Currently, this is unused.
     # OpenAI Configuration
-    OPENAI_API_KEY: SecretStr
-    CHAT_MODEL: str
-    MAX_TOKENS: PositiveInt
-    TEMPERATURE: NonNegativeFloat
-    SYSTEM_PROMPT: str
     # Google Drive Configuration
-    GOOGLE_DRIVE_ROOT_ID: str
-    GOOGLE_PROJECT_ID: str
-    GOOGLE_PRIVATE_KEY_ID: SecretStr
-    GOOGLE_PRIVATE_KEY: SecretStr
-    GOOGLE_CLIENT_ID: str
-    GOOGLE_CLIENT_EMAIL: str
-    GOOGLE_AUTH_URI: str = "https://accounts.google.com/o/oauth2/auth"
-    GOOGLE_TOKEN_URI: str = "https://oauth2.googleapis.com/token"
-    GOOGLE_AUTH_PROVIDER_CERT_URL: str = "https://www.googleapis.com/oauth2/v1/certs"
-    GOOGLE_CLIENT_CERT_URL: str = "https://www.googleapis.com/robot/v1/metadata/x509/ctp-slack-bot-714%40voltaic-reducer-294821.iam.gserviceaccount.com"
-    GOOGLE_UNIVERSE_DOMAIN: str = "googleapis.com"
     # File Monitoring Configuration
-    FILE_MONITOR_ROOT_PATH: str = ""
-    model_config = SettingsConfigDict(
-        env_file=".env",
-        env_file_encoding="utf-8",
-        case_sensitive=True,
-        extra="allow",
-        frozen=True
-    )
     def get_extra_environment_variables(self: Self) -> Mapping[str, str]:
         return MappingProxyType(self.__pydantic_extra__)

 from loguru import logger
+from pydantic import EmailStr, Field, MongoDsn, NonNegativeFloat, NonNegativeInt, PositiveInt, SecretStr
 from pydantic_settings import BaseSettings, SettingsConfigDict
 from types import MappingProxyType
 from typing import Literal, Mapping, Optional, Self
 class Settings(BaseSettings):
     """
     Application settings loaded from environment variables.
     """
+    model_config = SettingsConfigDict(
+        case_sensitive=False,
+        env_file=".env",
+        env_file_encoding="utf-8",
+        extra="allow",
+        frozen=True
+    )
     # Logging Configuration ― not actually used to configure Loguru, but defined to prevent warnings about “unknown” environment variables
+    log_level: Literal["DEBUG", "INFO", "WARNING", "ERROR", "CRITICAL"] = Field(default_factory=lambda data: "DEBUG" if data.get("DEBUG", False) else "INFO")
+    log_format: Literal["text", "json"] = "json"
+    # HTTP Server Configuration
+    http_host: str = "0.0.0.0"
+    http_port: PositiveInt = 8080
     # APScheduler Configuration
+    scheduler_timezone: Optional[str] = "UTC"
     # Slack Configuration
+    slack_bot_token: SecretStr
+    slack_app_token: SecretStr
     # Vectorization Configuration
+    embedding_model: str
+    vector_dimension: PositiveInt
+    chunk_size: PositiveInt
+    chunk_overlap: NonNegativeInt
+    top_k_matches: PositiveInt
     # MongoDB Configuration
+    mongodb_uri: SecretStr # TODO: Contemplate switching to MongoDsn type for the main URL, and separate out the credentials to SecretStr variables.
+    mongodb_name: str
+    vectorized_chunks_collection_name: str = "vectorized_chunks"
+    vectorized_chunks_search_index_name: Optional[str] = None
+    score_threshold: NonNegativeFloat
     # Hugging Face Configuration
+    hf_api_token: Optional[SecretStr] = None # TODO: Currently, this is unused.
     # OpenAI Configuration
+    openai_api_key: SecretStr
+    chat_model: str
+    max_tokens: PositiveInt
+    temperature: NonNegativeFloat
+    system_prompt: str
     # Google Drive Configuration
+    google_drive_root_id: str
+    google_project_id: str
+    google_private_key_id: SecretStr
+    google_private_key: SecretStr
+    google_client_id: str
+    google_client_email: EmailStr
+    google_token_uri: str = "https://oauth2.googleapis.com/token"
     # File Monitoring Configuration
+    file_monitor_root_path: str = ""
+    def __init__(self: Self, **data) -> None:
+        super().__init__(**data)
+        logger.debug("Created {}", self.__class__.__name__)
+        if self.__pydantic_extra__:
+            logger.warning("Extra unrecognized environment variables were provided: {}", ", ".join(self.__pydantic_extra__))
     def get_extra_environment_variables(self: Self) -> Mapping[str, str]:
         return MappingProxyType(self.__pydantic_extra__)

src/ctp_slack_bot/core/logging.py CHANGED Viewed

@@ -4,6 +4,7 @@ from os import access, getenv, W_OK
 from sys import stderr
 from typing import Self
 class InterceptHandler(Handler):
     """
     Intercept standard logging messages toward Loguru.
@@ -39,8 +40,8 @@ def setup_logging() -> None:
     """
     # Get logger configuration from environment variables.
-    log_level = getenv("LOG_LEVEL", "INFO")
-    log_format = getenv("LOG_FORMAT", "text")
     # Remove default loguru handler.
     logger.remove()

 from sys import stderr
 from typing import Self
 class InterceptHandler(Handler):
     """
     Intercept standard logging messages toward Loguru.
     """
     # Get logger configuration from environment variables.
+    log_level = getenv("log_level", "INFO")
+    log_format = getenv("log_format", "text")
     # Remove default loguru handler.
     logger.remove()

src/ctp_slack_bot/db/mongo_db.py CHANGED Viewed

@@ -1,34 +1,29 @@
 from dependency_injector.resources import AsyncResource
-from motor.motor_asyncio import AsyncIOMotorClient, AsyncIOMotorCollection
 from pymongo.errors import ConnectionFailure, ServerSelectionTimeoutError
 from loguru import logger
-from pydantic import BaseModel, PrivateAttr
-from typing import Any, Dict, Self
-from ctp_slack_bot.core.config import Settings
 from ctp_slack_bot.utils import sanitize_mongo_db_uri
-class MongoDB(BaseModel):
     """
     MongoDB connection manager using Motor for async operations.
     """
-    settings: Settings
-    _client: PrivateAttr = PrivateAttr()
-    _db: PrivateAttr = PrivateAttr()
-    class Config:
-        frozen=True
-        arbitrary_types_allowed = True
-    def __init__(self: Self, **data: Dict[str, Any]) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
     def connect(self: Self) -> None:
         """Initialize MongoDB client with settings."""
         try:
-            connection_string = self.settings.MONGODB_URI.get_secret_value()
             logger.debug("Connecting to MongoDB using URI: {}", sanitize_mongo_db_uri(connection_string))
             # Create client with appropriate settings.
@@ -43,7 +38,7 @@ class MongoDB(BaseModel):
             )
             # Get the database name.
-            db_name = self.settings.MONGODB_NAME
             self._db = self._client[db_name]
             logger.debug("MongoDB client initialized for database: {}", db_name)
@@ -104,9 +99,17 @@ class MongoDB(BaseModel):
             self._client = None
             self._db = None
 class MongoDBResource(AsyncResource):
     async def init(self: Self, settings: Settings) -> MongoDB:
-        logger.info("Initializing MongoDB connection for database: {}", settings.MONGODB_NAME)
         mongo_db = MongoDB(settings=settings)
         mongo_db.connect()
         await self._test_connection(mongo_db)

 from dependency_injector.resources import AsyncResource
+from motor.motor_asyncio import AsyncIOMotorClient, AsyncIOMotorDatabase, AsyncIOMotorCollection
 from pymongo.errors import ConnectionFailure, ServerSelectionTimeoutError
 from loguru import logger
+from pydantic import ConfigDict
+from typing import Any, Self
+from ctp_slack_bot.core import HealthReportingApplicationComponentBase, Settings
 from ctp_slack_bot.utils import sanitize_mongo_db_uri
+class MongoDB(HealthReportingApplicationComponentBase):
     """
     MongoDB connection manager using Motor for async operations.
     """
+    model_config = ConfigDict(frozen=True)
+    settings: Settings
+    _client: AsyncIOMotorClient
+    _db: AsyncIOMotorDatabase
     def connect(self: Self) -> None:
         """Initialize MongoDB client with settings."""
         try:
+            connection_string = self.settings.mongodb_uri.get_secret_value()
             logger.debug("Connecting to MongoDB using URI: {}", sanitize_mongo_db_uri(connection_string))
             # Create client with appropriate settings.
             )
             # Get the database name.
+            db_name = self.settings.mongodb_name
             self._db = self._client[db_name]
             logger.debug("MongoDB client initialized for database: {}", db_name)
             self._client = None
             self._db = None
+    @property
+    def name(self: Self) -> str:
+        return "mongo_db"
+    async def is_healthy(self: Self) -> bool:
+        return await self.ping()
 class MongoDBResource(AsyncResource):
     async def init(self: Self, settings: Settings) -> MongoDB:
+        logger.info("Initializing MongoDB connection for database: {}", settings.mongodb_name)
         mongo_db = MongoDB(settings=settings)
         mongo_db.connect()
         await self._test_connection(mongo_db)

src/ctp_slack_bot/db/repositories/mongo_db_vectorized_chunk_repository.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from dependency_injector.resources import AsyncResource
 from loguru import logger
 from pymongo import ASCENDING, ReturnDocument
-from typing import Any, Collection, Dict, Iterable, Mapping, Optional, Self, Sequence, Set
 from ctp_slack_bot.core import Settings
 from ctp_slack_bot.models import Chunk, VectorizedChunk, VectorQuery
@@ -13,10 +13,6 @@ from ctp_slack_bot.db.repositories.vector_repository_base import VectorRepositor
 class MongoVectorizedChunkRepository(VectorRepositoryBase, VectorizedChunkRepository):
     """MongoDB implementation of VectorizedChunkRepository"""
-    def __init__(self: Self, **data: Dict[str, Any]) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
     async def count_by_id(self: Self, parent_id: str, chunk_id: Optional[str] = None) -> int:
         if chunk_id is None:
             return await self.collection.count_documents({"parent_id": parent_id})
@@ -54,7 +50,7 @@ class MongoVectorizedChunkRepository(VectorRepositoryBase, VectorizedChunkReposi
         pipeline = [
             {
                 "$vectorSearch": {
-                    "index": self.settings.VECTORIZED_CHUNKS_SEARCH_INDEX_NAME or f"{self.collection.name}_vector_index",
                     "path": "embedding",
                     "queryVector": query.query_embeddings,
                     "numCandidates": query.k * 10,
@@ -133,12 +129,20 @@ class MongoVectorizedChunkRepository(VectorRepositoryBase, VectorizedChunkReposi
         await super().ensure_indices_exist()
         index_name = "parent_chunk_unique"
         existing_indices = await self.collection.index_information()
-        if index_name not in existing_indices:
             await self.collection.create_index([("parent_id", ASCENDING), ("chunk_id", ASCENDING)], unique=True, name=index_name)
 class MongoVectorizedChunkRepositoryResource(AsyncResource):
     async def init(self: Self, settings: Settings, mongo_db: MongoDB) -> MongoVectorizedChunkRepository:
-        vectorized_chunk_collection = await mongo_db.get_collection(settings.VECTORIZED_CHUNKS_COLLECTION_NAME)
         vectorized_chunk_repository = MongoVectorizedChunkRepository(settings=settings, collection=vectorized_chunk_collection)
         await vectorized_chunk_repository.ensure_indices_exist()
         return vectorized_chunk_repository

 from dependency_injector.resources import AsyncResource
 from loguru import logger
 from pymongo import ASCENDING, ReturnDocument
+from typing import Any, Collection, Iterable, Mapping, Optional, Self, Sequence, Set
 from ctp_slack_bot.core import Settings
 from ctp_slack_bot.models import Chunk, VectorizedChunk, VectorQuery
 class MongoVectorizedChunkRepository(VectorRepositoryBase, VectorizedChunkRepository):
     """MongoDB implementation of VectorizedChunkRepository"""
     async def count_by_id(self: Self, parent_id: str, chunk_id: Optional[str] = None) -> int:
         if chunk_id is None:
             return await self.collection.count_documents({"parent_id": parent_id})
         pipeline = [
             {
                 "$vectorSearch": {
+                    "index": self.settings.vectorized_chunks_search_index_name or f"{self.collection.name}_vector_index",
                     "path": "embedding",
                     "queryVector": query.query_embeddings,
                     "numCandidates": query.k * 10,
         await super().ensure_indices_exist()
         index_name = "parent_chunk_unique"
         existing_indices = await self.collection.index_information()
+        logger.debug("{} existing indices were found: {}", len(existing_indices), existing_indices)
+        if index_name in existing_indices:
+            logger.debug("Index, {}, already exists; duplicate index will not be created.", index_name)
+        else:
             await self.collection.create_index([("parent_id", ASCENDING), ("chunk_id", ASCENDING)], unique=True, name=index_name)
+    @property
+    def name(self: Self) -> str:
+        return "mongo_db_vectorized_chunk_repository"
 class MongoVectorizedChunkRepositoryResource(AsyncResource):
     async def init(self: Self, settings: Settings, mongo_db: MongoDB) -> MongoVectorizedChunkRepository:
+        vectorized_chunk_collection = await mongo_db.get_collection(settings.vectorized_chunks_collection_name)
         vectorized_chunk_repository = MongoVectorizedChunkRepository(settings=settings, collection=vectorized_chunk_collection)
         await vectorized_chunk_repository.ensure_indices_exist()
         return vectorized_chunk_repository

src/ctp_slack_bot/db/repositories/vector_repository_base.py CHANGED Viewed

@@ -1,22 +1,20 @@
-from abc import ABC
 from loguru import logger
 from motor.motor_asyncio import AsyncIOMotorCollection
-from pydantic import BaseModel
 from pymongo.operations import SearchIndexModel
 from typing import Self
-from ctp_slack_bot.core import Settings
-class VectorRepositoryBase(ABC, BaseModel):
     """MongoDB implementation of VectorizedChunkRepository"""
     settings: Settings
     collection: AsyncIOMotorCollection
-    class Config:
-        frozen=True
-        arbitrary_types_allowed = True
     async def ensure_indices_exist(self: Self) -> None:
         """Ensure that indices exist."""
         await self.ensure_search_index_exists()
@@ -25,12 +23,12 @@ class VectorRepositoryBase(ABC, BaseModel):
         """
         Ensure that a vector search index exists.
         """
-        index_name = self.settings.VECTORIZED_CHUNKS_SEARCH_INDEX_NAME or f"{self.collection.name}_vector_index"
         try:
-            existing_indexes = [index["name"] async for index in self.collection.list_search_indexes()]
-            logger.debug("{} existing indices were found: {}", len(existing_indexes), existing_indexes)
-            if index_name in existing_indexes:
-                logger.debug("Index '{}' already exists; duplicate index will not be created.", index_name)
                 return
             # Create search index model using MongoDB's recommended approach.
@@ -40,7 +38,7 @@ class VectorRepositoryBase(ABC, BaseModel):
                         {
                             "type": "vector",
                             "path": "embedding",
-                            "numDimensions": self.settings.VECTOR_DIMENSION,
                             "similarity": "cosine",
                             "quantization": "scalar"
                         }
@@ -50,13 +48,12 @@ class VectorRepositoryBase(ABC, BaseModel):
                 type="vectorSearch"
             )
             result = await self.collection.create_search_index(search_index_model)
-            logger.info("Vector search index '{}' created for collection {}.", result, self.collection.name)
         except Exception as e:
             if "command not found" in str(e).lower():
                 logger.warning("Vector search not supported by this MongoDB instance. Some functionality may be limited.")
-                # Create a fallback standard index on embedding field.
-                await self.collection.create_index("embedding")
-                logger.info("Created standard index on {} field as fallback.", "embedding")
             else:
                 logger.error("Failed to create any index: {}", e)
                 raise

 from loguru import logger
 from motor.motor_asyncio import AsyncIOMotorCollection
+from pydantic import ConfigDict
 from pymongo.operations import SearchIndexModel
 from typing import Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
+class VectorRepositoryBase(ApplicationComponentBase):
     """MongoDB implementation of VectorizedChunkRepository"""
+    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
     settings: Settings
     collection: AsyncIOMotorCollection
     async def ensure_indices_exist(self: Self) -> None:
         """Ensure that indices exist."""
         await self.ensure_search_index_exists()
         """
         Ensure that a vector search index exists.
         """
+        index_name = self.settings.vectorized_chunks_search_index_name or f"{self.collection.name}_vector_index"
         try:
+            existing_indices = [index["name"] async for index in self.collection.list_search_indexes()]
+            logger.debug("{} existing indices were found: {}", len(existing_indices), existing_indices)
+            if index_name in existing_indices:
+                logger.debug("Index, {}, already exists; duplicate index will not be created.", index_name)
                 return
             # Create search index model using MongoDB's recommended approach.
                         {
                             "type": "vector",
                             "path": "embedding",
+                            "numDimensions": self.settings.vector_dimension,
                             "similarity": "cosine",
                             "quantization": "scalar"
                         }
                 type="vectorSearch"
             )
             result = await self.collection.create_search_index(search_index_model)
+            logger.info("Vector search index, {}, created for collection {}.", result, self.collection.name)
         except Exception as e:
             if "command not found" in str(e).lower():
                 logger.warning("Vector search not supported by this MongoDB instance. Some functionality may be limited.")
+                await self.collection.create_index("embedding") # Create a fallback standard index on embedding field.
+                logger.info("Created standard index on field, {}, as fallback.", "embedding")
             else:
                 logger.error("Failed to create any index: {}", e)
                 raise

src/ctp_slack_bot/db/repositories/vectorized_chunk_repository.py CHANGED Viewed

@@ -1,10 +1,12 @@
-from abc import ABC, abstractmethod
 from pydantic import BaseModel
 from typing import Any, Collection, Iterable, Mapping, Optional, Self, Sequence, Set
 from ctp_slack_bot.models import Chunk, VectorizedChunk, VectorQuery
-class VectorizedChunkRepository(ABC, BaseModel):
     """Repository interface for VectorizedChunk entities."""
     @abstractmethod

+from abc import abstractmethod
 from pydantic import BaseModel
 from typing import Any, Collection, Iterable, Mapping, Optional, Self, Sequence, Set
+from ctp_slack_bot.core import ApplicationComponentBase
 from ctp_slack_bot.models import Chunk, VectorizedChunk, VectorQuery
+class VectorizedChunkRepository(ApplicationComponentBase):
     """Repository interface for VectorizedChunk entities."""
     @abstractmethod

src/ctp_slack_bot/mime_type_handlers/base.py CHANGED Viewed

@@ -1,6 +1,6 @@
-from abc import ABCMeta, abstractmethod
 from functools import lru_cache
-from typing import Any, ClassVar, Dict, Mapping, Optional
 from ctp_slack_bot.models import Content
@@ -9,13 +9,13 @@ class MimeTypeHandlerMeta(type):
     _registry: ClassVar[dict[str, type["BaseMimeTypeHandler"]]] = {}
-    def __init__(cls, name: str, bases: tuple[type, ...], dict: Dict[str, Any]) -> None:
         super().__init__(name, bases, dict)
         if hasattr(cls, "MIME_TYPE"):
             MimeTypeHandlerMeta._registry[cls.MIME_TYPE] = cls
-class MimeTypeHandlerABCMeta(MimeTypeHandlerMeta, ABCMeta):
     pass

+from abc import ABC, abstractmethod
 from functools import lru_cache
+from typing import Any, ClassVar, Mapping, Optional
 from ctp_slack_bot.models import Content
     _registry: ClassVar[dict[str, type["BaseMimeTypeHandler"]]] = {}
+    def __init__(cls, name: str, bases: tuple[type, ...], dict: dict[str, Any]) -> None:
         super().__init__(name, bases, dict)
         if hasattr(cls, "MIME_TYPE"):
             MimeTypeHandlerMeta._registry[cls.MIME_TYPE] = cls
+class MimeTypeHandlerABCMeta(MimeTypeHandlerMeta, type(ABC)):
     pass

src/ctp_slack_bot/mime_type_handlers/text/vtt.py CHANGED Viewed

@@ -11,6 +11,7 @@ from ctp_slack_bot.models import Content, WebVTTContent, WebVTTFrame
 ISO_DATE_TIME_PATTERN = compile_re(r"Start time: (\d{4}-\d{2}-\d{2}(?: \d{2}:\d{2}:\d{2}(?:Z|[+-]\d{2}:\d{2})?)?)")
 class WebVTTMimeTypeHandler(MimeTypeHandler):
     MIME_TYPE = "text/vtt"

 ISO_DATE_TIME_PATTERN = compile_re(r"Start time: (\d{4}-\d{2}-\d{2}(?: \d{2}:\d{2}:\d{2}(?:Z|[+-]\d{2}:\d{2})?)?)")
 class WebVTTMimeTypeHandler(MimeTypeHandler):
     MIME_TYPE = "text/vtt"

src/ctp_slack_bot/models/base.py CHANGED Viewed

@@ -1,19 +1,21 @@
-from abc import ABC, abstractmethod
 from pydantic import BaseModel, ConfigDict, Field, field_validator
 from typing import Any, final, Mapping, Optional, Self
 from ctp_slack_bot.utils import to_deep_immutable
 class Chunk(BaseModel):
     """A class representing a chunk of content."""
     text: str                   # The text representation
     parent_id: str              # The source content’s identity
     chunk_id: str               # This chunk’s identity—unique within the source content
-    metadata: Mapping[str, Any] = Field(default_factory=dict)
-    model_config = ConfigDict(frozen=True)
     @field_validator('metadata')
     @classmethod
@@ -32,12 +34,12 @@ class VectorQuery(BaseModel):
         filter_metadata: Optional filters for metadata fields
     """
     query_embeddings: tuple[float, ...]
     k: int
     score_threshold: float = Field(default=0.7)
-    filter_metadata: Mapping[str, Any] = Field(default_factory=dict)
-    model_config = ConfigDict(frozen=True)
     @field_validator('filter_metadata')
     @classmethod
@@ -52,7 +54,7 @@ class VectorizedChunk(Chunk):
     embedding: tuple[float, ...] # The vector representation
-class Content(ABC, BaseModel):
     """An abstract base class for all types of content."""
     model_config = ConfigDict(frozen=True)

+from abc import abstractmethod
 from pydantic import BaseModel, ConfigDict, Field, field_validator
+from types import MappingProxyType
 from typing import Any, final, Mapping, Optional, Self
+from ctp_slack_bot.core import AbstractBaseModel
 from ctp_slack_bot.utils import to_deep_immutable
 class Chunk(BaseModel):
     """A class representing a chunk of content."""
+    model_config = ConfigDict(frozen=True)
     text: str                   # The text representation
     parent_id: str              # The source content’s identity
     chunk_id: str               # This chunk’s identity—unique within the source content
+    metadata: Mapping[str, Any] = Field(default_factory=lambda: MappingProxyType({}))
     @field_validator('metadata')
     @classmethod
         filter_metadata: Optional filters for metadata fields
     """
+    model_config = ConfigDict(frozen=True)
     query_embeddings: tuple[float, ...]
     k: int
     score_threshold: float = Field(default=0.7)
+    filter_metadata: Mapping[str, Any] = Field(default_factory=lambda: MappingProxyType({}))
     @field_validator('filter_metadata')
     @classmethod
     embedding: tuple[float, ...] # The vector representation
+class Content(AbstractBaseModel):
     """An abstract base class for all types of content."""
     model_config = ConfigDict(frozen=True)

src/ctp_slack_bot/models/google_drive.py CHANGED Viewed

@@ -6,14 +6,14 @@ from typing import Self
 class GoogleDriveMetadata(BaseModel):
     """Represents Google Drive file or folder metadata."""
     id: str
     name: str
     modified_time: datetime
     mime_type: str
     folder_path: str
-    model_config = ConfigDict(frozen=True)
     @classmethod
     def from_folder_path_and_dict(cls, folder_path: str, dict: dict) -> Self:
         id = dict["id"]

 class GoogleDriveMetadata(BaseModel):
     """Represents Google Drive file or folder metadata."""
+    model_config = ConfigDict(frozen=True)
     id: str
     name: str
     modified_time: datetime
     mime_type: str
     folder_path: str
     @classmethod
     def from_folder_path_and_dict(cls, folder_path: str, dict: dict) -> Self:
         id = dict["id"]

src/ctp_slack_bot/models/slack.py CHANGED Viewed

@@ -1,21 +1,26 @@
 from datetime import datetime
 from json import dumps
-from pydantic import BaseModel, ConfigDict, PositiveInt, PrivateAttr
 from types import MappingProxyType
 from typing import Any, Literal, Mapping, Optional, Self
 from ctp_slack_bot.models.base import Chunk, Content
 class SlackEventPayload(BaseModel):
     """Represents a general event payload from Slack."""
     type: str
     event_ts: str
-    model_config = ConfigDict(extra='allow', frozen=True)
 class SlackEvent(BaseModel):
     """Represents a general event from Slack."""
     token: str
     team_id: str
     api_app_id: str
@@ -25,24 +30,25 @@ class SlackEvent(BaseModel):
     event_time: int
     authed_users: tuple[str, ...]
-    model_config = ConfigDict(frozen=True)
 class SlackUserTimestampPair(BaseModel):
     """Represents a Slack user-timestamp pair."""
     user: str
     ts: str
-    model_config = ConfigDict(frozen=True)
 class SlackReaction(BaseModel):
     """Represents a Slack reaction information."""
     name: str
     count: PositiveInt
     users: tuple[str, ...]
-    model_config = ConfigDict(frozen=True)
 class SlackMessage(Content):
     """Represents a message from Slack after adaptation."""
@@ -76,9 +82,12 @@ class SlackMessage(Content):
             "modificationTime": datetime.fromtimestamp(float(self.ts))
         })
 class SlackResponse(BaseModel): # TODO: This should also be based on Content as it is a SlackMessage―just not one for which we know the identity yet.
     """Represents a response message to be sent to Slack."""
     text: str
     channel: Optional[str]
     thread_ts: Optional[str] = None

 from datetime import datetime
 from json import dumps
+from pydantic import BaseModel, ConfigDict, PositiveInt
 from types import MappingProxyType
 from typing import Any, Literal, Mapping, Optional, Self
 from ctp_slack_bot.models.base import Chunk, Content
 class SlackEventPayload(BaseModel):
     """Represents a general event payload from Slack."""
+    model_config = ConfigDict(extra='allow', frozen=True)
     type: str
     event_ts: str
 class SlackEvent(BaseModel):
     """Represents a general event from Slack."""
+    model_config = ConfigDict(frozen=True)
     token: str
     team_id: str
     api_app_id: str
     event_time: int
     authed_users: tuple[str, ...]
 class SlackUserTimestampPair(BaseModel):
     """Represents a Slack user-timestamp pair."""
+    model_config = ConfigDict(frozen=True)
     user: str
     ts: str
 class SlackReaction(BaseModel):
     """Represents a Slack reaction information."""
+    model_config = ConfigDict(frozen=True)
     name: str
     count: PositiveInt
     users: tuple[str, ...]
 class SlackMessage(Content):
     """Represents a message from Slack after adaptation."""
             "modificationTime": datetime.fromtimestamp(float(self.ts))
         })
 class SlackResponse(BaseModel): # TODO: This should also be based on Content as it is a SlackMessage―just not one for which we know the identity yet.
     """Represents a response message to be sent to Slack."""
+    model_config = ConfigDict(frozen=True)
     text: str
     channel: Optional[str]
     thread_ts: Optional[str] = None

src/ctp_slack_bot/models/webvtt.py CHANGED Viewed

@@ -18,14 +18,14 @@ SPEAKER_SPEECH_TEXT_SEPARATOR = ": "
 class WebVTTFrame(BaseModel):
     """Represents a WebVTT frame"""
     identifier: str
     start: timedelta
     end: timedelta
     speaker: Optional[str] = None
     speech: str
-    model_config = ConfigDict(frozen=True)
     @classmethod
     def from_webvtt_caption(cls, caption: Caption, index: int) -> Self:
         identifier = caption.identifier if caption.identifier else str(index)
@@ -42,7 +42,7 @@ class WebVTTContent(Content):
     """Represents parsed WebVTT content."""
     id: str
-    metadata: Mapping[str, Any] = Field(default_factory=dict)
     start_time: Optional[datetime]
     frames: tuple[WebVTTFrame, ...]

 class WebVTTFrame(BaseModel):
     """Represents a WebVTT frame"""
+    model_config = ConfigDict(frozen=True)
     identifier: str
     start: timedelta
     end: timedelta
     speaker: Optional[str] = None
     speech: str
     @classmethod
     def from_webvtt_caption(cls, caption: Caption, index: int) -> Self:
         identifier = caption.identifier if caption.identifier else str(index)
     """Represents parsed WebVTT content."""
     id: str
+    metadata: Mapping[str, Any] = Field(default_factory=lambda: MappingProxyType({}))
     start_time: Optional[datetime]
     frames: tuple[WebVTTFrame, ...]

src/ctp_slack_bot/services/__init__.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from ctp_slack_bot.services.answer_retrieval_service import AnswerRetrievalService
 from ctp_slack_bot.services.content_ingestion_service import ContentIngestionService
 from ctp_slack_bot.services.context_retrieval_service import ContextRetrievalService
 from ctp_slack_bot.services.embeddings_model_service import EmbeddingsModelService

 from ctp_slack_bot.services.answer_retrieval_service import AnswerRetrievalService
+from ctp_slack_bot.services.application_health_service import ApplicationHealthService
 from ctp_slack_bot.services.content_ingestion_service import ContentIngestionService
 from ctp_slack_bot.services.context_retrieval_service import ContextRetrievalService
 from ctp_slack_bot.services.embeddings_model_service import EmbeddingsModelService

src/ctp_slack_bot/services/answer_retrieval_service.py CHANGED Viewed

@@ -1,30 +1,25 @@
 from loguru import logger
-from pydantic import BaseModel
 from typing import Collection, Self
-from ctp_slack_bot.core import Settings
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import Chunk, SlackMessage, SlackResponse
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 from ctp_slack_bot.services.language_model_service import LanguageModelService
-class AnswerRetrievalService(BaseModel):
     """
     Service for context-based answer retrievel from a language model.
     """
     settings: Settings
     event_brokerage_service: EventBrokerageService
     language_model_service: LanguageModelService
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
     async def push(self: Self, question: SlackMessage, context: Collection[Chunk]) -> None:
         channel_to_respond_to = question.channel
         thread_to_respond_to = question.thread_ts if question.thread_ts else question.ts
@@ -32,3 +27,7 @@ class AnswerRetrievalService(BaseModel):
         logger.debug("Pushing response to channel {} and thread {}: {}", channel_to_respond_to, thread_to_respond_to, answer)
         slack_response = SlackResponse(text=answer, channel=channel_to_respond_to, thread_ts=thread_to_respond_to)
         await self.event_brokerage_service.publish(EventType.OUTGOING_SLACK_RESPONSE, slack_response)

 from loguru import logger
+from pydantic import ConfigDict
 from typing import Collection, Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import Chunk, SlackMessage, SlackResponse
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 from ctp_slack_bot.services.language_model_service import LanguageModelService
+class AnswerRetrievalService(ApplicationComponentBase):
     """
     Service for context-based answer retrievel from a language model.
     """
+    model_config = ConfigDict(frozen=True)
     settings: Settings
     event_brokerage_service: EventBrokerageService
     language_model_service: LanguageModelService
     async def push(self: Self, question: SlackMessage, context: Collection[Chunk]) -> None:
         channel_to_respond_to = question.channel
         thread_to_respond_to = question.thread_ts if question.thread_ts else question.ts
         logger.debug("Pushing response to channel {} and thread {}: {}", channel_to_respond_to, thread_to_respond_to, answer)
         slack_response = SlackResponse(text=answer, channel=channel_to_respond_to, thread_ts=thread_to_respond_to)
         await self.event_brokerage_service.publish(EventType.OUTGOING_SLACK_RESPONSE, slack_response)
+    @property
+    def name(self: Self) -> str:
+        return "answer_retrieval_service"

src/ctp_slack_bot/services/application_database_service.py CHANGED Viewed

@@ -1,25 +1,20 @@
 from datetime import datetime
 from loguru import logger
-from pydantic import BaseModel, PrivateAttr
 from typing import Iterable, Mapping, Self
-from ctp_slack_bot.core import Settings
 from ctp_slack_bot.db import MongoDB
-class ApplicationDatabaseService(BaseModel):
     """Service for retrieving and persisting application state."""
     settings: Settings
     mongo_db: MongoDB # TODO: This should be replaced following the repository pattern―one repository class per collection.
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
     async def get_last_modification_times_by_file_paths(self: Self, file_paths: Iterable[str]) -> Mapping[str, datetime]:
         """Retrieve the last modification time for each file path."""
         raise NotImplementedError() # TODO
@@ -27,3 +22,7 @@ class ApplicationDatabaseService(BaseModel):
     async def set_last_modification_time_by_file_path(self: Self, file_path: str, modification_time: datetime) -> None:
         """Set the last modification time for a file path."""
         raise NotImplementedError() # TODO

 from datetime import datetime
 from loguru import logger
+from pydantic import ConfigDict
 from typing import Iterable, Mapping, Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.db import MongoDB
+class ApplicationDatabaseService(ApplicationComponentBase):
     """Service for retrieving and persisting application state."""
+    model_config = ConfigDict(frozen=True)
     settings: Settings
     mongo_db: MongoDB # TODO: This should be replaced following the repository pattern―one repository class per collection.
     async def get_last_modification_times_by_file_paths(self: Self, file_paths: Iterable[str]) -> Mapping[str, datetime]:
         """Retrieve the last modification time for each file path."""
         raise NotImplementedError() # TODO
     async def set_last_modification_time_by_file_path(self: Self, file_path: str, modification_time: datetime) -> None:
         """Set the last modification time for a file path."""
         raise NotImplementedError() # TODO
+    @property
+    def name(self: Self) -> str:
+        return "application_database_service"

src/ctp_slack_bot/services/application_health_service.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from loguru import logger
+from pydantic import ConfigDict
+from types import MappingProxyType
+from typing import Collection, Mapping, Self
+from ctp_slack_bot.core import ApplicationComponentBase, HealthReportingApplicationComponentBase
+class ApplicationHealthService(ApplicationComponentBase):
+    """
+    Service for checking and reporting application health.
+    """
+    model_config = ConfigDict(frozen=True)
+    services: list[HealthReportingApplicationComponentBase]
+    async def get_health(self: Self) -> Mapping[str, bool]:
+        return MappingProxyType({service.name: await service.is_healthy()
+                                 for service
+                                 in self.services})
+    @property
+    def name(self: Self) -> str:
+        return "application_health_service"

src/ctp_slack_bot/services/content_ingestion_service.py CHANGED Viewed

@@ -1,32 +1,31 @@
 from loguru import logger
-from pydantic import BaseModel
-from typing import Self, Sequence, Set
-from ctp_slack_bot.core import Settings
 from ctp_slack_bot.db.repositories import VectorizedChunkRepository
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import Chunk, Content, SlackMessage
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 from ctp_slack_bot.services.vectorization_service import VectorizationService
-class ContentIngestionService(BaseModel):
     """
     Service for ingesting content.
     """
     settings: Settings
     event_brokerage_service: EventBrokerageService
     vectorized_chunk_repository: VectorizedChunkRepository
     vectorization_service: VectorizationService
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
         self.event_brokerage_service.subscribe(EventType.INCOMING_CONTENT, self.process_incoming_content)
         # self.event_brokerage_service.subscribe(EventType.INCOMING_SLACK_MESSAGE, self.process_incoming_slack_message)
-        logger.debug("Created {}", self.__class__.__name__)
     async def process_incoming_content(self: Self, content: Content) -> None:
         logger.debug("Content ingestion service received content with metadata: {}", content.get_metadata())
@@ -46,3 +45,7 @@ class ContentIngestionService(BaseModel):
     async def __vectorize_and_store_chunks_in_database(self: Self, chunks: Sequence[Chunk]) -> Set[str]:
         vectorized_chunks = await self.vectorization_service.vectorize(chunks)
         return await self.vectorized_chunk_repository.insert_many(vectorized_chunks)

 from loguru import logger
+from pydantic import ConfigDict
+from typing import Any, Self, Sequence, Set
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.db.repositories import VectorizedChunkRepository
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import Chunk, Content, SlackMessage
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 from ctp_slack_bot.services.vectorization_service import VectorizationService
+class ContentIngestionService(ApplicationComponentBase):
     """
     Service for ingesting content.
     """
+    model_config = ConfigDict(frozen=True)
     settings: Settings
     event_brokerage_service: EventBrokerageService
     vectorized_chunk_repository: VectorizedChunkRepository
     vectorization_service: VectorizationService
+    def model_post_init(self: Self, context: Any, /) -> None:
+        super().model_post_init(context)
         self.event_brokerage_service.subscribe(EventType.INCOMING_CONTENT, self.process_incoming_content)
         # self.event_brokerage_service.subscribe(EventType.INCOMING_SLACK_MESSAGE, self.process_incoming_slack_message)
     async def process_incoming_content(self: Self, content: Content) -> None:
         logger.debug("Content ingestion service received content with metadata: {}", content.get_metadata())
     async def __vectorize_and_store_chunks_in_database(self: Self, chunks: Sequence[Chunk]) -> Set[str]:
         vectorized_chunks = await self.vectorization_service.vectorize(chunks)
         return await self.vectorized_chunk_repository.insert_many(vectorized_chunks)
+    @property
+    def name(self: Self) -> str:
+        return "content_ingestion_service"

src/ctp_slack_bot/services/context_retrieval_service.py CHANGED Viewed

@@ -1,28 +1,24 @@
 from loguru import logger
-from pydantic import BaseModel
 from typing import Self, Sequence
-from ctp_slack_bot.core.config import Settings
 from ctp_slack_bot.db.repositories import VectorizedChunkRepository
 from ctp_slack_bot.models import Chunk, SlackMessage, VectorQuery, VectorizedChunk
 from ctp_slack_bot.services.vectorization_service import VectorizationService
-class ContextRetrievalService(BaseModel):
     """
     Service for retrieving relevant context from the vector database based on user questions.
     """
     settings: Settings
     vectorization_service: VectorizationService
     vectorized_chunk_repository: VectorizedChunkRepository
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
     async def get_context(self: Self, message: SlackMessage) -> Sequence[Chunk]:
         """
         Retrieve relevant context for a given SlackMessage by vectorizing the message and
@@ -43,8 +39,8 @@ class ContextRetrievalService(BaseModel):
         query = VectorQuery(
             query_embeddings=vectorized_message_chunks[0].embedding,
-            k=self.settings.TOP_K_MATCHES,
-            score_threshold=self.settings.SCORE_THRESHOLD,
             filter_metadata={} # Can be expanded to include filters based on message metadata
         )
@@ -55,3 +51,7 @@ class ContextRetrievalService(BaseModel):
         except Exception as e:
             logger.error("An error occurred while searching the vector database for context: {}", e)
             return ()

 from loguru import logger
+from pydantic import ConfigDict
 from typing import Self, Sequence
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.db.repositories import VectorizedChunkRepository
 from ctp_slack_bot.models import Chunk, SlackMessage, VectorQuery, VectorizedChunk
 from ctp_slack_bot.services.vectorization_service import VectorizationService
+class ContextRetrievalService(ApplicationComponentBase):
     """
     Service for retrieving relevant context from the vector database based on user questions.
     """
+    model_config = ConfigDict(frozen=True)
     settings: Settings
     vectorization_service: VectorizationService
     vectorized_chunk_repository: VectorizedChunkRepository
     async def get_context(self: Self, message: SlackMessage) -> Sequence[Chunk]:
         """
         Retrieve relevant context for a given SlackMessage by vectorizing the message and
         query = VectorQuery(
             query_embeddings=vectorized_message_chunks[0].embedding,
+            k=self.settings.top_k_matches,
+            score_threshold=self.settings.score_threshold,
             filter_metadata={} # Can be expanded to include filters based on message metadata
         )
         except Exception as e:
             logger.error("An error occurred while searching the vector database for context: {}", e)
             return ()
+    @property
+    def name(self: Self) -> str:
+        return "context_retrieval_service"

src/ctp_slack_bot/services/embeddings_model_service.py CHANGED Viewed

@@ -1,25 +1,24 @@
 from loguru import logger
 from openai import AsyncOpenAI
-from pydantic import BaseModel, PrivateAttr
-from typing import Any, Dict, Sequence, Self
-from ctp_slack_bot.core import Settings
-class EmbeddingsModelService(BaseModel):
     """
     Service for embeddings model operations.
     """
-    settings: Settings
-    _open_ai_client: PrivateAttr = PrivateAttr()
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data: Dict[str, Any]) -> None:
-        super().__init__(**data)
-        self._open_ai_client = AsyncOpenAI(api_key=self.settings.OPENAI_API_KEY.get_secret_value())
-        logger.debug("Created {}", self.__class__.__name__)
     async def get_embeddings(self: Self, texts: Sequence[str]) -> Sequence[Sequence[float]]:
         """Get embeddings for a collection of texts using OpenAI’s API.
@@ -28,20 +27,24 @@ class EmbeddingsModelService(BaseModel):
             texts (Collection[str]): Collection of text chunks to embed
         Returns:
-            NDArray: Array of embeddings with shape (n_texts, VECTOR_DIMENSION)
         Raises:
             ValueError: If the embedding dimensions don't match expected size
         """
         logger.debug("Creating embeddings for {} text string(s)…", len(texts))
         response = await self._open_ai_client.embeddings.create(
-            model=self.settings.EMBEDDING_MODEL,
             input=texts,
             encoding_format="float" # Ensure we get raw float values.
         )
         embeddings = tuple(tuple(data.embedding) for data in response.data)
         match embeddings:
-            case (first, _) if len(first) != self.settings.VECTOR_DIMENSION:
-                logger.error("Embedding dimension mismatch and/or misconfiguration: expected configured dimension {}, but got {}.", self.settings.VECTOR_DIMENSION, len(first))
                 raise ValueError() # TODO: raise a more specific type.
         return embeddings

 from loguru import logger
 from openai import AsyncOpenAI
+from pydantic import ConfigDict
+from typing import Any, Sequence, Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
+class EmbeddingsModelService(ApplicationComponentBase):
     """
     Service for embeddings model operations.
     """
+    model_config = ConfigDict(frozen=True)
+    settings: Settings
+    _open_ai_client: AsyncOpenAI
+    def model_post_init(self: Self, context: Any, /) -> None:
+        super().model_post_init(context)
+        self._open_ai_client = AsyncOpenAI(api_key=self.settings.openai_api_key.get_secret_value())
     async def get_embeddings(self: Self, texts: Sequence[str]) -> Sequence[Sequence[float]]:
         """Get embeddings for a collection of texts using OpenAI’s API.
             texts (Collection[str]): Collection of text chunks to embed
         Returns:
+            NDArray: Array of embeddings with shape (n_texts, vector_dimension)
         Raises:
             ValueError: If the embedding dimensions don't match expected size
         """
         logger.debug("Creating embeddings for {} text string(s)…", len(texts))
         response = await self._open_ai_client.embeddings.create(
+            model=self.settings.embedding_model,
             input=texts,
             encoding_format="float" # Ensure we get raw float values.
         )
         embeddings = tuple(tuple(data.embedding) for data in response.data)
         match embeddings:
+            case (first, _) if len(first) != self.settings.vector_dimension:
+                logger.error("Embedding dimension mismatch and/or misconfiguration: expected configured dimension {}, but got {}.", self.settings.vector_dimension, len(first))
                 raise ValueError() # TODO: raise a more specific type.
         return embeddings
+    @property
+    def name(self: Self) -> str:
+        return "embeddings_model_service"

src/ctp_slack_bot/services/event_brokerage_service.py CHANGED Viewed

@@ -1,24 +1,21 @@
 from asyncio import create_task, iscoroutinefunction, to_thread
 from collections import defaultdict
 from loguru import logger
-from pydantic import BaseModel, PrivateAttr
-from typing import Any, Callable, Dict, List, Self
 from ctp_slack_bot.enums import EventType
-class EventBrokerageService(BaseModel):
     """
     Service for brokering events between services.
     """
-    _subscribers: PrivateAttr = PrivateAttr(default_factory=lambda: defaultdict(list))
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
     def subscribe(self: Self, type: EventType, callback: Callable) -> None:
         """Subscribe to an event type with a callback function."""
@@ -45,3 +42,7 @@ class EventBrokerageService(BaseModel):
                     create_task(to_thread(callback, data))
                 except Exception as e:
                     logger.error("Error scheduling synchronous callback to handle event {}: {}", type, e)

 from asyncio import create_task, iscoroutinefunction, to_thread
 from collections import defaultdict
 from loguru import logger
+from pydantic import ConfigDict, PrivateAttr
+from typing import Any, Callable, List, MutableMapping, Self
+from ctp_slack_bot.core import ApplicationComponentBase
 from ctp_slack_bot.enums import EventType
+class EventBrokerageService(ApplicationComponentBase):
     """
     Service for brokering events between services.
     """
+    model_config = ConfigDict(frozen=True)
+    _subscribers: MutableMapping[EventType, list[Callable]] = PrivateAttr(default_factory=lambda: defaultdict(list))
     def subscribe(self: Self, type: EventType, callback: Callable) -> None:
         """Subscribe to an event type with a callback function."""
                     create_task(to_thread(callback, data))
                 except Exception as e:
                     logger.error("Error scheduling synchronous callback to handle event {}: {}", type, e)
+    @property
+    def name(self: Self) -> str:
+        return "event_brokerage_service"

src/ctp_slack_bot/services/google_drive_service.py CHANGED Viewed

@@ -1,17 +1,17 @@
 from datetime import datetime
 from cachetools import TTLCache
 from functools import reduce
-from google.oauth2 import service_account
-from googleapiclient.discovery import build
 from googleapiclient.http import MediaIoBaseDownload
 from googleapiclient.errors import HttpError
 from io import BytesIO
 from itertools import chain
 from loguru import logger
-from pydantic import BaseModel, PrivateAttr
-from typing import Collection, Optional, Self
-from ctp_slack_bot.core import Settings
 from ctp_slack_bot.models import GoogleDriveMetadata
@@ -19,40 +19,39 @@ FOLDER_MIME_TYPE: str = "application/vnd.google-apps.folder"
 PATH_SEPARATOR: str = "/"
-class GoogleDriveService(BaseModel):
     """Service for interacting with Google Drive."""
-    settings: Settings
-    _google_drive_client: PrivateAttr = PrivateAttr()
-    _folder_cache: PrivateAttr = PrivateAttr(default_factory=lambda: TTLCache(maxsize=256, ttl=60))
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        credentials = service_account.Credentials.from_service_account_info({
             "type": "service_account",
-            "project_id": self.settings.GOOGLE_PROJECT_ID,
-            "private_key_id": self.settings.GOOGLE_PRIVATE_KEY_ID.get_secret_value(),
-            "private_key": self.settings.GOOGLE_PRIVATE_KEY.get_secret_value(),
-            "client_email": self.settings.GOOGLE_CLIENT_EMAIL,
-            "client_id": self.settings.GOOGLE_CLIENT_ID,
-            "token_uri": self.settings.GOOGLE_TOKEN_URI,
         }, scopes=["https://www.googleapis.com/auth/drive"])
         self._google_drive_client = build('drive', 'v3', credentials=credentials)
-        logger.debug("Created {}", self.__class__.__name__)
     def _resolve_folder_id(self: Self, folder_path: str) -> Optional[str]:
         """Resolve a folder path to a Google Drive ID."""
         if not folder_path:
-            return self.settings.GOOGLE_DRIVE_ROOT_ID
         if folder_path in self._folder_cache:
             return self._folder_cache[folder_path]
-        current_id = self.settings.GOOGLE_DRIVE_ROOT_ID
         try:
             for part in folder_path.split(PATH_SEPARATOR):
                 results = self._google_drive_client.files().list(
@@ -112,7 +111,7 @@ class GoogleDriveService(BaseModel):
         match item_path.rsplit(PATH_SEPARATOR, 1):
             case [item_name]:
                 folder_path = ""
-                folder_id = self.settings.GOOGLE_DRIVE_ROOT_ID
             case [folder_path, item_name]:
                 folder_id = self._resolve_folder_id(folder_path)
@@ -151,3 +150,7 @@ class GoogleDriveService(BaseModel):
         except HttpError as e:
             logger.error("Error reading file by ID, {}: {}", file_id, e)
             return None

 from datetime import datetime
 from cachetools import TTLCache
 from functools import reduce
+from google.oauth2.service_account import Credentials
+from googleapiclient.discovery import build, Resource
 from googleapiclient.http import MediaIoBaseDownload
 from googleapiclient.errors import HttpError
 from io import BytesIO
 from itertools import chain
 from loguru import logger
+from pydantic import ConfigDict, PrivateAttr
+from typing import Any, Collection, Optional, Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.models import GoogleDriveMetadata
 PATH_SEPARATOR: str = "/"
+class GoogleDriveService(ApplicationComponentBase):
     """Service for interacting with Google Drive."""
+    model_config = ConfigDict(frozen=True)
+    settings: Settings
+    _google_drive_client: Resource
+    _folder_cache: TTLCache = PrivateAttr(default_factory=lambda: TTLCache(maxsize=256, ttl=60))
+    def model_post_init(self: Self, context: Any, /) -> None:
+        super().model_post_init(context)
+        credentials = Credentials.from_service_account_info({
             "type": "service_account",
+            "project_id": self.settings.google_project_id,
+            "private_key_id": self.settings.google_private_key_id.get_secret_value(),
+            "private_key": self.settings.google_private_key.get_secret_value(),
+            "client_email": self.settings.google_client_email,
+            "client_id": self.settings.google_client_id,
+            "token_uri": self.settings.google_token_uri,
         }, scopes=["https://www.googleapis.com/auth/drive"])
         self._google_drive_client = build('drive', 'v3', credentials=credentials)
+        logger.info(type(self._google_drive_client))
     def _resolve_folder_id(self: Self, folder_path: str) -> Optional[str]:
         """Resolve a folder path to a Google Drive ID."""
         if not folder_path:
+            return self.settings.google_drive_root_id
         if folder_path in self._folder_cache:
             return self._folder_cache[folder_path]
+        current_id = self.settings.google_drive_root_id
         try:
             for part in folder_path.split(PATH_SEPARATOR):
                 results = self._google_drive_client.files().list(
         match item_path.rsplit(PATH_SEPARATOR, 1):
             case [item_name]:
                 folder_path = ""
+                folder_id = self.settings.google_drive_root_id
             case [folder_path, item_name]:
                 folder_id = self._resolve_folder_id(folder_path)
         except HttpError as e:
             logger.error("Error reading file by ID, {}: {}", file_id, e)
             return None
+    @property
+    def name(self: Self) -> str:
+        return "google_drive_service"

src/ctp_slack_bot/services/http_client_service.py ADDED Viewed

	@@ -0,0 +1,14 @@

+from dependency_injector.resources import AsyncResource
+from httpx import AsyncClient
+from typing import Self
+# TODO: Implement HTTPClientService to abstract away underlying HTTP client.
+class HTTPClientServiceResource(AsyncResource):
+    async def init(self: Self) -> AsyncClient:
+        return AsyncClient()
+    async def shutdown(self: Self, client: AsyncClient) -> None:
+        await client.aclose()

src/ctp_slack_bot/services/http_server_service.py ADDED Viewed

	@@ -0,0 +1,15 @@

+from aiohttp.web import Application, AppRunner, Response, TCPSite
+from dependency_injector.resources import AsyncResource
+from pydantic import ConfigDict
+from typing import Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
+class HTTPServerService(ApplicationComponentBase):
+    model_config = ConfigDict(frozen=True)
+    settings: Settings
+    async def listen(self: Self) -> None:
+        pass

src/ctp_slack_bot/services/language_model_service.py CHANGED Viewed

@@ -1,28 +1,26 @@
 from datetime import datetime
 from loguru import logger
 from openai import AsyncOpenAI
-from openai.types.chat import ChatCompletion
-from pydantic import BaseModel, PrivateAttr
-from typing import Collection, Self
-from ctp_slack_bot.core import Settings
 from ctp_slack_bot.models import Chunk
-class LanguageModelService(BaseModel):
     """
     Service for language model operations.
     """
-    settings: Settings
-    _open_ai_client: PrivateAttr = PrivateAttr()
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        self._open_ai_client = AsyncOpenAI(api_key=self.settings.OPENAI_API_KEY.get_secret_value())
-        logger.debug("Created {}", self.__class__.__name__)
     async def answer_question(self, asker: str, question: str, context: Collection[Chunk]) -> str: # TODO: generify into just another agent.
         """Generate a response using OpenAI’s API with retrieved context.
@@ -36,7 +34,7 @@ class LanguageModelService(BaseModel):
         """
         logger.debug("Generating response for question “{}” using {} context chunks…", question, len(context))
         messages = [
-            {"role": "system", "content": self.settings.SYSTEM_PROMPT},
             {"role": "user", "content": (
                 f"""Inquirer Name: {asker}
@@ -48,11 +46,14 @@ class LanguageModelService(BaseModel):
                 Context from class materials and transcripts:
                 {'\n\n'.join(chunk.text for chunk in context)}""")}
         ]
-        response: ChatCompletion = await self._open_ai_client.chat.completions.create(
-            model=self.settings.CHAT_MODEL,
             messages=messages,
-            max_tokens=self.settings.MAX_TOKENS,
-            temperature=self.settings.TEMPERATURE
         )
         return response.choices[0].message.content

 from datetime import datetime
 from loguru import logger
 from openai import AsyncOpenAI
+from pydantic import ConfigDict
+from typing import Any, Collection, Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.models import Chunk
+class LanguageModelService(ApplicationComponentBase):
     """
     Service for language model operations.
     """
+    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
+    settings: Settings
+    _open_ai_client: AsyncOpenAI
+    def model_post_init(self: Self, context: Any, /) -> None:
+        super().model_post_init(context)
+        self._open_ai_client = AsyncOpenAI(api_key=self.settings.openai_api_key.get_secret_value())
     async def answer_question(self, asker: str, question: str, context: Collection[Chunk]) -> str: # TODO: generify into just another agent.
         """Generate a response using OpenAI’s API with retrieved context.
         """
         logger.debug("Generating response for question “{}” using {} context chunks…", question, len(context))
         messages = [
+            {"role": "system", "content": self.settings.system_prompt},
             {"role": "user", "content": (
                 f"""Inquirer Name: {asker}
                 Context from class materials and transcripts:
                 {'\n\n'.join(chunk.text for chunk in context)}""")}
         ]
+        response = await self._open_ai_client.chat.completions.create(
+            model=self.settings.chat_model,
             messages=messages,
+            max_tokens=self.settings.max_tokens,
+            temperature=self.settings.temperature
         )
         return response.choices[0].message.content
+    @property
+    def name(self: Self) -> str:
+        return "language_model_service"

src/ctp_slack_bot/services/question_dispatch_service.py CHANGED Viewed

@@ -1,8 +1,8 @@
 from loguru import logger
-from pydantic import BaseModel
-from typing import Self
-from ctp_slack_bot.core import Settings
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import Chunk, SlackMessage
 from ctp_slack_bot.services.answer_retrieval_service import AnswerRetrievalService
@@ -10,26 +10,28 @@ from ctp_slack_bot.services.context_retrieval_service import ContextRetrievalSer
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
-class QuestionDispatchService(BaseModel):
     """
     Service for determining whether a Slack message constitutes a question.
     """
     settings: Settings
     event_brokerage_service: EventBrokerageService
     context_retrieval_service: ContextRetrievalService
     answer_retrieval_service: AnswerRetrievalService
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
         self.event_brokerage_service.subscribe(EventType.INCOMING_SLACK_MESSAGE, self.__process_incoming_slack_message)
-        logger.debug("Created {}", self.__class__.__name__)
     async def __process_incoming_slack_message(self: Self, message: SlackMessage) -> None:
         if message.subtype != 'bot_message':
             logger.debug("Question dispatch service received an answerable question: {}", message.text)
             context = await self.context_retrieval_service.get_context(message)
             await self.answer_retrieval_service.push(message, context)

 from loguru import logger
+from pydantic import ConfigDict
+from typing import Any, Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import Chunk, SlackMessage
 from ctp_slack_bot.services.answer_retrieval_service import AnswerRetrievalService
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
+class QuestionDispatchService(ApplicationComponentBase):
     """
     Service for determining whether a Slack message constitutes a question.
     """
+    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
     settings: Settings
     event_brokerage_service: EventBrokerageService
     context_retrieval_service: ContextRetrievalService
     answer_retrieval_service: AnswerRetrievalService
+    def model_post_init(self: Self, context: Any, /) -> None:
+        super().model_post_init(context)
         self.event_brokerage_service.subscribe(EventType.INCOMING_SLACK_MESSAGE, self.__process_incoming_slack_message)
     async def __process_incoming_slack_message(self: Self, message: SlackMessage) -> None:
         if message.subtype != 'bot_message':
             logger.debug("Question dispatch service received an answerable question: {}", message.text)
             context = await self.context_retrieval_service.get_context(message)
             await self.answer_retrieval_service.push(message, context)
+    @property
+    def name(self: Self) -> str:
+        return "question_dispatch_service"

src/ctp_slack_bot/services/schedule_service.py CHANGED Viewed

@@ -4,29 +4,26 @@ from asyncio import create_task, iscoroutinefunction, to_thread
 from datetime import datetime
 from dependency_injector.resources import Resource
 from loguru import logger
-from pydantic import BaseModel, PrivateAttr
 from pytz import timezone
-from typing import Optional, Self
-from ctp_slack_bot.core import Settings
-class ScheduleService(BaseModel):
     """
     Service for running scheduled tasks.
     """
-    settings: Settings
-    _scheduler: PrivateAttr
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        zone = self.settings.SCHEDULER_TIMEZONE
-        self._configure_jobs()
-        self._scheduler = AsyncIOScheduler(timezone=timezone(zone))
-        logger.debug("Created {}", self.__class__.__name__)
     def _configure_jobs(self: Self) -> None:
         # Example jobs (uncomment and implement as needed)
@@ -55,6 +52,11 @@ class ScheduleService(BaseModel):
         else:
             logger.debug("The scheduler is not running. There is no scheduler to shut down.")
 class ScheduleServiceResource(Resource):
     def init(self: Self, settings: Settings) -> ScheduleService:
         logger.info("Starting scheduler…")

 from datetime import datetime
 from dependency_injector.resources import Resource
 from loguru import logger
+from pydantic import ConfigDict
 from pytz import timezone
+from typing import Any, Optional, Self
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
+class ScheduleService(ApplicationComponentBase):
     """
     Service for running scheduled tasks.
     """
+    model_config = ConfigDict(frozen=True)
+    settings: Settings
+    _scheduler: AsyncIOScheduler
+    def model_post_init(self: Self, context: Any, /) -> None:
+        super().model_post_init(context)
+        self._scheduler = AsyncIOScheduler(timezone=timezone(self.settings.scheduler_timezone))
     def _configure_jobs(self: Self) -> None:
         # Example jobs (uncomment and implement as needed)
         else:
             logger.debug("The scheduler is not running. There is no scheduler to shut down.")
+    @property
+    def name(self: Self) -> str:
+        return "schedule_service"
 class ScheduleServiceResource(Resource):
     def init(self: Self, settings: Settings) -> ScheduleService:
         logger.info("Starting scheduler…")

src/ctp_slack_bot/services/slack_service.py CHANGED Viewed

@@ -1,12 +1,14 @@
 from dependency_injector.resources import AsyncResource
 from loguru import logger
 from openai import OpenAI
-from pydantic import BaseModel
 from re import compile as compile_re
 from slack_bolt.async_app import AsyncApp
 from slack_sdk.web.async_slack_response import AsyncSlackResponse
-from typing import Any, Mapping, Self
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import SlackMessage, SlackResponse
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
@@ -15,25 +17,23 @@ from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 SLACK_USER_MENTION_PATTERN = compile_re(r"<@([A-Z0-9]+)>")
-class SlackService(BaseModel):
     """
     Service for interfacing with Slack.
     """
     event_brokerage_service: EventBrokerageService
     slack_bolt_app: AsyncApp
-    user_id_name_map: dict[str, str] # This is deliberately mutable; the map may change as new users are encountered.
-    class Config:
-        arbitrary_types_allowed = True
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
         self.event_brokerage_service.subscribe(EventType.OUTGOING_SLACK_RESPONSE, self.send_message)
-        logger.debug("Created {}", self.__class__.__name__)
-    def adapt_event_payload(self: Self, event: Mapping[str, Any]) -> SlackMessage:
         text = SLACK_USER_MENTION_PATTERN.sub(lambda match: f"@{self.user_id_name_map.get(match.group(1))}", event.get("text", "")) # TODO: permit look-up of Slack again when not found.
         user_id = event.get("user")
         return SlackMessage(
@@ -41,7 +41,7 @@ class SlackService(BaseModel):
             subtype=event.get("subtype"),
             channel=event.get("channel"),
             channel_type=event.get("channel_type"),
-            user=self.user_id_name_map.get(user_id, user_id),
             bot_id=event.get("bot_id"),
             thread_ts=event.get("thread_ts"),
             text=text,
@@ -50,7 +50,7 @@ class SlackService(BaseModel):
         )
     async def process_message(self: Self, event: Mapping[str, Any]) -> None:
-        slack_message = self.adapt_event_payload(event.get("event", {}))
         logger.debug("Received message from Slack: {}", slack_message)
         await self.event_brokerage_service.publish(EventType.INCOMING_SLACK_MESSAGE, slack_message)
@@ -70,9 +70,21 @@ class SlackService(BaseModel):
         self.slack_bolt_app.event("app_mention")(self.handle_app_mention_event)
         logger.debug("Registered 2 handlers for Slack Bolt message and app mention events.")
 class SlackServiceResource(AsyncResource):
-    async def init(self: Self, event_brokerage_service: EventBrokerageService, slack_bolt_app: AsyncApp) -> SlackService:
         match await slack_bolt_app.client.users_list():
             case AsyncSlackResponse(status_code=200, data={"ok": True, "members": users}):
                 user_id_name_map = {id: display_name
@@ -83,7 +95,7 @@ class SlackServiceResource(AsyncResource):
             case something:
                 user_id_name_map = {}
                 logger.error("Could not obtain a list of user name for the workspace.")
-        slack_service = SlackService(event_brokerage_service=event_brokerage_service, slack_bolt_app=slack_bolt_app, user_id_name_map=user_id_name_map)
         slack_service.initialize()
         return slack_service

 from dependency_injector.resources import AsyncResource
+from httpx import AsyncClient
 from loguru import logger
 from openai import OpenAI
+from pydantic import ConfigDict
 from re import compile as compile_re
 from slack_bolt.async_app import AsyncApp
 from slack_sdk.web.async_slack_response import AsyncSlackResponse
+from typing import Any, Mapping, MutableMapping, Self
+from ctp_slack_bot.core import HealthReportingApplicationComponentBase
 from ctp_slack_bot.enums import EventType
 from ctp_slack_bot.models import SlackMessage, SlackResponse
 from ctp_slack_bot.services.event_brokerage_service import EventBrokerageService
 SLACK_USER_MENTION_PATTERN = compile_re(r"<@([A-Z0-9]+)>")
+class SlackService(HealthReportingApplicationComponentBase):
     """
     Service for interfacing with Slack.
     """
+    model_config = ConfigDict(arbitrary_types_allowed=True, frozen=True)
     event_brokerage_service: EventBrokerageService
+    http_client: AsyncClient
     slack_bolt_app: AsyncApp
+    user_id_name_map: MutableMapping[str, str]
+    def model_post_init(self: Self, context: Any, /) -> None:
+        super().model_post_init(context)
         self.event_brokerage_service.subscribe(EventType.OUTGOING_SLACK_RESPONSE, self.send_message)
+    async def adapt_event_payload(self: Self, event: Mapping[str, Any]) -> SlackMessage:
         text = SLACK_USER_MENTION_PATTERN.sub(lambda match: f"@{self.user_id_name_map.get(match.group(1))}", event.get("text", "")) # TODO: permit look-up of Slack again when not found.
         user_id = event.get("user")
         return SlackMessage(
             subtype=event.get("subtype"),
             channel=event.get("channel"),
             channel_type=event.get("channel_type"),
+            user=await self._get_user_display_name(user_id),
             bot_id=event.get("bot_id"),
             thread_ts=event.get("thread_ts"),
             text=text,
         )
     async def process_message(self: Self, event: Mapping[str, Any]) -> None:
+        slack_message = await self.adapt_event_payload(event.get("event", {}))
         logger.debug("Received message from Slack: {}", slack_message)
         await self.event_brokerage_service.publish(EventType.INCOMING_SLACK_MESSAGE, slack_message)
         self.slack_bolt_app.event("app_mention")(self.handle_app_mention_event)
         logger.debug("Registered 2 handlers for Slack Bolt message and app mention events.")
+    @property
+    def name(self: Self) -> str:
+        return "slack_service"
+    async def is_healthy(self: Self) -> bool:
+        response = await self.http_client.get("https://slack-status.com/api/v2.0.0/current")
+        return response.status_code == 200
+    async def _get_user_display_name(self: Self, user_id: str) -> str:
+        return self.user_id_name_map.get(user_id, f"<@{user_id}>")
+        # TODO: Handle new users.
 class SlackServiceResource(AsyncResource):
+    async def init(self: Self, event_brokerage_service: EventBrokerageService, http_client: AsyncClient, slack_bolt_app: AsyncApp) -> SlackService:
         match await slack_bolt_app.client.users_list():
             case AsyncSlackResponse(status_code=200, data={"ok": True, "members": users}):
                 user_id_name_map = {id: display_name
             case something:
                 user_id_name_map = {}
                 logger.error("Could not obtain a list of user name for the workspace.")
+        slack_service = SlackService(event_brokerage_service=event_brokerage_service, http_client=http_client, slack_bolt_app=slack_bolt_app, user_id_name_map=user_id_name_map)
         slack_service.initialize()
         return slack_service

src/ctp_slack_bot/services/vectorization_service.py CHANGED Viewed

@@ -1,26 +1,22 @@
 from loguru import logger
-from pydantic import BaseModel
 from typing import Self, Sequence
-from ctp_slack_bot.core import Settings
 from ctp_slack_bot.models import Chunk, VectorizedChunk
 from ctp_slack_bot.services.embeddings_model_service import EmbeddingsModelService
-class VectorizationService(BaseModel):
     """
     Service for vectorizing chunks of text data.
     """
     settings: Settings
     embeddings_model_service: EmbeddingsModelService
-    class Config:
-        frozen=True
-    def __init__(self: Self, **data) -> None:
-        super().__init__(**data)
-        logger.debug("Created {}", self.__class__.__name__)
     async def vectorize(self: Self, chunks: Sequence[Chunk]) -> Sequence[VectorizedChunk]:
         embeddings = await self.embeddings_model_service.get_embeddings([chunk.text for chunk in chunks])
         return tuple(VectorizedChunk(
@@ -32,3 +28,7 @@ class VectorizationService(BaseModel):
                      )
                      for chunk, embedding
                      in zip(chunks, embeddings))

 from loguru import logger
+from pydantic import ConfigDict
 from typing import Self, Sequence
+from ctp_slack_bot.core import ApplicationComponentBase, Settings
 from ctp_slack_bot.models import Chunk, VectorizedChunk
 from ctp_slack_bot.services.embeddings_model_service import EmbeddingsModelService
+class VectorizationService(ApplicationComponentBase):
     """
     Service for vectorizing chunks of text data.
     """
+    model_config = ConfigDict(frozen=True)
     settings: Settings
     embeddings_model_service: EmbeddingsModelService
     async def vectorize(self: Self, chunks: Sequence[Chunk]) -> Sequence[VectorizedChunk]:
         embeddings = await self.embeddings_model_service.get_embeddings([chunk.text for chunk in chunks])
         return tuple(VectorizedChunk(
                      )
                      for chunk, embedding
                      in zip(chunks, embeddings))
+    @property
+    def name(self: Self) -> str:
+        return "vectorization_service"

src/ctp_slack_bot/utils/secret_stripper.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from urllib.parse import urlparse, urlunparse
 def sanitize_mongo_db_uri(uri: str) -> str:
     parts = urlparse(uri)
     sanitized_netloc = ":".join(filter(None, (parts.hostname, parts.port)))

 from urllib.parse import urlparse, urlunparse
 def sanitize_mongo_db_uri(uri: str) -> str:
     parts = urlparse(uri)
     sanitized_netloc = ":".join(filter(None, (parts.hostname, parts.port)))