Spaces:

KingZack
/

ctp-slack-bot

Runtime error

App Files Files Community

LiKenun commited on May 17

Commit

98a6105

1 Parent(s): 961770c

Add `VECTORIZED_CHUNKS_SEARCH_INDEX_NAME` environment variable

Browse files

Files changed (7) hide show

.env.template +2 -0
scripts/run.sh +1 -1
src/ctp_slack_bot/containers.py +14 -10
src/ctp_slack_bot/core/config.py +2 -1
src/ctp_slack_bot/db/repositories/mongo_db_vectorized_chunk_repository.py +1 -1
src/ctp_slack_bot/db/repositories/vector_repository_base.py +3 -3
src/ctp_slack_bot/services/language_model_service.py +9 -9

.env.template CHANGED Viewed

@@ -17,6 +17,8 @@ TOP_K_MATCHES=5
 # MongoDB Configuration
 MONGODB_URI=mongodb+srv://username:[email protected]/database?retryWrites=true&w=majority
 MONGODB_NAME=ctp_slack_bot
 SCORE_THRESHOLD=0.5
 # Hugging Face Configuration

 # MongoDB Configuration
 MONGODB_URI=mongodb+srv://username:[email protected]/database?retryWrites=true&w=majority
 MONGODB_NAME=ctp_slack_bot
+VECTORIZED_CHUNKS_COLLECTION_NAME=vectorized_chunks
+VECTORIZED_CHUNKS_SEARCH_INDEX_NAME=
 SCORE_THRESHOLD=0.5
 # Hugging Face Configuration

scripts/run.sh CHANGED Viewed

@@ -4,4 +4,4 @@ parent_path=$(cd "$(dirname "${BASH_SOURCE[0]}")"; pwd -P)
 cd "${parent_path}/.."
-python "temporary_health_check_server.py" & python -m ctp_slack_bot.app


4
5	cd "${parent_path}/.."
6
7	+ python -m ctp_slack_bot.app & python "temporary_health_check_server.py"

src/ctp_slack_bot/containers.py CHANGED Viewed

@@ -1,9 +1,10 @@
 from dependency_injector.containers import DeclarativeContainer
 from dependency_injector.providers import Callable, Resource, Singleton
 from importlib import import_module
-from pathlib import Path
 from slack_bolt.adapter.socket_mode.async_handler import AsyncSocketModeHandler
 from slack_bolt.async_app import AsyncApp
 from ctp_slack_bot.core.config import Settings
 from ctp_slack_bot.db.mongo_db import MongoDBResource
@@ -22,15 +23,18 @@ from ctp_slack_bot.services.slack_service import SlackServiceResource
 from ctp_slack_bot.services.vectorization_service import VectorizationService
-def __load_plugins(plugin_dir) -> None:
-    for path in Path(plugin_dir).glob("*.py"):
-        if path.stem == "__init__":
-            continue # Skip __init__.py files
-        module_name = f"{plugin_dir.replace('/', '.')}.{path.stem}"
-        import_module(module_name)
-__load_plugins("ctp_slack_bot/mime_type_handlers")
 class Container(DeclarativeContainer): # TODO: audit for potential async-related bugs.
@@ -38,7 +42,7 @@ class Container(DeclarativeContainer): # TODO: audit for potential async-related
     event_brokerage_service     = Singleton(EventBrokerageService)
     schedule_service            = Resource (ScheduleServiceResource,
                                             settings=settings)
-    mongo_db                    = Resource (MongoDBResource, # TODO: generalize to any database.
                                             settings=settings)
     vectorized_chunk_repository = Resource (MongoVectorizedChunkRepositoryResource,
                                             settings=settings,

 from dependency_injector.containers import DeclarativeContainer
 from dependency_injector.providers import Callable, Resource, Singleton
 from importlib import import_module
+from pkgutil import iter_modules
 from slack_bolt.adapter.socket_mode.async_handler import AsyncSocketModeHandler
 from slack_bolt.async_app import AsyncApp
+from types import ModuleType
 from ctp_slack_bot.core.config import Settings
 from ctp_slack_bot.db.mongo_db import MongoDBResource
 from ctp_slack_bot.services.vectorization_service import VectorizationService
+def __scan_and_import_modules(package_name: str) -> None:
+    try:
+        package: Optional[ModuleType] = import_module(package_name)
+    except ImportError as e:
+        raise ValueError(f"Package {package_name} not found") from e
+    if not hasattr(package, '__path__'):
+        raise ValueError(f"{package_name} is not a package")
+    for _, module_name, is_pkg in iter_modules(package.__path__):
+        if not is_pkg:
+            import_module(f"{package.__name__}.{module_name}")
+__scan_and_import_modules("ctp_slack_bot.mime_type_handlers")
 class Container(DeclarativeContainer): # TODO: audit for potential async-related bugs.
     event_brokerage_service     = Singleton(EventBrokerageService)
     schedule_service            = Resource (ScheduleServiceResource,
                                             settings=settings)
+    mongo_db                    = Resource (MongoDBResource,
                                             settings=settings)
     vectorized_chunk_repository = Resource (MongoVectorizedChunkRepositoryResource,
                                             settings=settings,

src/ctp_slack_bot/core/config.py CHANGED Viewed

@@ -36,8 +36,9 @@ class Settings(BaseSettings):
     # MongoDB Configuration
     MONGODB_URI: SecretStr # TODO: Contemplate switching to MongoDsn type for the main URL, and separate out the credentials to SecretStr variables.
     MONGODB_NAME: str
     SCORE_THRESHOLD: NonNegativeFloat
-    VECTORIZED_CHUNKS_COLLECTION_NAME: str
     # Hugging Face Configuration
     HF_API_TOKEN: Optional[SecretStr] = None # TODO: Currently, this is unused.

     # MongoDB Configuration
     MONGODB_URI: SecretStr # TODO: Contemplate switching to MongoDsn type for the main URL, and separate out the credentials to SecretStr variables.
     MONGODB_NAME: str
+    VECTORIZED_CHUNKS_COLLECTION_NAME: str = "vectorized_chunks"
+    VECTORIZED_CHUNKS_SEARCH_INDEX_NAME: Optional[str] = None
     SCORE_THRESHOLD: NonNegativeFloat
     # Hugging Face Configuration
     HF_API_TOKEN: Optional[SecretStr] = None # TODO: Currently, this is unused.

src/ctp_slack_bot/db/repositories/mongo_db_vectorized_chunk_repository.py CHANGED Viewed

@@ -54,7 +54,7 @@ class MongoVectorizedChunkRepository(VectorRepositoryBase, VectorizedChunkReposi
         pipeline = [
             {
                 "$vectorSearch": {
-                    "index": f"{self.collection.name}_vector_index",
                     "path": "embedding",
                     "queryVector": query.query_embeddings,
                     "numCandidates": query.k * 10,

         pipeline = [
             {
                 "$vectorSearch": {
+                    "index": self.settings.VECTORIZED_CHUNKS_SEARCH_INDEX_NAME or f"{self.collection.name}_vector_index",
                     "path": "embedding",
                     "queryVector": query.query_embeddings,
                     "numCandidates": query.k * 10,

src/ctp_slack_bot/db/repositories/vector_repository_base.py CHANGED Viewed

@@ -25,7 +25,7 @@ class VectorRepositoryBase(ABC, BaseModel):
         """
         Ensure that a vector search index exists.
         """
-        index_name = f"{self.collection.name}_vector_index"
         try:
             existing_indexes = [index["name"] async for index in self.collection.list_search_indexes()]
             logger.debug("{} existing indices were found: {}", len(existing_indexes), existing_indexes)
@@ -56,7 +56,7 @@ class VectorRepositoryBase(ABC, BaseModel):
                 logger.warning("Vector search not supported by this MongoDB instance. Some functionality may be limited.")
                 # Create a fallback standard index on embedding field.
                 await self.collection.create_index("embedding")
-                logger.info("Created standard index on 'embedding' field as fallback.")
             else:
-                logger.error("Failed to create vector index: {}", e)
                 raise

         """
         Ensure that a vector search index exists.
         """
+        index_name = self.settings.VECTORIZED_CHUNKS_SEARCH_INDEX_NAME or f"{self.collection.name}_vector_index"
         try:
             existing_indexes = [index["name"] async for index in self.collection.list_search_indexes()]
             logger.debug("{} existing indices were found: {}", len(existing_indexes), existing_indexes)
                 logger.warning("Vector search not supported by this MongoDB instance. Some functionality may be limited.")
                 # Create a fallback standard index on embedding field.
                 await self.collection.create_index("embedding")
+                logger.info("Created standard index on {} field as fallback.", "embedding")
             else:
+                logger.error("Failed to create any index: {}", e)
                 raise

src/ctp_slack_bot/services/language_model_service.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from loguru import logger
 from openai import AsyncOpenAI
 from openai.types.chat import ChatCompletion
@@ -23,30 +24,29 @@ class LanguageModelService(BaseModel):
         self._open_ai_client = AsyncOpenAI(api_key=self.settings.OPENAI_API_KEY.get_secret_value())
         logger.debug("Created {}", self.__class__.__name__)
-    async def answer_question(self, asker: str, question: str, context: Collection[Chunk]) -> str:
         """Generate a response using OpenAI’s API with retrieved context.
         Args:
             question (str): The user’s question
             context (List[RetreivedContext]): The context retreived for answering the question
         Returns:
             str: Generated answer
         """
         logger.debug("Generating response for question “{}” using {} context chunks…", question, len(context))
         messages = [
             {"role": "system", "content": self.settings.SYSTEM_PROMPT},
-            {"role": "user", "content":
-                f"""
-                Inquirer Name: {asker}
                 Question:
                 {question}
                 Context from class materials and transcripts:
-                {'\n\n'.join(chunk.text for chunk in context)}
-                Please answer the Question based on the Context from class materials and transcripts. If the context doesn’t contain relevant information, acknowledge that and suggest asking the professor. In all other cases, carry on."""}
         ]
         response: ChatCompletion = await self._open_ai_client.chat.completions.create(
             model=self.settings.CHAT_MODEL,

+from datetime import datetime
 from loguru import logger
 from openai import AsyncOpenAI
 from openai.types.chat import ChatCompletion
         self._open_ai_client = AsyncOpenAI(api_key=self.settings.OPENAI_API_KEY.get_secret_value())
         logger.debug("Created {}", self.__class__.__name__)
+    async def answer_question(self, asker: str, question: str, context: Collection[Chunk]) -> str: # TODO: generify into just another agent.
         """Generate a response using OpenAI’s API with retrieved context.
         Args:
             question (str): The user’s question
             context (List[RetreivedContext]): The context retreived for answering the question
         Returns:
             str: Generated answer
         """
         logger.debug("Generating response for question “{}” using {} context chunks…", question, len(context))
         messages = [
             {"role": "system", "content": self.settings.SYSTEM_PROMPT},
+            {"role": "user", "content": (
+                f"""Inquirer Name: {asker}
+                Current Time: {datetime.now().isoformat(" ", "seconds")}
                 Question:
                 {question}
                 Context from class materials and transcripts:
+                {'\n\n'.join(chunk.text for chunk in context)}""")}
         ]
         response: ChatCompletion = await self._open_ai_client.chat.completions.create(
             model=self.settings.CHAT_MODEL,