Spaces:

gabykim
/

KnowLang_Transformers_Demo

Sleeping

App Files Files Community

gabykim commited on Jan 29

Commit

070f7e7

1 Parent(s): 0e9e5fc

app configuration refactoring

Browse files

Files changed (7) hide show

src/know_lang_bot/__main__.py +1 -1
src/know_lang_bot/chat_bot/chat_config.py +0 -27
src/know_lang_bot/chat_bot/chat_graph.py +4 -4
src/know_lang_bot/config.py +51 -15
src/know_lang_bot/core/types.py +8 -1
src/know_lang_bot/summarizer/summarizer.py +4 -4
tests/test_summarizer.py +1 -1

src/know_lang_bot/__main__.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import List, Optional
 from rich.console import Console
 from rich.table import Table
-from know_lang_bot.code_parser.parser import CodeChunk
 from know_lang_bot.config import AppConfig
 from know_lang_bot.parser.factory import CodeParserFactory
 from know_lang_bot.parser.providers.git import GitProvider

 from rich.console import Console
 from rich.table import Table
+from know_lang_bot.core.types import CodeChunk
 from know_lang_bot.config import AppConfig
 from know_lang_bot.parser.factory import CodeParserFactory
 from know_lang_bot.parser.providers.git import GitProvider

src/know_lang_bot/chat_bot/chat_config.py DELETED Viewed

@@ -1,27 +0,0 @@
-from pydantic_settings import BaseSettings
-from pydantic import Field
-from know_lang_bot.config import AppConfig
-class ChatConfig(BaseSettings):
-    max_context_chunks: int = Field(
-        default=5,
-        description="Maximum number of similar chunks to include in context"
-    )
-    similarity_threshold: float = Field(
-        default=0.7,
-        description="Minimum similarity score to include a chunk"
-    )
-    interface_title: str = Field(
-        default="Code Repository Q&A Assistant",
-        description="Title shown in the chat interface"
-    )
-    interface_description: str = Field(
-        default="Ask questions about the codebase and I'll help you understand it!",
-        description="Description shown in the chat interface"
-    )
-class ChatAppConfig(AppConfig):
-    chat: ChatConfig = Field(default_factory=ChatConfig)
-chat_app_config = ChatAppConfig()

src/know_lang_bot/chat_bot/chat_graph.py CHANGED Viewed

@@ -6,7 +6,7 @@ import chromadb
 from pydantic import BaseModel
 from pydantic_graph import BaseNode, Graph, GraphRunContext, End
 import ollama
-from know_lang_bot.chat_bot.chat_config import ChatAppConfig
 from know_lang_bot.utils.fancy_log import FancyLogger
 from pydantic_ai import Agent
 import logfire
@@ -36,7 +36,7 @@ class ChatGraphState:
 class ChatGraphDeps:
     """Dependencies required by the graph"""
     collection: chromadb.Collection
-    config: ChatAppConfig
 # Graph Nodes
@@ -74,7 +74,7 @@ class RetrieveContextNode(BaseNode[ChatGraphState, ChatGraphDeps, ChatResult]):
     async def run(self, ctx: GraphRunContext[ChatGraphState, ChatGraphDeps]) -> AnswerQuestionNode:
         try:
             embedded_question = ollama.embed(
-                model=ctx.deps.config.llm.embedding_model,
                 input=ctx.state.polished_question or ctx.state.original_question
             )
@@ -164,7 +164,7 @@ chat_graph = Graph(
 async def process_chat(
     question: str,
     collection: chromadb.Collection,
-    config: ChatAppConfig
 ) -> ChatResult:
     """
     Process a chat question through the graph.

 from pydantic import BaseModel
 from pydantic_graph import BaseNode, Graph, GraphRunContext, End
 import ollama
+from know_lang_bot.config import AppConfig
 from know_lang_bot.utils.fancy_log import FancyLogger
 from pydantic_ai import Agent
 import logfire
 class ChatGraphDeps:
     """Dependencies required by the graph"""
     collection: chromadb.Collection
+    config: AppConfig
 # Graph Nodes
     async def run(self, ctx: GraphRunContext[ChatGraphState, ChatGraphDeps]) -> AnswerQuestionNode:
         try:
             embedded_question = ollama.embed(
+                model=ctx.deps.config.embedding.model_name,
                 input=ctx.state.polished_question or ctx.state.original_question
             )
 async def process_chat(
     question: str,
     collection: chromadb.Collection,
+    config: AppConfig
 ) -> ChatResult:
     """
     Process a chat question through the graph.

src/know_lang_bot/config.py CHANGED Viewed

@@ -1,8 +1,9 @@
 from typing import Optional, Dict, Any, List
 from pydantic_settings import BaseSettings, SettingsConfigDict
-from pydantic import Field
 from pathlib import Path
 import fnmatch
 class PathPatterns(BaseSettings):
     include: List[str] = Field(
@@ -53,13 +54,32 @@ class ParserConfig(BaseSettings):
     path_patterns: PathPatterns = Field(default_factory=PathPatterns)
 class LLMConfig(BaseSettings):
     model_name: str = Field(
         default="llama3.2",
         description="Name of the LLM model to use"
     )
     model_provider: str = Field(
-        default="ollama",
         description="Model provider (anthropic, openai, ollama, etc)"
     )
     api_key: Optional[str] = Field(
@@ -70,14 +90,14 @@ class LLMConfig(BaseSettings):
         default_factory=dict,
         description="Additional model settings"
     )
-    embedding_model: str = Field(
-        default="mxbai-embed-large",
-        description="Name of the embedding model to use"
-    )
-    embedding_provider: str = Field(
-        default="ollama",
-        description="Provider for embeddings (ollama, openai, etc)"
-    )
 class DBConfig(BaseSettings):
     persist_directory: Path = Field(
@@ -88,15 +108,29 @@ class DBConfig(BaseSettings):
         default="code_chunks",
         description="Name of the ChromaDB collection"
     )
-    embedding_model: str = Field(
-        default="sentence-transformers/all-mpnet-base-v2",
-        description="Embedding model to use"
-    )
     codebase_directory: Path = Field(
         default=Path("./"),
         description="Root directory of the codebase to analyze"
     )
 class AppConfig(BaseSettings):
     model_config = SettingsConfigDict(
         env_file='.env',
@@ -106,4 +140,6 @@ class AppConfig(BaseSettings):
     llm: LLMConfig = Field(default_factory=LLMConfig)
     db: DBConfig = Field(default_factory=DBConfig)
-    parser: ParserConfig = Field(default_factory=ParserConfig)

 from typing import Optional, Dict, Any, List
 from pydantic_settings import BaseSettings, SettingsConfigDict
+from pydantic import Field, field_validator, ValidationInfo
 from pathlib import Path
 import fnmatch
+from know_lang_bot.core.types import ModelProvider
 class PathPatterns(BaseSettings):
     include: List[str] = Field(
     path_patterns: PathPatterns = Field(default_factory=PathPatterns)
+class EmbeddingConfig(BaseSettings):
+    """Shared embedding configuration"""
+    model_name: str = Field(
+        default="mxbai-embed-large",
+        description="Name of the embedding model"
+    )
+    provider: ModelProvider = Field(
+        default=ModelProvider.OLLAMA,
+        description="Provider for embeddings"
+    )
+    dimension: int = Field(
+        default=768,
+        description="Embedding dimension"
+    )
+    settings: Dict[str, Any] = Field(
+        default_factory=dict,
+        description="Provider-specific settings"
+    )
 class LLMConfig(BaseSettings):
     model_name: str = Field(
         default="llama3.2",
         description="Name of the LLM model to use"
     )
     model_provider: str = Field(
+        default=ModelProvider.OLLAMA,
         description="Model provider (anthropic, openai, ollama, etc)"
     )
     api_key: Optional[str] = Field(
         default_factory=dict,
         description="Additional model settings"
     )
+    @field_validator('api_key', mode='after')
+    @classmethod
+    def validate_api_key(cls, v: Optional[str], info: ValidationInfo) -> Optional[str]:
+        """Validate API key is present when required"""
+        if info.data['model_provider'] in [ModelProvider.OPENAI, ModelProvider.ANTHROPIC] and not v:
+            raise ValueError(f"API key required for {info.data['model_provider']}")
+        return v
 class DBConfig(BaseSettings):
     persist_directory: Path = Field(
         default="code_chunks",
         description="Name of the ChromaDB collection"
     )
     codebase_directory: Path = Field(
         default=Path("./"),
         description="Root directory of the codebase to analyze"
     )
+class ChatConfig(BaseSettings):
+    max_context_chunks: int = Field(
+        default=5,
+        description="Maximum number of similar chunks to include in context"
+    )
+    similarity_threshold: float = Field(
+        default=0.7,
+        description="Minimum similarity score to include a chunk"
+    )
+    interface_title: str = Field(
+        default="Code Repository Q&A Assistant",
+        description="Title shown in the chat interface"
+    )
+    interface_description: str = Field(
+        default="Ask questions about the codebase and I'll help you understand it!",
+        description="Description shown in the chat interface"
+    )
 class AppConfig(BaseSettings):
     model_config = SettingsConfigDict(
         env_file='.env',
     llm: LLMConfig = Field(default_factory=LLMConfig)
     db: DBConfig = Field(default_factory=DBConfig)
+    parser: ParserConfig = Field(default_factory=ParserConfig)
+    chat: ChatConfig = Field(default_factory=ChatConfig)
+    embedding: EmbeddingConfig = Field(default_factory=EmbeddingConfig)

src/know_lang_bot/core/types.py CHANGED Viewed

@@ -16,4 +16,11 @@ class CodeChunk(BaseModel):
     file_path: str
     name: Optional[str] = None
     parent_name: Optional[str] = None  # For nested classes/functions
-    docstring: Optional[str] = None

     file_path: str
     name: Optional[str] = None
     parent_name: Optional[str] = None  # For nested classes/functions
+    docstring: Optional[str] = None
+class ModelProvider(str, Enum):
+    OPENAI = "openai"
+    ANTHROPIC = "anthropic"
+    OLLAMA = "ollama"
+    HUGGINGFACE = "huggingface"

src/know_lang_bot/summarizer/summarizer.py CHANGED Viewed

@@ -6,7 +6,7 @@ from pydantic import BaseModel, Field
 import ollama
 from know_lang_bot.config import AppConfig
-from know_lang_bot.code_parser.parser import CodeChunk
 from know_lang_bot.utils.fancy_log import FancyLogger
 from pprint import pformat
@@ -65,14 +65,14 @@ class CodeSummarizer:
     def _get_embedding(self, text: str) -> List[float]:
         """Get embedding for text using configured provider"""
-        if self.config.llm.embedding_provider == "ollama":
             response = ollama.embed(
-                model=self.config.llm.embedding_model,
                 input=text
             )
             return response['embeddings']
         else:
-            raise ValueError(f"Unsupported embedding provider: {self.config.llm.embedding_provider}")
     async def summarize_chunk(self, chunk: CodeChunk) -> str:
         """Summarize a single code chunk using the LLM"""

 import ollama
 from know_lang_bot.config import AppConfig
+from know_lang_bot.core.types import CodeChunk, ModelProvider
 from know_lang_bot.utils.fancy_log import FancyLogger
 from pprint import pformat
     def _get_embedding(self, text: str) -> List[float]:
         """Get embedding for text using configured provider"""
+        if self.config.embedding.provider == ModelProvider.OLLAMA:
             response = ollama.embed(
+                model=self.config.embedding.model_name,
                 input=text
             )
             return response['embeddings']
         else:
+            raise ValueError(f"Unsupported embedding provider: {self.config.embedding.provider}")
     async def summarize_chunk(self, chunk: CodeChunk) -> str:
         """Summarize a single code chunk using the LLM"""

tests/test_summarizer.py CHANGED Viewed

@@ -113,7 +113,7 @@ async def test_process_and_store_chunk_with_embedding(
     # Verify ollama.embed was called with correct parameters
     mock_ollama.embed.assert_called_once_with(
-        model=config.llm.embedding_model,
         input=mock_run_result.data
     )

     # Verify ollama.embed was called with correct parameters
     mock_ollama.embed.assert_called_once_with(
+        model=config.embedding.model_name,
         input=mock_run_result.data
     )