Raj-Maharajwala
/

Open-Insurance-LLM-Llama3-8B-GGUF

Model card Files Files and versions Community

Raj-Maharajwala commited on Nov 29, 2024

Commit

adab281

verified ·

1 Parent(s): 31cebe0

Update README.md

Browse files

Files changed (1) hide show

README.md +0 -30

README.md CHANGED Viewed

@@ -153,10 +153,8 @@ Memory: %(memory).2fMB
         # Add memory usage information
         if not hasattr(record, 'memory'):
             record.memory = psutil.Process().memory_info().rss / (1024 * 1024)
         log_fmt = self.FORMATS.get(record.levelno)
         formatter = logging.Formatter(log_fmt, datefmt='%Y-%m-%d %H:%M:%S')
         # Add performance metrics if available
         if hasattr(record, 'duration'):
             record.message = f"{record.message}\nDuration: {record.duration:.2f}s"
@@ -169,13 +167,10 @@ def setup_logging(log_dir: str = "logs") -> logging.Logger:
     timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
     log_path = (Path(log_dir) / f"l_{timestamp}")
     log_path.mkdir(exist_ok=True)
-    # Create logger
     logger = logging.getLogger("InsuranceLLM")
     # Clear any existing handlers
     logger.handlers.clear()
     logger.setLevel(logging.DEBUG)
     # Create handlers with level-specific files
     handlers = {
         'debug': (logging.FileHandler(log_path / f"debug_{timestamp}.log"), logging.DEBUG),
@@ -189,15 +184,11 @@ def setup_logging(log_dir: str = "logs") -> logging.Logger:
             enable_link_path=True
         ), logging.INFO)
     }
-    # Configure handlers
     formatter = CustomFormatter()
     for (handler, level) in handlers.values():
         handler.setLevel(level)
         handler.setFormatter(formatter)
         logger.addHandler(handler)
-    # Log startup information (will now appear only once)
     logger.info(f"Starting new session {timestamp}")
     logger.info(f"Log directory: {log_dir}")
     return logger
@@ -213,20 +204,16 @@ class PerformanceMetrics:
         self.tokens = 0
         self.response_times = []
         self.last_reset = self.start_time
     def reset_timer(self):
         """Reset the timer for individual response measurements"""
         self.last_reset = time.time()
     def update(self, tokens: int):
         self.tokens += tokens
         response_time = time.time() - self.last_reset
         self.response_times.append(response_time)
     @property
     def elapsed_time(self) -> float:
         return time.time() - self.start_time
     @property
     def last_response_time(self) -> float:
         return self.response_times[-1] if self.response_times else 0
@@ -317,7 +304,6 @@ class InsuranceLLM:
             "Assistant:"
         )
     def generate_response(self, prompt: str) -> Dict[str, Any]:
         if not self.llm_ctx:
             raise RuntimeError("Model not loaded. Call load_model() first.")
@@ -343,18 +329,10 @@ class InsuranceLLM:
                 text_chunk = chunk["choices"][0]["text"]
                 response["text"] += text_chunk
                 response["tokens"] += 1
-                # Append to complete response
                 complete_response += text_chunk
-                # Use simple print for streaming output
                 print(text_chunk, end="", flush=True)
-            # Print final newline
             print()
             return response
         except RuntimeError as e:
             if "llama_decode returned -3" in str(e):
                 self.logger.error("Memory allocation failed. Try reducing context window or batch size")
@@ -385,21 +363,14 @@ class InsuranceLLM:
                         question = parts[1].strip()
                     prompt = self.get_prompt(question, context)
-                    # Reset timer before generation
                     self.metrics.reset_timer()
-                    # Generate response
                     response = self.generate_response(prompt)
                     # Update metrics after generation
                     self.metrics.update(response["tokens"])
                     # Print metrics
                     console.print(f"[dim]Average tokens/sec: {response['tokens']/(self.metrics.last_response_time if self.metrics.last_response_time!=0 else 1):.2f} ||[/dim]",
                                    f"[dim]Tokens generated: {response['tokens']} ||[/dim]",
                                    f"[dim]Response time: {self.metrics.last_response_time:.2f}s[/dim]", end="\n\n\n")
                 except KeyboardInterrupt:
                     console.print("\n[yellow]Input interrupted. Type '/bye', 'exit', or 'quit' to quit.[/yellow]")
                     continue
@@ -407,7 +378,6 @@ class InsuranceLLM:
                     self.logger.error(f"Error processing input: {str(e)}")
                     console.print(f"\n[red]Error: {str(e)}[/red]")
                     continue
         except Exception as e:
             self.logger.error(f"Fatal error in inference loop: {str(e)}")
             console.print(f"\n[red]Fatal error: {str(e)}[/red]")

         # Add memory usage information
         if not hasattr(record, 'memory'):
             record.memory = psutil.Process().memory_info().rss / (1024 * 1024)
         log_fmt = self.FORMATS.get(record.levelno)
         formatter = logging.Formatter(log_fmt, datefmt='%Y-%m-%d %H:%M:%S')
         # Add performance metrics if available
         if hasattr(record, 'duration'):
             record.message = f"{record.message}\nDuration: {record.duration:.2f}s"
     timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
     log_path = (Path(log_dir) / f"l_{timestamp}")
     log_path.mkdir(exist_ok=True)
     logger = logging.getLogger("InsuranceLLM")
     # Clear any existing handlers
     logger.handlers.clear()
     logger.setLevel(logging.DEBUG)
     # Create handlers with level-specific files
     handlers = {
         'debug': (logging.FileHandler(log_path / f"debug_{timestamp}.log"), logging.DEBUG),
             enable_link_path=True
         ), logging.INFO)
     }
     formatter = CustomFormatter()
     for (handler, level) in handlers.values():
         handler.setLevel(level)
         handler.setFormatter(formatter)
         logger.addHandler(handler)
     logger.info(f"Starting new session {timestamp}")
     logger.info(f"Log directory: {log_dir}")
     return logger
         self.tokens = 0
         self.response_times = []
         self.last_reset = self.start_time
     def reset_timer(self):
         """Reset the timer for individual response measurements"""
         self.last_reset = time.time()
     def update(self, tokens: int):
         self.tokens += tokens
         response_time = time.time() - self.last_reset
         self.response_times.append(response_time)
     @property
     def elapsed_time(self) -> float:
         return time.time() - self.start_time
     @property
     def last_response_time(self) -> float:
         return self.response_times[-1] if self.response_times else 0
             "Assistant:"
         )
     def generate_response(self, prompt: str) -> Dict[str, Any]:
         if not self.llm_ctx:
             raise RuntimeError("Model not loaded. Call load_model() first.")
                 text_chunk = chunk["choices"][0]["text"]
                 response["text"] += text_chunk
                 response["tokens"] += 1
                 complete_response += text_chunk
                 print(text_chunk, end="", flush=True)
             print()
             return response
         except RuntimeError as e:
             if "llama_decode returned -3" in str(e):
                 self.logger.error("Memory allocation failed. Try reducing context window or batch size")
                         question = parts[1].strip()
                     prompt = self.get_prompt(question, context)
                     self.metrics.reset_timer()
                     response = self.generate_response(prompt)
                     # Update metrics after generation
                     self.metrics.update(response["tokens"])
                     # Print metrics
                     console.print(f"[dim]Average tokens/sec: {response['tokens']/(self.metrics.last_response_time if self.metrics.last_response_time!=0 else 1):.2f} ||[/dim]",
                                    f"[dim]Tokens generated: {response['tokens']} ||[/dim]",
                                    f"[dim]Response time: {self.metrics.last_response_time:.2f}s[/dim]", end="\n\n\n")
                 except KeyboardInterrupt:
                     console.print("\n[yellow]Input interrupted. Type '/bye', 'exit', or 'quit' to quit.[/yellow]")
                     continue
                     self.logger.error(f"Error processing input: {str(e)}")
                     console.print(f"\n[red]Error: {str(e)}[/red]")
                     continue
         except Exception as e:
             self.logger.error(f"Fatal error in inference loop: {str(e)}")
             console.print(f"\n[red]Fatal error: {str(e)}[/red]")