learn-ai

Sleeping

inflaton commited on Feb 16, 2024

Commit

c6b090e

1 Parent(s): a28a4f8

added embeddings for new books

Files changed (4) hide show

Makefile CHANGED Viewed

@@ -50,7 +50,11 @@ format:
 	black .
 install:
-	pip install -U -r requirements.txt
 	pip show langchain transformers
 install-extra:

 	black .
 install:
+	pip install -r requirements.txt
+	pip show langchain transformers
+install:
+	pip install -r requirements-mac.txt
 	pip show langchain transformers
 install-extra:

data/ai_books/index.faiss CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27612af17ee2ee1c73a4dc91772122c112c1f14ae280649e3b7ca5afeea1e7b9
-size 91047981

 version https://git-lfs.github.com/spec/v1
+oid sha256:57cf906d0a49d48c53ef8bfe9c107d035d2f0a15bd4e57a2d8f5560960db239f
+size 110456877

data/ai_books/index.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9df9fa6831ab9736f93a877822bdaf3e472dea2ba6701ea63598a4447bfab463
-size 30845062

 version https://git-lfs.github.com/spec/v1
+oid sha256:5091df974d4a7c0c832619b0acaae195fa69ab37f7cd18873459c11c3a537494
+size 37484917

ingest.py CHANGED Viewed

@@ -3,8 +3,8 @@ import os
 from timeit import default_timer as timer
 from typing import List
-from langchain.document_loaders import PyPDFDirectoryLoader
-from langchain.embeddings import HuggingFaceInstructEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores.base import VectorStore
 from langchain.vectorstores.chroma import Chroma
@@ -81,7 +81,7 @@ if not os.path.isdir(index_path):
     )
     os.mkdir(index_path)
-    if source_urls is not None:
         # Open the file for reading
         file = open(source_urls, "r")
@@ -93,10 +93,11 @@ if not os.path.isdir(index_path):
         # Remove the newline characters from each string
         source_urls = [line.strip() for line in lines]
-    print(
-        f"Loading {'' if source_urls is None else str(len(source_urls)) + ' '}PDF files from {source_pdfs_path}"
-    )
     sources = load_documents(source_pdfs_path, source_urls)
     print(f"Splitting {len(sources)} PDF pages in to chunks ...")

 from timeit import default_timer as timer
 from typing import List
+from langchain_community.document_loaders import PyPDFDirectoryLoader
+from langchain_community.embeddings import HuggingFaceInstructEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores.base import VectorStore
 from langchain.vectorstores.chroma import Chroma
     )
     os.mkdir(index_path)
+    if source_urls:
         # Open the file for reading
         file = open(source_urls, "r")
         # Remove the newline characters from each string
         source_urls = [line.strip() for line in lines]
+        print(f"Loading {len(source_urls)} PDF files from {source_pdfs_path}")
+    else:
+        source_urls = None
+        print(f"Loading PDF files from {source_pdfs_path}")
     sources = load_documents(source_pdfs_path, source_urls)
     print(f"Splitting {len(sources)} PDF pages in to chunks ...")