Spaces:

hanchraizedai
/

semsearch

Paused

App Files Files

hanoch.rahimi@gmail commited on Oct 3, 2023

Commit

a280e4d

1 Parent(s): eab6925

added openai summarization and visual design

Browse files

Files changed (4) hide show

app.py +21 -11
requirements.txt +1 -0
semsearch.pyproj +1 -0
utils.py +33 -0

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ import streamlit as st
 from transformers import AutoTokenizer
 from sentence_transformers import SentenceTransformer
 PINECONE_KEY = st.secrets["PINECONE_API_KEY"]  # app.pinecone.io
 OPENAI_API_KEY = st.secrets["OPENAI_API_KEY"]  # app.pinecone.io
@@ -48,23 +49,22 @@ retriever, tokenizer = init_models()
 def card(name, description, score, data_type, region, country):
     return st.markdown(f"""
     <div class="container-fluid">
-        <div class="row align-items-start">
              <div  class="col-md-8 col-sm-8">
-                 <b>{name}</b>
-                 <br>
-                 <span style="color: #808080;">
-                     <small>{description}</small>
-                     [<b>Score: </b>{score}]
                  </span>
              </div>
              <div  class="col-md-1 col-sm-1">
-                    <small>{data_type}</metadata>
              </div>
              <div  class="col-md-1 col-sm-1">
-                    <small>{region}</metadata>
              </div>
              <div  class="col-md-1 col-sm-1">
-                    <small>{country}</metadata>
              </div>
          </div>
      </div>
@@ -126,7 +126,13 @@ def run_query(query, prompt, scrape_boost, top_k , regions, countries):
         if 'type' in match['metadata'] and match['metadata']['type']=='description-webcontent':
             score = score * scrape_boost
         answer = {'score': score}
-        answer["name"] = match["metadata"]['company_name'].strip('_description')
         answer["description"] = match["metadata"]['description'] if "description" in match['metadata'] else ""
         answer["metadata"] = match["metadata"]
         results.append(answer)
@@ -150,9 +156,13 @@ def run_query(query, prompt, scrape_boost, top_k , regions, countries):
     sorted_result = sorted(results, key=lambda x: x['score'], reverse=True)
     for r in sorted_result:
         company_name = r["name"]
-        description = r["description"].replace(company_name, f"<mark>{company_name}</mark>")
         score = round(r["score"], 4)
         data_type = r["metadata"]["type"] if "type" in r["metadata"] else ""
         region = r["metadata"]["region"]

 from transformers import AutoTokenizer
 from sentence_transformers import SentenceTransformer
+from utils import get_companies_data
 PINECONE_KEY = st.secrets["PINECONE_API_KEY"]  # app.pinecone.io
 OPENAI_API_KEY = st.secrets["OPENAI_API_KEY"]  # app.pinecone.io
 def card(name, description, score, data_type, region, country):
     return st.markdown(f"""
     <div class="container-fluid">
+        <div class="row align-items-start" style="padding-bottom:10px;">
              <div  class="col-md-8 col-sm-8">
+                 <b>{name}.</b>
+                 <span style="">
+                     {description}
                  </span>
              </div>
              <div  class="col-md-1 col-sm-1">
+                    <span>{region}</span>
              </div>
              <div  class="col-md-1 col-sm-1">
+                    <span>{country}</span>
              </div>
              <div  class="col-md-1 col-sm-1">
+                    <span>{data_type}</span>
+                    <span>[Score: {score}</span>
              </div>
          </div>
      </div>
         if 'type' in match['metadata'] and match['metadata']['type']=='description-webcontent':
             score = score * scrape_boost
         answer = {'score': score}
+        if match['id'].endswith("_description"):
+            answer['id'] = match['id'][:-12]
+        elif match['id'].endswith("_webcontent"):
+            answer['id'] = match['id'][:-11]
+        else:
+            answer['id'] = match['id']
+        answer["name"] = match["metadata"]['company_name']
         answer["description"] = match["metadata"]['description'] if "description" in match['metadata'] else ""
         answer["metadata"] = match["metadata"]
         results.append(answer)
     sorted_result = sorted(results, key=lambda x: x['score'], reverse=True)
+    st.markdown("<h2>Related companies</h2>", unsafe_allow_html=True)
+    #df = get_companies_data([r['id'] for r in results])
     for r in sorted_result:
         company_name = r["name"]
+        description = r["description"]  #.replace(company_name, f"<mark>{company_name}</mark>")
         score = round(r["score"], 4)
         data_type = r["metadata"]["type"] if "type" in r["metadata"] else ""
         region = r["metadata"]["region"]

requirements.txt CHANGED Viewed

@@ -1,5 +1,6 @@
 langchain
 openai
 pinecone-client
 sentence_transformers
 transformers

 langchain
 openai
 pinecone-client
+psycopg2-binary==2.8.6
 sentence_transformers
 transformers

semsearch.pyproj CHANGED Viewed

@@ -35,6 +35,7 @@
   </ItemGroup>
   <ItemGroup>
     <Compile Include="app.py" />
   </ItemGroup>
   <ItemGroup>
     <Folder Include=".streamlit" />

   </ItemGroup>
   <ItemGroup>
     <Compile Include="app.py" />
+    <Compile Include="utils.py" />
   </ItemGroup>
   <ItemGroup>
     <Folder Include=".streamlit" />

utils.py ADDED Viewed

	@@ -0,0 +1,33 @@

+import pandas as pd
+import psycopg2
+from psycopg2 import extras
+import streamlit as st
+def create_connection():
+    host = st.secrets["RAIZED_DB_HOST"]
+    user = st.secrets["RAIZED_DB_USER"]
+    pswd = st.secrets["RAIZED_DB_PASSWORD"]
+    dbname = 'raized-central'
+    return psycopg2.connect(
+            database=dbname,
+            user=user,
+            password=pswd,
+            host=host,
+            port=5432
+        )
+def get_companies_data(company_ids=[]):
+    with create_connection() as con:
+        cur = con.cursor(cursor_factory=extras.NamedTupleCursor)
+        cmd = '''
+        SELECT company_id, company_name, description_long, country_name, region, mapped_cat, website_url, next_funding_tag_inv
+        FROM central.v_companies_latest_mat_fe
+        WHERE company_id in %(company_ids)s
+        '''
+        params = {"company_ids": tuple(company_ids)}
+        cur.execute(cmd, params)
+        column_names = [desc[0] for desc in cur.description]
+        data = cur.fetchall()
+        # Create a DataFrame from the results and column names
+        df = pd.DataFrame(data, columns=column_names)
+    return df