Spaces:

awacke1
/

CodeCompetitionClaudeVsGPT

Running

App Files Files Community

awacke1 commited on Dec 19, 2024

Commit

7616943

verified ·

1 Parent(s): 8630bc3

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -7

app.py CHANGED Viewed

@@ -136,19 +136,57 @@ class VideoSearch:
                 st.warning("Using example data embeddings")
                 self.dataset = self.load_example_data()
             # Convert string representations of embeddings back to numpy arrays
-            try:
-                self.video_embeds = np.array([json.loads(e) if isinstance(e, str) else e
-                                            for e in self.dataset.video_embed])
-                self.text_embeds = np.array([json.loads(e) if isinstance(e, str) else e
-                                           for e in self.dataset.description_embed])
-            except Exception as e:
-                st.error(f"Error converting embeddings: {e}")
                 num_rows = len(self.dataset)
                 self.video_embeds = np.random.randn(num_rows, 384)
                 self.text_embeds = np.random.randn(num_rows, 384)
         except Exception as e:
             st.error(f"Error preparing features: {e}")
             # Create random embeddings as fallback
             num_rows = len(self.dataset)
             self.video_embeds = np.random.randn(num_rows, 384)

                 st.warning("Using example data embeddings")
                 self.dataset = self.load_example_data()
+            # Debug the embedding data
+            st.write("Sample video_embed:", self.dataset['video_embed'].iloc[0])
+            st.write("Sample description_embed:", self.dataset['description_embed'].iloc[0])
             # Convert string representations of embeddings back to numpy arrays
+            def parse_embedding(embed_str):
+                try:
+                    # Remove any string formatting artifacts
+                    cleaned_str = str(embed_str).strip()
+                    if cleaned_str.startswith('[') and cleaned_str.endswith(']'):
+                        # Split by comma and convert to floats
+                        values = [float(x.strip()) for x in cleaned_str[1:-1].split(',')]
+                        return values
+                    return []
+                except Exception as e:
+                    st.error(f"Error parsing embedding: {e}")
+                    return []
+            # Process embeddings
+            video_embeds = []
+            text_embeds = []
+            for idx in range(len(self.dataset)):
+                try:
+                    video_embed = parse_embedding(self.dataset['video_embed'].iloc[idx])
+                    desc_embed = parse_embedding(self.dataset['description_embed'].iloc[idx])
+                    if video_embed and desc_embed:
+                        video_embeds.append(video_embed)
+                        text_embeds.append(desc_embed)
+                except Exception as e:
+                    st.error(f"Error processing row {idx}: {e}")
+            if video_embeds and text_embeds:
+                self.video_embeds = np.array(video_embeds)
+                self.text_embeds = np.array(text_embeds)
+                st.success(f"Successfully processed {len(video_embeds)} embeddings")
+            else:
+                st.warning("Falling back to random embeddings")
                 num_rows = len(self.dataset)
                 self.video_embeds = np.random.randn(num_rows, 384)
                 self.text_embeds = np.random.randn(num_rows, 384)
+            # Debug output
+            st.write("Video embeddings shape:", self.video_embeds.shape)
+            st.write("Text embeddings shape:", self.text_embeds.shape)
         except Exception as e:
             st.error(f"Error preparing features: {e}")
+            import traceback
+            st.write("Traceback:", traceback.format_exc())
             # Create random embeddings as fallback
             num_rows = len(self.dataset)
             self.video_embeds = np.random.randn(num_rows, 384)