nomic-ai
/

nomic-embed-code

Sentence Similarity

sentence-transformers

feature-extraction

text-embeddings-inference

Model card Files Files and versions

zpn commited on Mar 26

Commit

5e79c62

·

verified ·

1 Parent(s): e855ea0

Update README.md

Files changed (1) hide show

README.md +4 -3

README.md CHANGED Viewed

@@ -63,7 +63,7 @@ from transformers import AutoTokenizer, AutoModel
 tokenizer = AutoTokenizer.from_pretrained("nomic-ai/nomic-embed-code")
 model = AutoModel.from_pretrained("nomic-ai/nomic-embed-code")
-def last_token_pooling(model_output, attention_mask):
     sequence_lengths = attention_mask.sum(-1) - 1
     return hidden_states[torch.arange(hidden_states.shape[0]), sequence_lengths]
@@ -74,7 +74,8 @@ code_snippets = queries + codes
 encoded_input = tokenizer(code_snippets, padding=True, truncation=True, return_tensors='pt')
 model.eval()
 with torch.no_grad():
-    model_output = model(**encoded_input)
 embeddings = last_token_pooling(model_output, encoded_input['attention_mask'])
 embeddings = F.normalize(embeddings, p=2, dim=1)
 print(embeddings.shape)
@@ -95,7 +96,7 @@ model = SentenceTransformer("nomic-ai/nomic-embed-code")
 query_emb = model.encode(queries, prompt_name="query")
 code_emb = model.encode(code_snippets)
-similarity = model.similarity(query_emb, code_emb)
 print(similarity)
 ```

 tokenizer = AutoTokenizer.from_pretrained("nomic-ai/nomic-embed-code")
 model = AutoModel.from_pretrained("nomic-ai/nomic-embed-code")
+def last_token_pooling(hidden_states, attention_mask):
     sequence_lengths = attention_mask.sum(-1) - 1
     return hidden_states[torch.arange(hidden_states.shape[0]), sequence_lengths]
 encoded_input = tokenizer(code_snippets, padding=True, truncation=True, return_tensors='pt')
 model.eval()
 with torch.no_grad():
+    model_output = model(**encoded_input)[0]
 embeddings = last_token_pooling(model_output, encoded_input['attention_mask'])
 embeddings = F.normalize(embeddings, p=2, dim=1)
 print(embeddings.shape)
 query_emb = model.encode(queries, prompt_name="query")
 code_emb = model.encode(code_snippets)
+similarity = model.similarity(query_emb[0], code_emb[0])
 print(similarity)
 ```