KennethTM
/

MiniLM-L6-danish-encoder

@@ -6,33 +6,23 @@ tags:
 - sentence-similarity
 license: mit
 datasets:
-- sentence-transformers/embedding-training-data
-- clips/mfaq
 - squad
 - eli5
 language:
 - da
 library_name: sentence-transformers
 ---
-**Work in progress**
 # MiniLM-L6-danish-encoder
 This is a lightweight (~22 M parameters) [sentence-transformers](https://www.SBERT.net) model for Danish NLP: It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for tasks like clustering or semantic search.
-The maximum sequence length is 128 tokens.
-The model was not pre-trained from scratch but adapted from the English version with a [tokenizer](https://huggingface.co/KennethTM/bert-base-uncased-danish) trained on Danish text.
-When using the model to retrieve relevant passages for a given query - "Query: " should be added to the query:
-```python
-query = "Kan man cykle på en vej?"
-query_template = f"Query: {query}"
-#query_template kan now be embedded and similarity compared to other passages
-```
 # Usage (Sentence-Transformers)
@@ -45,7 +35,7 @@ Then you can use the model like this:
 ```python
 from sentence_transformers import SentenceTransformer
-sentences = ["Query: Kører der cykler på vejen?", "En mand løber på vejen.", "En panda løber på vejen.", "En mand kører hurtigt forbi på cykel."]
 model = SentenceTransformer('KennethTM/MiniLM-L6-danish-encoder')
 embeddings = model.encode(sentences)
@@ -66,7 +56,7 @@ def mean_pooling(model_output, attention_mask):
     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
 # Sentences we want sentence embeddings for
-sentences = ["Query: Kører der cykler på vejen?", "En mand løber på vejen.", "En panda løber på vejen.", "En mand kører hurtigt forbi på cykel."]
 # Load model from HuggingFace Hub
 tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-encoder')
@@ -87,4 +77,4 @@ sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
 print("Sentence embeddings:")
 print(sentence_embeddings)
-```

 - sentence-similarity
 license: mit
 datasets:
 - squad
 - eli5
+- sentence-transformers/embedding-training-data
 language:
 - da
 library_name: sentence-transformers
 ---
 # MiniLM-L6-danish-encoder
 This is a lightweight (~22 M parameters) [sentence-transformers](https://www.SBERT.net) model for Danish NLP: It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for tasks like clustering or semantic search.
+The maximum sequence length is 512 tokens.
+The model was not pre-trained from scratch but adapted from the English version with a [Danish tokenizer](https://huggingface.co/KennethTM/bert-base-uncased-danish).
+Trained on ELI5 and SQUAD data machine translated from English to Danish.
 # Usage (Sentence-Transformers)
 ```python
 from sentence_transformers import SentenceTransformer
+sentences = ["Kører der cykler på vejen?", "En panda løber på vejen.", "En mand kører hurtigt forbi på cykel."]
 model = SentenceTransformer('KennethTM/MiniLM-L6-danish-encoder')
 embeddings = model.encode(sentences)
     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
 # Sentences we want sentence embeddings for
+sentences = ["Kører der cykler på vejen?", "En panda løber på vejen.", "En mand kører hurtigt forbi på cykel."]
 # Load model from HuggingFace Hub
 tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-encoder')
 print("Sentence embeddings:")
 print(sentence_embeddings)
+```