tomaarsen HF Staff commited on
Commit
15e70a7
·
verified ·
1 Parent(s): 9bce8a1

Add new SparseEncoder model

Browse files
1_SpladePooling/config.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "pooling_strategy": "max",
3
+ "activation_function": "relu",
4
+ "word_embedding_dimension": 50000
5
+ }
README.md ADDED
@@ -0,0 +1,595 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - nl
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - sparse-encoder
8
+ - sparse
9
+ - splade
10
+ - generated_from_trainer
11
+ - dataset_size:483497
12
+ - loss:SpladeLoss
13
+ - loss:SparseMarginMSELoss
14
+ - loss:FlopsLoss
15
+ base_model: DTAI-KULeuven/robbert-2023-dutch-base
16
+ widget:
17
+ - text: Welke van de buikspieren is het meest oppervlakkig?
18
+ - text: Hebben kassasystemen internet nodig
19
+ - text: Hagel is neerslag in de vorm van grote ballen of klompen ijs. Begin vorige
20
+ week was er een storm die hagel produceerde. Hagel begint als kleine ijsdeeltjes
21
+ die voornamelijk groeien door accretie; om groot te worden, hebben ze overvloedige
22
+ waterdruppels nodig. Terwijl de hagelsteen naar boven en naar beneden beweegt
23
+ door de storm, botst hij tegen waterdruppels, waardoor hij met elke botsing groter
24
+ wordt. Hagelstenen kunnen zo groot worden als sinaasappels en grapefruits. Hagelstenen
25
+ beginnen als kleine ijsdeeltjes die voornamelijk groeien door accretie; om groot
26
+ te worden, hebben ze overvloedige waterdruppels nodig. Terwijl de hagelsteen naar
27
+ boven en naar beneden beweegt door een storm, botst hij tegen waterdruppels, waardoor
28
+ hij met elke botsing groter wordt. Hagelstenen kunnen zo groot worden als sinaasappels
29
+ en grapefruits.
30
+ - text: wat is WIST
31
+ - text: Bij het bouwen met gietwanden wordt de vloeren van de kelder voorbereid alsof
32
+ het een plaatvloer is, vaak met de betonnen vloer die wordt gestort nadat de bovenste
33
+ verdiepingen zijn geplaatst en het dak, de ramen en de deuren zijn geïnstalleerd.
34
+ De leidingen voor vloerdrainage en piping moeten worden aangelegd vóór het storten.
35
+ datasets:
36
+ - tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch
37
+ pipeline_tag: feature-extraction
38
+ library_name: sentence-transformers
39
+ metrics:
40
+ - dot_accuracy@1
41
+ - dot_accuracy@3
42
+ - dot_accuracy@5
43
+ - dot_accuracy@10
44
+ - dot_precision@1
45
+ - dot_precision@3
46
+ - dot_precision@5
47
+ - dot_precision@10
48
+ - dot_recall@1
49
+ - dot_recall@3
50
+ - dot_recall@5
51
+ - dot_recall@10
52
+ - dot_ndcg@10
53
+ - dot_mrr@10
54
+ - dot_map@100
55
+ - query_active_dims
56
+ - query_sparsity_ratio
57
+ - corpus_active_dims
58
+ - corpus_sparsity_ratio
59
+ co2_eq_emissions:
60
+ emissions: 527.1889196785908
61
+ energy_consumed: 1.4281761636263346
62
+ source: codecarbon
63
+ training_type: fine-tuning
64
+ on_cloud: false
65
+ cpu_model: AMD EPYC 7R13 Processor
66
+ ram_total_size: 1999.9855346679688
67
+ hours_used: 0.399
68
+ hardware_used: 8 x NVIDIA H100 80GB HBM3
69
+ model-index:
70
+ - name: Splade robbert-2023-dutch-base finetuned on MSMARCO
71
+ results:
72
+ - task:
73
+ type: sparse-information-retrieval
74
+ name: Sparse Information Retrieval
75
+ dataset:
76
+ name: msmarco eval 1k
77
+ type: msmarco-eval-1k
78
+ metrics:
79
+ - type: dot_accuracy@1
80
+ value: 0.796
81
+ name: Dot Accuracy@1
82
+ - type: dot_accuracy@3
83
+ value: 0.907
84
+ name: Dot Accuracy@3
85
+ - type: dot_accuracy@5
86
+ value: 0.932
87
+ name: Dot Accuracy@5
88
+ - type: dot_accuracy@10
89
+ value: 0.958
90
+ name: Dot Accuracy@10
91
+ - type: dot_precision@1
92
+ value: 0.796
93
+ name: Dot Precision@1
94
+ - type: dot_precision@3
95
+ value: 0.3023333333333333
96
+ name: Dot Precision@3
97
+ - type: dot_precision@5
98
+ value: 0.18640000000000004
99
+ name: Dot Precision@5
100
+ - type: dot_precision@10
101
+ value: 0.09580000000000001
102
+ name: Dot Precision@10
103
+ - type: dot_recall@1
104
+ value: 0.796
105
+ name: Dot Recall@1
106
+ - type: dot_recall@3
107
+ value: 0.907
108
+ name: Dot Recall@3
109
+ - type: dot_recall@5
110
+ value: 0.932
111
+ name: Dot Recall@5
112
+ - type: dot_recall@10
113
+ value: 0.958
114
+ name: Dot Recall@10
115
+ - type: dot_ndcg@10
116
+ value: 0.8808059179687359
117
+ name: Dot Ndcg@10
118
+ - type: dot_mrr@10
119
+ value: 0.8556781746031749
120
+ name: Dot Mrr@10
121
+ - type: dot_map@100
122
+ value: 0.8569044018336731
123
+ name: Dot Map@100
124
+ - type: query_active_dims
125
+ value: 62.608001708984375
126
+ name: Query Active Dims
127
+ - type: query_sparsity_ratio
128
+ value: 0.9987478399658203
129
+ name: Query Sparsity Ratio
130
+ - type: corpus_active_dims
131
+ value: 255.89559936523438
132
+ name: Corpus Active Dims
133
+ - type: corpus_sparsity_ratio
134
+ value: 0.9948820880126952
135
+ name: Corpus Sparsity Ratio
136
+ ---
137
+
138
+ # Splade robbert-2023-dutch-base finetuned on MSMARCO
139
+
140
+ This is a [SPLADE Sparse Encoder](https://www.sbert.net/docs/sparse_encoder/usage/usage.html) model finetuned from [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base) on the [msmarco-qwen3-reranker-0.6_b-dutch](https://huggingface.co/datasets/tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch) dataset using the [sentence-transformers](https://www.SBERT.net) library. It maps sentences & paragraphs to a 50000-dimensional sparse vector space and can be used for semantic search and sparse retrieval.
141
+ ## Model Details
142
+
143
+ ### Model Description
144
+ - **Model Type:** SPLADE Sparse Encoder
145
+ - **Base model:** [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base) <!-- at revision d3059f07233b86057a9fb0ba4972aaa42b1f82a0 -->
146
+ - **Maximum Sequence Length:** 512 tokens
147
+ - **Output Dimensionality:** 50000 dimensions
148
+ - **Similarity Function:** Dot Product
149
+ - **Training Dataset:**
150
+ - [msmarco-qwen3-reranker-0.6_b-dutch](https://huggingface.co/datasets/tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch)
151
+ - **Language:** nl
152
+ - **License:** apache-2.0
153
+
154
+ ### Model Sources
155
+
156
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
157
+ - **Documentation:** [Sparse Encoder Documentation](https://www.sbert.net/docs/sparse_encoder/usage/usage.html)
158
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
159
+ - **Hugging Face:** [Sparse Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=sparse-encoder)
160
+
161
+ ### Full Model Architecture
162
+
163
+ ```
164
+ SparseEncoder(
165
+ (0): MLMTransformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaForMaskedLM'})
166
+ (1): SpladePooling({'pooling_strategy': 'max', 'activation_function': 'relu', 'word_embedding_dimension': 50000})
167
+ )
168
+ ```
169
+
170
+ ## Usage
171
+
172
+ ### Direct Usage (Sentence Transformers)
173
+
174
+ First install the Sentence Transformers library:
175
+
176
+ ```bash
177
+ pip install -U sentence-transformers
178
+ ```
179
+
180
+ Then you can load this model and run inference.
181
+ ```python
182
+ from sentence_transformers import SparseEncoder
183
+
184
+ # Download from the 🤗 Hub
185
+ model = SparseEncoder("tomaarsen/splade-robbert-dutch-base")
186
+ # Run inference
187
+ queries = [
188
+ "hoe maak je een keldervloer glad",
189
+ ]
190
+ documents = [
191
+ 'V: Ik wil een keldervloer schilderen, maar het beton is te ruw. Is er een gemakkelijke manier om het glad te maken? A: Je kunt het voorafgaand aan het schilderen voorzien van een nieuwe laag. Een overlay compound - ook wel zelfnivellerende compound genoemd - is een op gips gebaseerd product dat zichzelf nivelleert wanneer het over de vloer wordt gegoten. Het kan tot een dikte van 1,25 cm of meer worden gegoten, afhankelijk van het product. Je verspreidt het product met een trekker. Zodra het is uitgehard, zal de vloer glad en gelijkmatig zijn.',
192
+ 'Deel 1: Vocht in de kelder elimineren. Een van de belangrijkste aspecten van het renoveren van een kelder is ervoor zorgen dat deze droog en warm is. Bob praat met Larry Janesky van Basement Systems over de stappen die zijn genomen om de kelder in Melrose droog te houden. Een vergrendelbare kunststof ondervloer fungeert als een ondervloer voor de keldervloer.',
193
+ 'Plaats een 1,2 meter lange waterpas op de vloer naast de muur om te controleren of de vloer vlak is. Zo niet, schuif de waterpas over de vloer om het laagste punt te vinden. Op dat punt, bevestig een reststukje plint met een spijker aan de muur.',
194
+ ]
195
+ query_embeddings = model.encode_query(queries)
196
+ document_embeddings = model.encode_document(documents)
197
+ print(query_embeddings.shape, document_embeddings.shape)
198
+ # [1, 50000] [3, 50000]
199
+
200
+ # Get the similarity scores for the embeddings
201
+ similarities = model.similarity(query_embeddings, document_embeddings)
202
+ print(similarities)
203
+ # tensor([[16.1220, 10.5006, 8.6634]])
204
+ ```
205
+
206
+ <!--
207
+ ### Direct Usage (Transformers)
208
+
209
+ <details><summary>Click to see the direct usage in Transformers</summary>
210
+
211
+ </details>
212
+ -->
213
+
214
+ <!--
215
+ ### Downstream Usage (Sentence Transformers)
216
+
217
+ You can finetune this model on your own dataset.
218
+
219
+ <details><summary>Click to expand</summary>
220
+
221
+ </details>
222
+ -->
223
+
224
+ <!--
225
+ ### Out-of-Scope Use
226
+
227
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
228
+ -->
229
+
230
+ ## Evaluation
231
+
232
+ ### Metrics
233
+
234
+ #### Sparse Information Retrieval
235
+
236
+ * Dataset: `msmarco-eval-1k`
237
+ * Evaluated with [<code>SparseInformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sparse_encoder/evaluation.html#sentence_transformers.sparse_encoder.evaluation.SparseInformationRetrievalEvaluator)
238
+
239
+ | Metric | Value |
240
+ |:----------------------|:-----------|
241
+ | dot_accuracy@1 | 0.796 |
242
+ | dot_accuracy@3 | 0.907 |
243
+ | dot_accuracy@5 | 0.932 |
244
+ | dot_accuracy@10 | 0.958 |
245
+ | dot_precision@1 | 0.796 |
246
+ | dot_precision@3 | 0.3023 |
247
+ | dot_precision@5 | 0.1864 |
248
+ | dot_precision@10 | 0.0958 |
249
+ | dot_recall@1 | 0.796 |
250
+ | dot_recall@3 | 0.907 |
251
+ | dot_recall@5 | 0.932 |
252
+ | dot_recall@10 | 0.958 |
253
+ | **dot_ndcg@10** | **0.8808** |
254
+ | dot_mrr@10 | 0.8557 |
255
+ | dot_map@100 | 0.8569 |
256
+ | query_active_dims | 62.608 |
257
+ | query_sparsity_ratio | 0.9987 |
258
+ | corpus_active_dims | 255.8956 |
259
+ | corpus_sparsity_ratio | 0.9949 |
260
+
261
+ <!--
262
+ ## Bias, Risks and Limitations
263
+
264
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
265
+ -->
266
+
267
+ <!--
268
+ ### Recommendations
269
+
270
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
271
+ -->
272
+
273
+ ## Training Details
274
+
275
+ ### Training Dataset
276
+
277
+ #### msmarco-qwen3-reranker-0.6_b-dutch
278
+
279
+ * Dataset: [msmarco-qwen3-reranker-0.6_b-dutch](https://huggingface.co/datasets/tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch) at [134d739](https://huggingface.co/datasets/tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch/tree/134d73953b75260c68032ec5ab0464f19336060c)
280
+ * Size: 483,497 training samples
281
+ * Columns: <code>query</code>, <code>positive</code>, <code>negative_1</code>, <code>negative_2</code>, <code>negative_3</code>, <code>negative_4</code>, <code>negative_5</code>, <code>negative_6</code>, <code>negative_7</code>, <code>negative_8</code>, and <code>score</code>
282
+ * Approximate statistics based on the first 1000 samples:
283
+ | | query | positive | negative_1 | negative_2 | negative_3 | negative_4 | negative_5 | negative_6 | negative_7 | negative_8 | score |
284
+ |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------|
285
+ | type | string | string | string | string | string | string | string | string | string | string | list |
286
+ | details | <ul><li>min: 4 tokens</li><li>mean: 10.0 tokens</li><li>max: 42 tokens</li></ul> | <ul><li>min: 19 tokens</li><li>mean: 92.8 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 18 tokens</li><li>mean: 79.04 tokens</li><li>max: 251 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 81.89 tokens</li><li>max: 267 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 80.76 tokens</li><li>max: 260 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 82.41 tokens</li><li>max: 303 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 82.67 tokens</li><li>max: 244 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 82.92 tokens</li><li>max: 221 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 84.15 tokens</li><li>max: 255 tokens</li></ul> | <ul><li>min: 16 tokens</li><li>mean: 82.19 tokens</li><li>max: 237 tokens</li></ul> | <ul><li>size: 9 elements</li></ul> |
287
+ * Samples:
288
+ | query | positive | negative_1 | negative_2 | negative_3 | negative_4 | negative_5 | negative_6 | negative_7 | negative_8 | score |
289
+ |:---------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------|
290
+ | <code>wat is clomifeen</code> | <code>Indicaties van dit medicijn. Clomifeen wordt gebruikt als vruchtbaarheidsmedicijn bij sommige vrouwen die niet in staat zijn om zwanger te raken. Clomifeen werkt waarschijnlijk door de hormonale balans in het lichaam te veranderen. Bij vrouwen zorgt dit ervoor dat ovulatie plaatsvindt en bereidt het lichaam voor op een zwangerschap.</code> | <code>Clomifeen-citraat, een synthetisch hormoon dat vaak wordt gebruikt om ovulatie op te wekken of te reguleren, is de meest voorgeschreven vruchtbaarheidspil. Merknamen voor clomifeen-citraat zijn Clomid en Serophene. Clomifeen werkt indirect om de ovulatie te stimuleren.</code> | <code>Af en toe kan clomifeen de eierstokken te veel stimuleren, waardoor er meerdere eieren worden vrijgegeven, wat kan leiden tot meerlingen, zoals tweelingen of drieling (zie Clomid en Tweelingen). Clomifeen is een van de goedkoopste en makkelijkste vruchtbaarheidsmedicijnen. Het werkt echter niet voor alle soorten onvruchtbaarheid. Uw zorgverlener moet eerst de oorzaak van uw onvruchtbaarheid proberen te achterhalen voordat u clomifeen gaat gebruiken.</code> | <code>Clomifeencitraat biedt twee voordelen voor de prestatieverhogende atleet, waarvan er één primair is. Meest voorkomende is dat deze SERM wordt gebruikt voor herstel na een cyclus; specifiek om de natuurlijke testosteronproductie te stimuleren die onderdrukt is door het gebruik van anabole steroïden.</code> | <code>PCOS en ovulatieproblemen en Clomid-behandeling. Clomid (clomifeencitraat of Serophene) is een orale medicatie die vaak wordt gebruikt voor de behandeling van onvruchtbaarheid. Het wordt vaak gegeven om de ovulatie te stimuleren bij vrouwen die zelf geen eicel ontwikkelen en loslaten (ovuleren).</code> | <code>Indicatie: Clomid (clomifeencitraat) is vaak de eerste keuze voor het behandelen van onvruchtbaarheid, omdat het effectief is en al meer dan 40 jaar gebruikt wordt.</code> | <code>Clomid Beschrijving. Clomid (clomifeen citrate tabletten USP) is een oraal toegediend, niet-steroïdaal ovulatie-stimulerend middel, chemisch aangeduid als 2-[p-(2-chloore-1,2-dfenylvinyl)fenoxy] triëthylamine citrate (1:1). Het heeft de moleculaire formule C26H28ClNO • C6H8O7 en een moleculair gewicht van 598,09.</code> | <code>PCOS en ovulatieproblemen en Clomid-behandeling. Clomid (clomifeencitraat of Serophene) is een orale medicatie die veelvuldig wordt gebruikt voor de behandeling van onvruchtbaarheid. Het wordt vaak gegeven om de ovulatie te stimuleren bij vrouwen die geen eicel ontwikkelen en vrijgeven (ovuleren) op eigen kracht. Clomid wordt vroeg in de menstruatiecyclus gestart en gedurende vijf dagen ingenomen, ofwel van cyclusdag 3 tot en met 7, of van dag 5 tot en met 9. Clomid wordt meestal gestart met een dosis van één tablet (50 mg) dagelijks, op een moment van de dag naar keuze.</code> | <code>Clomid wordt in de vorm van een pil ingenomen. Dit is anders dan de sterkere vruchtbaarheidsmedicatie, die geïnjecteerd moet worden. Clomid is ook zeer effectief en stimuleert de ovulatie in 80 procent van de gevallen. Clomid kan ook op de markt worden gebracht onder de naam Serophene, of je kunt het onder de generieke naam clomifeencitraat tegenkomen. Opmerking: Clomid kan ook worden gebruikt als behandeling voor mannelijke onvruchtbaarheid. Dit artikel richt zich op de behandeling met Clomid bij vrouwen.</code> | <code>[4.75390625, 6.9375, 3.92578125, 1.0400390625, 5.61328125, ...]</code> |
291
+ | <code>typische accountant kosten voor IT aannemer</code> | <code>In de huidige markt hebben we tarieven gezien van zo laag als €60 +BTW, en zo hoog als €216 +BTW voor gespecialiseerde accountants voor aannemers. Interessant is dat de gemiddelde kosten voor aannemeraccounting de afgelopen tien jaar niet in lijn zijn gestegen met de inflatie.</code> | <code>Dus, hoeveel kost een aannemer? Dit ligt tussen de 5% en 25% van de totale projectkosten, met een gemiddelde van 10-15%. Typisch bestaat de ploeg van de aannemer uit algemene timmerlieden, sommigen met meer gespecialiseerde vaardigheden. Hoe een aannemer precies in rekening brengt voor een project hangt af van het type contract waarop je je akkoord hebt gegeven. Er zijn drie veelvoorkomende soorten kostencorrespondenties: vaste prijs, tijd & materialen en kosten plus een vergoeding.</code> | <code>1 Accountants vragen tussen de €140 en €360 of meer per uur, afhankelijk van de soort werkzaamheden, de grootte van het kantoor en de locatie. 2 Voor routinematige werkzaamheden door een minder ervaren medewerker of minder goed opgeleide werknemer betaal je lager tarief, bijvoorbeeld tussen de €25 en €45 voor boekhoudkundige diensten. 3 Het totale honorarium van een accountant hangt af van het project. Voor een simpele oprichting, reken op minimaal 0,5-1,5 uur consult (€70-€520) om je bedrijfsstructuur en basis belastingvraagstukken door te nemen.</code> | <code>Dus, hoeveel kost een aannemer? Dit varieert van 5% tot 25% van de totale projectkosten, met gemiddeld tussen de 10-15%. Hoe een aannemer precies rekent voor een project hangt af van het type contract waar je mee akkoord gaat. Er zijn drie veelvoorkomende types kostencontracten: vaste prijs, tijd en materialen, en kostprijs plus een vergoeding. Elk type contract heeft voor- en nadelen voor zowel de consument als de aannemer.</code> | <code>1 Accountants vragen €140 - €370 of meer per uur, afhankelijk van het type werk, de grootte van het bureau en de locatie. 2 Je betaalt lagere tarieven voor routinematig werk dat wordt gedaan door een minder ervaren medewerker of minder goed opgeleide werknemer, zoals €28 - €46 voor boekhoudkundige diensten. 3 De totale kosten van een accountant hangen af van het project.</code> | <code>gemiddelde toetsaanslagen per uur salarissen het gemiddelde salaris voor toetsaanslagen per uur in dataverwerking is € 18.500</code> | <code>Boekhoudkundige diensten kosten doorgaans tussen de €225 en €360 per maand, of tussen de €315 en €450 per kwartaal. Inclusief btw en bankafschriften. Wij verzorgen alle verwerking, indiening en belastingdeposities. 5 werknemers, tweewekelijks salaris, automatische incasso, €125 per maand.</code> | <code>Hoe minder uitbesteed wordt, hoe goedkoper het voor je zal zijn. Een boekhouder zou tussen de €13 en €16 per uur betaald moeten worden. Een accountant met een bachelor (4 jaar) zou ergens rond de €18 per uur betaald moeten worden, maar dat hangt nog steeds af van wat je ze laat doen. Een accountant met een mastergraad zou tussen de €23 en €27 per uur betaald moeten worden.</code> | <code>Salaris op basis van ervaringsniveau voor Inlichtingenanalisten. Mediaan van alle compensatie (inclusief fooi, bonus en overuren) op basis van jaren ervaring. Inlichtingenanalisten met veel ervaring hebben doorgaans hogere inkomsten.</code> | <code>[7.44921875, 3.271484375, 5.859375, 3.234375, 5.421875, ...]</code> |
292
+ | <code>wat is mch op een bloedtest</code> | <code>Wat hoge niveaus betekenen. MCH-niveaus in bloedtesten worden als hoog beschouwd als ze 35 of hoger zijn. Een normaal hemoglobine-niveau wordt als zijnde in het bereik van 26 tot 33 picogram per rode bloedcel beschouwd. Hoge MCH-niveaus kunnen wijzen op macrocytaire anemie, wat kan worden veroorzaakt door een tekort aan vitamine B12. Macrocytaire RBC's zijn groot, waardoor ze doorgaans een hoger MCH hebben, terwijl microcytaire rode cellen een lagere waarde zouden hebben. MCH is een van de drie indices van rode bloedcellen (MCHC en MCV zijn de andere twee). De metingen worden uitgevoerd door een machine en kunnen helpen bij de diagnose van medische problemen.</code> | <code>MCH staat voor gemiddelde corpusculaire hemoglobine. Het schat de gemiddelde hoeveelheid hemoglobine in elk rode bloedcel, gemeten in picogrammen (een biljoenste van een gram). Geautomatiseerde cel telmachines berekenen de MCH, die gerapporteerd wordt als onderdeel van een volledig bloedonderzoek (CBC). MCH kan laag zijn bij ijzertekortanemie en kan hoog zijn bij anemie door een tekort aan vitamine B12 of foliumzuur. Andere vormen van anemie kunnen ook leiden tot een abnormale MCH. Dokters gebruiken de MCH alleen als ondersteunende informatie, niet om een diagnose te stellen.</code> | <code>A. MCH staat voor gemiddelde corpusculaire hemoglobine. Het schat de gemiddelde hoeveelheid hemoglobine in elke rode bloedcel, gemeten in picogram (een biljoenste van een gram). Geautomatiseerde cel telmachines berekenen de MCH, die wordt gerapporteerd als onderdeel van een compleet bloedbeeld (CBC) test. MCH kan laag zijn bij ijzertekortanemie en kan hoog zijn bij anemie door vitamine B12- of foliumzuurtekort. Andere vormen van anemie kunnen ook leiden tot een abnormale MCH.</code> | <code>De test die wordt gebruikt om de hoeveelheid hemoglobine in het bloed te bepalen, staat bekend als de MCH-bloedtest. De volle betekenis van MCH is Gemiddelde Corpusculaire Hemoglobine. Deze test wordt daarom gebruikt om de gemiddelde hoeveelheid hemoglobine per rode bloedcel in het lichaam te bepalen. De resultaten van de MCH-bloedtest worden gerapporteerd in picogram, een erg kleine maat voor gewicht.</code> | <code>Een hoge MCH-bloedtest geeft aan dat er een slechte zuurstoftoevoer naar het bloed is, terwijl een lage MCH-bloedtest betekent dat er te weinig hemoglobine in de cellen is, wat wijst op een tekort aan ijzer. Het is belangrijk dat het ijzer op een bepaald niveau wordt gehouden, aangezien te veel of te weinig ijzer gevaarlijk kan zijn voor je lichaam.</code> | <code>dia 1 van 7. Wat is MCH? MCH is de afkorting voor Gemiddelde Corpusculaire Hemoglobine. Afkomstig uit het Latijn verwijst de term naar de gemiddelde hoeveelheid hemoglobine die in rode bloedcellen wordt aangetroffen. Een CBC (volledig bloedbeeld) bloedtest kan worden gebruikt om de MCH-niveaus in het bloed te volgen. Lab Tests Online legt uit dat het MCH-aspect van een CBC-test een maat is voor de gemiddelde hoeveelheid zuurstofdragende hemoglobine in een rode bloedcel. Macrocytische RBC's zijn groot en hebben dus een hogere MCH, terwijl microcytische rode cellen een lagere waarde zouden hebben.</code> | <code>De test die gebruikt wordt om de hoeveelheid hemoglobine in het bloed te bepalen, staat bekend als de MCH bloedtest. De volledige naam van MCH is Gemiddelde Corpusculaire Hemoglobine. Deze test wordt dus gebruikt om de gemiddelde hoeveelheid hemoglobine per rode bloedcel in het lichaam te bepalen. De resultaten van de MCH bloedtest worden gerapporteerd in picogrammen, een kleine maat voor gewicht. De normale waarde van de MCH bloedtest ligt tussen 26 en 33 pg per cel.</code> | <code>Een MCHC-test is een test die wordt uitgevoerd om een persoon op bloedarmoede te testen. MCHC in een MCHC-test staat voor Gemiddelde Corpusculaire Hemoglobine Concentratie. MCHC is de berekening van de gemiddelde hemoglobine binnen een rode bloedcel. Een MCHC-test kan worden uitgevoerd samen met een MCV-test (Gemiddeld Corpusculair Volume). Beide niveaus worden gebruikt om mensen op bloedarmoede te testen. De MCHC-test staat ook bekend als de MCH-bloedtest, die de niveaus van hemoglobine in het bloed test. De MCHC-test kan worden aangevraagd als onderdeel van een compleet bloedbeeld (CBC) test. CHC wordt gemeten in grammen per deciliter. Normale waarden voor MCHC liggen tussen de 31 gram per deciliter en 35 gram per deciliter. Een MCHC-bloedtest kan worden aangevraagd wanneer een persoon tekenen van vermoeidheid of zwakte vertoont, wanneer er een infectie is, wanneer iemand gemakkelijk bloed of blauwe plekken krijgt, of wanneer er een ontsteking is.</code> | <code>De test kijkt naar de gemiddelde hoeveelheid hemoglobine per rode bloedcel. MCHC = de hoeveelheid hemoglobine die aanwezig is in elke rode bloedcel. Een MCHC-bloedtest kan worden aangevraagd voor iemand die tekenen vertoont van vermoeidheid of zwakte, wanneer er een infectie is, wanneer iemand gemakkelijk bloedt of blauwe plekken krijgt, of wanneer er duidelijke ontstekingen zichtbaar zijn.</code> | <code>[6.44921875, 7.05078125, 7.2109375, 8.40625, 6.53515625, ...]</code> |
293
+ * Loss: [<code>SpladeLoss</code>](https://sbert.net/docs/package_reference/sparse_encoder/losses.html#spladeloss) with these parameters:
294
+ ```json
295
+ {
296
+ "loss": "SparseMarginMSELoss",
297
+ "document_regularizer_weight": 0.08,
298
+ "query_regularizer_weight": 0.1
299
+ }
300
+ ```
301
+
302
+ ### Evaluation Dataset
303
+
304
+ #### msmarco-qwen3-reranker-0.6_b-dutch
305
+
306
+ * Dataset: [msmarco-qwen3-reranker-0.6_b-dutch](https://huggingface.co/datasets/tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch) at [134d739](https://huggingface.co/datasets/tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch/tree/134d73953b75260c68032ec5ab0464f19336060c)
307
+ * Size: 10,000 evaluation samples
308
+ * Columns: <code>query</code>, <code>positive</code>, <code>negative_1</code>, <code>negative_2</code>, <code>negative_3</code>, <code>negative_4</code>, <code>negative_5</code>, <code>negative_6</code>, <code>negative_7</code>, <code>negative_8</code>, and <code>score</code>
309
+ * Approximate statistics based on the first 1000 samples:
310
+ | | query | positive | negative_1 | negative_2 | negative_3 | negative_4 | negative_5 | negative_6 | negative_7 | negative_8 | score |
311
+ |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------|
312
+ | type | string | string | string | string | string | string | string | string | string | string | list |
313
+ | details | <ul><li>min: 4 tokens</li><li>mean: 9.93 tokens</li><li>max: 30 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 92.85 tokens</li><li>max: 257 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 80.39 tokens</li><li>max: 215 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 79.84 tokens</li><li>max: 222 tokens</li></ul> | <ul><li>min: 16 tokens</li><li>mean: 81.66 tokens</li><li>max: 272 tokens</li></ul> | <ul><li>min: 16 tokens</li><li>mean: 81.78 tokens</li><li>max: 319 tokens</li></ul> | <ul><li>min: 16 tokens</li><li>mean: 83.81 tokens</li><li>max: 340 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 79.79 tokens</li><li>max: 255 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 82.62 tokens</li><li>max: 264 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 80.73 tokens</li><li>max: 262 tokens</li></ul> | <ul><li>size: 9 elements</li></ul> |
314
+ * Samples:
315
+ | query | positive | negative_1 | negative_2 | negative_3 | negative_4 | negative_5 | negative_6 | negative_7 | negative_8 | score |
316
+ |:--------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------|
317
+ | <code>hoeveel mensen zijn er in dienst bij Shell</code> | <code>Shell wereldwijd. Koninklijke Dutch Shell werd opgericht in 1907, hoewel onze geschiedenis teruggaat tot het begin van de 19e eeuw, naar een kleine winkel in Londen waar de familie Samuel schelpen verkocht. Tegenwoordig is Shell een van de grootste energiebedrijven ter wereld, met gemiddeld 93.000 medewerkers en actief in meer dan 70 landen. Ons hoofdkantoor bevindt zich in Den Haag, Nederland, en onze Chief Executive Officer is Ben van Beurden.</code> | <code>Toon informatie uit bronnen. Deze statistiek toont het aantal medewerkers bij SeaWorld Entertainment, Inc. in de Verenigde Staten, verdeeld naar type. In december 2016 had SeaWorld 5.000 fulltime medewerkers in dienst en telde ongeveer 13.000 seizoensmedewerkers tijdens hun drukste operationele seizoen.</code> | <code>Banen, bedrijven, mensen en artikelen voor leden van LinkedIn's Payroll Specialist - Addus Thuiszorg, Inc. Inzichten over Payroll Specialist - Addus Thuiszorg, Inc. leden op LinkedIn. Mediaan salaris €28.000.</code> | <code>Vanaf juli 2014 zijn er 139 miljoen mensen aan het werk in Nederland. Dit aantal is gestegen met 209.000 werknemers ten opzichte van juni en met 1,47 miljoen ten opzichte van het begin van 2014.</code> | <code>gemiddelde toetsaanslagen per uur salarissen het gemiddelde salaris voor toetsaanslagen per uur in dataverwerking is € 18.500</code> | <code>Onderzoek en bekijk banen bij Plano Synergy. Leer meer over een carrière bij Plano Synergy, inclusief alle recente vacatures, wervingstrends, salarissen, werkomgeving en meer. Vind vacatures Bedrijfsreviews Vind salarissen Vind cv's Werkgevers / Plaats vacature Upload je cv Inloggen</code> | <code>Van miljoenen echte salarisgegevens. 13 salarisgegevens van klantenservice specialisten. Het gemiddelde salaris van een klantenservice specialist is €59.032. Gedetailleerd salarisrapport van klantenservice specialisten, starters salaris, mediaansalaris, loonstructuur, bonusgegevens. Meld je aan en ontdek hoeveel € je kunt verdienen | Inloggen</code> | <code>Op basis van miljoenen echte salarisgegevens. 1 salarisgegeven van een CEO van Ally. Gemiddeld salaris van een CEO van Ally is €50.000 Gedetailleerd salaris van een startende CEO van Ally, median salaris, loonstructuur, bonusgegevens rapport</code> | <code>De voordelen en extraatjes van HelpSystems, waaronder verzekeringen, pensioenregelingen en vakantietijd. Anoniem gerapporteerd door medewerkers van HelpSystems. Glassdoor gebruikt cookies om je gebruikerservaring op de site te verbeteren.</code> | <code>[6.265625, -1.3671875, -6.91796875, 1.111328125, -7.96875, ...]</code> |
318
+ | <code>wat is een lcsw</code> | <code>LCSW is een afkorting voor geregistreerd klinisch sociaal werker, en mensen met deze titel zijn geschoolde professionals die aan bepaalde vereisten voldoen en in verschillende gebieden werken. De term sociaal werker is niet altijd synoniem met geregistreerd klinisch sociaal werker.</code> | <code>LISW betekent dat de persoon een Geregistreerd Onafhankelijk Maatschappelijk Werker is. LCSW betekent dat de persoon een Geregistreerd Klinisch Maatschappelijk Werker is. Bron(nen): Inleiding tot Maatschappelijk Werk 101 aan de Universiteit van Nevada, Las Vegas (UNLV) Dorothy K. · 10 jaar geleden.</code> | <code>Een LCSW is een geregistreerde klinische sociaal werker. Een LMHC is de nieuwste toevoeging aan het veld van geestelijke gezondheidszorg. Ze zijn sterk vergelijkbaar en kunnen de meeste van dezelfde taken uitvoeren met enkele uitzonderingen. Een belangrijk punt om rekening mee te houden is dat, omdat de LMHC-licentie zo nieuw is, er minder van zijn in het vakgebied.</code> | <code>De Licensed Clinical Social Worker of LCSW is een subsectie binnen het vakgebied van de Maatschappelijk Werk. Zij werken met cliënten om hen te helpen omgaan met problemen die verband houden met hun mentale en emotionele gezondheid. Dit kan gerelateerd zijn aan middelenmisbruik, traumatische ervaringen uit het verleden of psychische aandoeningen.</code> | <code>Gecertificeerd Klinisch Maatschappelijk Werker | LCSW. De Gecertificeerd Klinisch Maatschappelijk Werker of LCSW is een subsectie binnen het vakgebied van Maatschappelijk Werk. LCSW's werken met cliënten om hen te helpen omgaan met kwesties die verband houden met mentale en emotionele gezondheid. Er zijn veel verschillende specialisaties waarop de Gecertificeerd Klinisch Maatschappelijk Werker zich kan richten.</code> | <code>Het LMSW-examen is een computergebaseerde test met 170 meerkeuzevragen die zijn ontworpen om minimale competenties te meten in vier categorieën van sociaal werkpraktijk: Menselijke ontwikkeling, diversiteit en gedrag in de omgeving. Beoordeling en interventieplanning.</code> | <code>De Geregistreerde Gezondheidspsycholoog, ook wel GZ-psycholoog genoemd, is een tak van de sociale wetenschappen die zich specialiseert in geestelijke gezondheidszorg in een counselingformaat. Het worden van een GZ-psycholoog vereist een aanzienlijke mate van opleiding, waaronder het hebben behaald van een Master Sociale Wetenschappen (MSW) diploma van een geaccrediteerd programma.</code> | <code>a. De examenvereisten voor licentiëring als een LCSW omvatten het slagen voor het Klinisch Examen van de ASWB of het Klinisch Sociaal Werkers Examen van de Staat Californië. Toepassingsgebied - Beperkingen. a. Voor zover zij zijn voorbereid door opleiding en training, kan een LCSW zich bezighouden met alle handelingen en praktijken die zijn gedefinieerd als de praktijk van klinisch sociaal werk. G gecertificeerd Sociaal Werk (CSW): CSW betekent een gecertificeerde sociaal werker met vergunning. Een CSW moet een masterdiploma hebben.</code> | <code>De LTCM-client is een manier voor bedrijven om in contact te blijven met u, hun klanten, op een manier die niet opdringerig is en volledig onder controle van de gebruiker staat. Het is een applicatie die stilletjes op de computer draait. Gebruikers kunnen en moeten de client aanpassen aan hun gewenste voorkeuren.</code> | <code>[7.34375, 6.046875, 7.09765625, 6.46484375, 7.28515625, ...]</code> |
319
+ | <code>bevat oolong thee veel cafeïne?</code> | <code>Bij een bepaald gewicht bevat thee meer cafeïne dan koffie, maar dit betekent niet dat een gebruikelijke portie thee meer cafeïne bevat dan koffie, omdat thee meestal zwak wordt gezet. Sommige soorten thee, zoals oolong en zwarte thee, bevatten een hoger niveau van cafeïne dan de meeste andere theeën. Onder de zes basis theeën (groen, zwart, geel, wit, oolong, donker), bevat groene thee minder cafeïne dan zwarte thee en witte thee bevat minder dan groene thee. Maar veel studies hebben aangetoond dat het cafeïnegehalte meer varieert tussen individuele theeën dan tussen brede categorieën.</code> | <code>Eigenlijk heeft oolongthee minder cafeïne dan koffie en zwakte thee. Een kopje oolongthee heeft slechts ongeveer 1/3 van de cafeïne van een kopje koffie. Volgens een onderzoek uitgevoerd door HICKS M.B, neemt de cafeïne af telkens wanneer de theebladeren het brouwproces ondergaan.</code> | <code>Oolongthee bevat cafeïne. Cafeïne werkt door het centrale zenuwstelsel (CZS), het hart en de spieren te stimuleren. Oolongthee bevat ook theofylline en theobromine, die chemische stoffen zijn die lijken op cafeïne. Te veel oolongthee, meer dan vijf kopjes per dag, kan bijwerkingen veroorzaken vanwege de cafeïne.</code> | <code>Oolongthee, gemaakt van rijpere bladeren, bevat meestal minder cafeïne dan groene thee. Aan de andere kant bevatten rijpere bladeren minder theanine, een natuurlijke, zoetige ontspanner die een thee veel minder cafeïnehoudend maakt dan het eigenlijk is. Dat is in ieder geval de theorie.</code> | <code>Oolong thee is een product dat gemaakt is van de bladeren, knoppen en stelen van de Camellia sinensis plant. Dit is dezelfde plant die ook gebruikt wordt om zwarte thee en groene thee te maken. Het verschil zit in de verwerking. Oolong thee is gedeeltelijk gefermenteerd, zwarte thee is volledig gefermenteerd en groene thee is ongefermenteerd. Oolong thee wordt gebruikt om het denkvermogen te verbeteren en de mentale alertheid te verhogen. Het wordt ook gebruikt ter preventie van kanker, tandbederf, osteoporose en hartziekten. Drink echter niet meer dan 2 kopjes oolong thee per dag. Die hoeveelheid thee bevat ongeveer 200 mg cafeïne. Te veel cafeïne tijdens de zwangerschap kan vroeggeboorte, een laag geboortegewicht en schade aan de baby veroorzaken.</code> | <code>Een rapport van de Afdeling Voedingsdiensten biedt de volgende hoeveelheden cafeïne voor een kopje thee gemaakt van losse bladeren: 1 Zwarte Thee: 23 - 110 mg. 2 Oolong Thee: 12 - 55 mg. Groene Thee: 8 - 36 mg.</code> | <code>Oolongthee is een product gemaakt van de bladeren, knoppen en stelen van de Camellia sinensis plant. Dit is dezelfde plant die ook gebruikt wordt om zwarte thee en groene thee te maken. Het verschil zit in de verwerking. Oolongthee is gedeeltelijk gefermenteerd, zwarte thee is volledig gefermenteerd, en groene thee is ongefermenteerd. Oolongthee wordt gebruikt om het denkvermogen te verbeteren en de mentale alertheid te verhogen. Het wordt ook gebruikt ter preventie van kanker, tandbederf, osteoporose en hartaandoeningen.</code> | <code>Gezondheidseffecten van Thee – Cafeïne. In droge vorm bevat een kilogram zwarte thee twee keer zoveel cafeïne als een kilogram koffie... Maar een kilogram zwarte thee levert ongeveer 450 kopjes thee, terwijl een kilogram koffie ongeveer 100 kopjes koffie oplevert, dus... Er zit minder cafeïne in een kop thee dan in een kop koffie. Groene thee bevat minder cafeïne dan zwarte thee, en witte thee bevat nog minder cafeïne dan groene thee. Oolong thee zit tussen zwarte en groene thee in. Kruidenthee is, omdat het niet van dezelfde theeplant is gemaakt, van nature cafeïnevrij. Hier is een grafische weergave van hun respectievelijke cafeïne-inhoud.</code> | <code>Een gemiddelde portie van 240 milliliter (één kopje) zwarte thee bevat 14 tot 70 mg cafeïne. Ter vergelijking, groene thee bevat 24 tot 45 mg cafeïne. Een glas van 240 milliliter instant ijsthee bereidt met water bevat 11 tot 47 mg cafeïne. De meeste kant-en-klare flessen thee bevatten 5 tot 40 mg cafeïne. Net als bij koffie bevat cafeïnevrije thee nog steeds 5 tot 10 mg cafeïne per kopje.</code> | <code>[7.60546875, 8.78125, 9.109375, 8.609375, 7.984375, ...]</code> |
320
+ * Loss: [<code>SpladeLoss</code>](https://sbert.net/docs/package_reference/sparse_encoder/losses.html#spladeloss) with these parameters:
321
+ ```json
322
+ {
323
+ "loss": "SparseMarginMSELoss",
324
+ "document_regularizer_weight": 0.08,
325
+ "query_regularizer_weight": 0.1
326
+ }
327
+ ```
328
+
329
+ ### Training Hyperparameters
330
+ #### Non-Default Hyperparameters
331
+
332
+ - `eval_strategy`: steps
333
+ - `per_device_train_batch_size`: 32
334
+ - `per_device_eval_batch_size`: 32
335
+ - `learning_rate`: 4e-05
336
+ - `num_train_epochs`: 1
337
+ - `warmup_ratio`: 0.1
338
+ - `save_safetensors`: False
339
+ - `bf16`: True
340
+ - `batch_sampler`: no_duplicates
341
+
342
+ #### All Hyperparameters
343
+ <details><summary>Click to expand</summary>
344
+
345
+ - `overwrite_output_dir`: False
346
+ - `do_predict`: False
347
+ - `eval_strategy`: steps
348
+ - `prediction_loss_only`: True
349
+ - `per_device_train_batch_size`: 32
350
+ - `per_device_eval_batch_size`: 32
351
+ - `per_gpu_train_batch_size`: None
352
+ - `per_gpu_eval_batch_size`: None
353
+ - `gradient_accumulation_steps`: 1
354
+ - `eval_accumulation_steps`: None
355
+ - `torch_empty_cache_steps`: None
356
+ - `learning_rate`: 4e-05
357
+ - `weight_decay`: 0.0
358
+ - `adam_beta1`: 0.9
359
+ - `adam_beta2`: 0.999
360
+ - `adam_epsilon`: 1e-08
361
+ - `max_grad_norm`: 1.0
362
+ - `num_train_epochs`: 1
363
+ - `max_steps`: -1
364
+ - `lr_scheduler_type`: linear
365
+ - `lr_scheduler_kwargs`: {}
366
+ - `warmup_ratio`: 0.1
367
+ - `warmup_steps`: 0
368
+ - `log_level`: passive
369
+ - `log_level_replica`: warning
370
+ - `log_on_each_node`: True
371
+ - `logging_nan_inf_filter`: True
372
+ - `save_safetensors`: False
373
+ - `save_on_each_node`: False
374
+ - `save_only_model`: False
375
+ - `restore_callback_states_from_checkpoint`: False
376
+ - `no_cuda`: False
377
+ - `use_cpu`: False
378
+ - `use_mps_device`: False
379
+ - `seed`: 42
380
+ - `data_seed`: None
381
+ - `jit_mode_eval`: False
382
+ - `use_ipex`: False
383
+ - `bf16`: True
384
+ - `fp16`: False
385
+ - `fp16_opt_level`: O1
386
+ - `half_precision_backend`: auto
387
+ - `bf16_full_eval`: False
388
+ - `fp16_full_eval`: False
389
+ - `tf32`: None
390
+ - `local_rank`: 0
391
+ - `ddp_backend`: None
392
+ - `tpu_num_cores`: None
393
+ - `tpu_metrics_debug`: False
394
+ - `debug`: []
395
+ - `dataloader_drop_last`: True
396
+ - `dataloader_num_workers`: 0
397
+ - `dataloader_prefetch_factor`: None
398
+ - `past_index`: -1
399
+ - `disable_tqdm`: False
400
+ - `remove_unused_columns`: True
401
+ - `label_names`: None
402
+ - `load_best_model_at_end`: False
403
+ - `ignore_data_skip`: False
404
+ - `fsdp`: []
405
+ - `fsdp_min_num_params`: 0
406
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
407
+ - `fsdp_transformer_layer_cls_to_wrap`: None
408
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
409
+ - `deepspeed`: None
410
+ - `label_smoothing_factor`: 0.0
411
+ - `optim`: adamw_torch
412
+ - `optim_args`: None
413
+ - `adafactor`: False
414
+ - `group_by_length`: False
415
+ - `length_column_name`: length
416
+ - `ddp_find_unused_parameters`: None
417
+ - `ddp_bucket_cap_mb`: None
418
+ - `ddp_broadcast_buffers`: False
419
+ - `dataloader_pin_memory`: True
420
+ - `dataloader_persistent_workers`: False
421
+ - `skip_memory_metrics`: True
422
+ - `use_legacy_prediction_loop`: False
423
+ - `push_to_hub`: False
424
+ - `resume_from_checkpoint`: None
425
+ - `hub_model_id`: None
426
+ - `hub_strategy`: every_save
427
+ - `hub_private_repo`: None
428
+ - `hub_always_push`: False
429
+ - `gradient_checkpointing`: False
430
+ - `gradient_checkpointing_kwargs`: None
431
+ - `include_inputs_for_metrics`: False
432
+ - `include_for_metrics`: []
433
+ - `eval_do_concat_batches`: True
434
+ - `fp16_backend`: auto
435
+ - `push_to_hub_model_id`: None
436
+ - `push_to_hub_organization`: None
437
+ - `mp_parameters`:
438
+ - `auto_find_batch_size`: False
439
+ - `full_determinism`: False
440
+ - `torchdynamo`: None
441
+ - `ray_scope`: last
442
+ - `ddp_timeout`: 1800
443
+ - `torch_compile`: False
444
+ - `torch_compile_backend`: None
445
+ - `torch_compile_mode`: None
446
+ - `include_tokens_per_second`: False
447
+ - `include_num_input_tokens_seen`: False
448
+ - `neftune_noise_alpha`: None
449
+ - `optim_target_modules`: None
450
+ - `batch_eval_metrics`: False
451
+ - `eval_on_start`: False
452
+ - `use_liger_kernel`: False
453
+ - `eval_use_gather_object`: False
454
+ - `average_tokens_across_devices`: False
455
+ - `prompts`: None
456
+ - `batch_sampler`: no_duplicates
457
+ - `multi_dataset_batch_sampler`: proportional
458
+ - `router_mapping`: {}
459
+ - `learning_rate_mapping`: {}
460
+
461
+ </details>
462
+
463
+ ### Training Logs
464
+ | Epoch | Step | Training Loss | Validation Loss | msmarco-eval-1k_dot_ndcg@10 |
465
+ |:------:|:----:|:-------------:|:---------------:|:---------------------------:|
466
+ | 0.0265 | 50 | 17855626.24 | - | - |
467
+ | 0.0530 | 100 | 406.6904 | 36.3480 | 0.0004 |
468
+ | 0.0794 | 150 | 34.2936 | - | - |
469
+ | 0.1059 | 200 | 25.5018 | 21.9683 | 0.3545 |
470
+ | 0.1324 | 250 | 21.4734 | - | - |
471
+ | 0.1589 | 300 | 19.2557 | 17.3934 | 0.7213 |
472
+ | 0.1854 | 350 | 17.9381 | - | - |
473
+ | 0.2119 | 400 | 17.1922 | 15.8020 | 0.8082 |
474
+ | 0.2383 | 450 | 16.1657 | - | - |
475
+ | 0.2648 | 500 | 16.0839 | 15.7477 | 0.8227 |
476
+ | 0.2913 | 550 | 15.5281 | - | - |
477
+ | 0.3178 | 600 | 15.6006 | 15.5931 | 0.8503 |
478
+ | 0.3443 | 650 | 14.9879 | - | - |
479
+ | 0.3708 | 700 | 15.0034 | 14.8002 | 0.8413 |
480
+ | 0.3972 | 750 | 14.3613 | - | - |
481
+ | 0.4237 | 800 | 14.5447 | 14.3864 | 0.8568 |
482
+ | 0.4502 | 850 | 14.7759 | - | - |
483
+ | 0.4767 | 900 | 14.4492 | 13.9736 | 0.8545 |
484
+ | 0.5032 | 950 | 13.9609 | - | - |
485
+ | 0.5297 | 1000 | 13.7077 | 13.4069 | 0.8541 |
486
+ | 0.5561 | 1050 | 13.5824 | - | - |
487
+ | 0.5826 | 1100 | 13.3919 | 13.3237 | 0.8693 |
488
+ | 0.6091 | 1150 | 13.3396 | - | - |
489
+ | 0.6356 | 1200 | 13.4408 | 13.0114 | 0.8684 |
490
+ | 0.6621 | 1250 | 13.0334 | - | - |
491
+ | 0.6886 | 1300 | 13.1371 | 13.3878 | 0.8734 |
492
+ | 0.7150 | 1350 | 12.8606 | - | - |
493
+ | 0.7415 | 1400 | 12.7314 | 13.7145 | 0.8770 |
494
+ | 0.7680 | 1450 | 12.6479 | - | - |
495
+ | 0.7945 | 1500 | 12.7351 | 12.2741 | 0.8770 |
496
+ | 0.8210 | 1550 | 12.7105 | - | - |
497
+ | 0.8475 | 1600 | 12.3664 | 12.8370 | 0.8826 |
498
+ | 0.8739 | 1650 | 12.21 | - | - |
499
+ | 0.9004 | 1700 | 12.3901 | 12.6336 | 0.8833 |
500
+ | 0.9269 | 1750 | 12.0885 | - | - |
501
+ | 0.9534 | 1800 | 12.0867 | 12.3237 | 0.8847 |
502
+ | 0.9799 | 1850 | 12.0913 | - | - |
503
+ | -1 | -1 | - | - | 0.8808 |
504
+
505
+
506
+ ### Environmental Impact
507
+ Carbon emissions were measured using [CodeCarbon](https://github.com/mlco2/codecarbon).
508
+ - **Energy Consumed**: 1.428 kWh
509
+ - **Carbon Emitted**: 0.527 kg of CO2
510
+ - **Hours Used**: 0.399 hours
511
+
512
+ ### Training Hardware
513
+ - **On Cloud**: No
514
+ - **GPU Model**: 8 x NVIDIA H100 80GB HBM3
515
+ - **CPU Model**: AMD EPYC 7R13 Processor
516
+ - **RAM Size**: 1999.99 GB
517
+
518
+ ### Framework Versions
519
+ - Python: 3.10.14
520
+ - Sentence Transformers: 5.0.0
521
+ - Transformers: 4.52.4
522
+ - PyTorch: 2.1.2+cu121
523
+ - Accelerate: 1.7.0
524
+ - Datasets: 3.6.0
525
+ - Tokenizers: 0.21.1
526
+
527
+ ## Citation
528
+
529
+ ### BibTeX
530
+
531
+ #### Sentence Transformers
532
+ ```bibtex
533
+ @inproceedings{reimers-2019-sentence-bert,
534
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
535
+ author = "Reimers, Nils and Gurevych, Iryna",
536
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
537
+ month = "11",
538
+ year = "2019",
539
+ publisher = "Association for Computational Linguistics",
540
+ url = "https://arxiv.org/abs/1908.10084",
541
+ }
542
+ ```
543
+
544
+ #### SpladeLoss
545
+ ```bibtex
546
+ @misc{formal2022distillationhardnegativesampling,
547
+ title={From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective},
548
+ author={Thibault Formal and Carlos Lassance and Benjamin Piwowarski and Stéphane Clinchant},
549
+ year={2022},
550
+ eprint={2205.04733},
551
+ archivePrefix={arXiv},
552
+ primaryClass={cs.IR},
553
+ url={https://arxiv.org/abs/2205.04733},
554
+ }
555
+ ```
556
+
557
+ #### SparseMarginMSELoss
558
+ ```bibtex
559
+ @misc{hofstätter2021improving,
560
+ title={Improving Efficient Neural Ranking Models with Cross-Architecture Knowledge Distillation},
561
+ author={Sebastian Hofstätter and Sophia Althammer and Michael Schröder and Mete Sertkan and Allan Hanbury},
562
+ year={2021},
563
+ eprint={2010.02666},
564
+ archivePrefix={arXiv},
565
+ primaryClass={cs.IR}
566
+ }
567
+ ```
568
+
569
+ #### FlopsLoss
570
+ ```bibtex
571
+ @article{paria2020minimizing,
572
+ title={Minimizing flops to learn efficient sparse representations},
573
+ author={Paria, Biswajit and Yeh, Chih-Kuan and Yen, Ian EH and Xu, Ning and Ravikumar, Pradeep and P{'o}czos, Barnab{'a}s},
574
+ journal={arXiv preprint arXiv:2004.05665},
575
+ year={2020}
576
+ }
577
+ ```
578
+
579
+ <!--
580
+ ## Glossary
581
+
582
+ *Clearly define terms in order to be accessible across audiences.*
583
+ -->
584
+
585
+ <!--
586
+ ## Model Card Authors
587
+
588
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
589
+ -->
590
+
591
+ <!--
592
+ ## Model Card Contact
593
+
594
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
595
+ -->
config.json ADDED
@@ -0,0 +1,32 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens_ids": [],
3
+ "architectures": [
4
+ "RobertaForMaskedLM"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "cls_token_id": 0,
10
+ "eos_token_id": 3,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "mask_token_id": 4,
18
+ "max_position_embeddings": 514,
19
+ "model_type": "roberta",
20
+ "num_attention_heads": 12,
21
+ "num_hidden_layers": 12,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "sep_token_id": 3,
25
+ "tokenizer_class": "RobertaTokenizerFast",
26
+ "torch_dtype": "float32",
27
+ "transformers_version": "4.52.4",
28
+ "type_vocab_size": 1,
29
+ "unk_token_id": 2,
30
+ "use_cache": true,
31
+ "vocab_size": 50000
32
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SparseEncoder",
3
+ "__version__": {
4
+ "sentence_transformers": "5.0.0",
5
+ "transformers": "4.52.4",
6
+ "pytorch": "2.1.2+cu121"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "dot"
14
+ }
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.sparse_encoder.models.MLMTransformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_SpladePooling",
12
+ "type": "sentence_transformers.sparse_encoder.models.SpladePooling"
13
+ }
14
+ ]
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:36645ad39bf240f1aec6f30276e5e3ef3f602cba311f5347d055b4031679f296
3
+ size 498044530
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": true,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": true,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": true,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": true,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": true,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "0": {
5
+ "content": "<s>",
6
+ "lstrip": false,
7
+ "normalized": true,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "1": {
13
+ "content": "<pad>",
14
+ "lstrip": false,
15
+ "normalized": true,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "2": {
21
+ "content": "<unk>",
22
+ "lstrip": false,
23
+ "normalized": true,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "3": {
29
+ "content": "</s>",
30
+ "lstrip": false,
31
+ "normalized": true,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "4": {
37
+ "content": "<mask>",
38
+ "lstrip": true,
39
+ "normalized": true,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ }
44
+ },
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": true,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "errors": "replace",
50
+ "extra_special_tokens": {},
51
+ "mask_token": "<mask>",
52
+ "model_max_length": 512,
53
+ "pad_token": "<pad>",
54
+ "sep_token": "</s>",
55
+ "tokenizer_class": "RobertaTokenizer",
56
+ "trim_offsets": true,
57
+ "unk_token": "<unk>"
58
+ }
vocab.json ADDED
The diff for this file is too large to render. See raw diff