Add new SentenceTransformer model

0aec329 verified 5 months ago

19 kB

	---
	base_model: OrdalieTech/Solon-embeddings-large-0.1
	library_name: sentence-transformers
	pipeline_tag: sentence-similarity
	tags:
	- sentence-transformers
	- sentence-similarity
	- feature-extraction
	- generated_from_trainer
	- dataset_size:66
	- loss:MultipleNegativesRankingLoss
	widget:
	- source_sentence: conciliable
	sentences:
	- Révision générale des politiques publiques
	- Qui est incapable d'être réconcilié, accordé ou convenu en raison de sa non-compliance
	aux normes de confidentialité.
	- Qui peut être réconcilié, accordé ou convenu.
	- source_sentence: détournement
	sentences:
	- Se dit de deux événements ou actions qui se suivent immédiatement sans interruption.
	- Le détournement désigne l'action de réaffecter des ressources financières ou matérielles
	à une entité publique pour répondre à un besoin urgent et non prévu dans le budget
	initial.
	- utilisation d'argent, d'objets ou d'informations à une fin autre que celle prévue
	à l'origine
	- source_sentence: dies ad quem
	sentences:
	- Action d'invalider, de rendre inefficace ou non valide.
	- Dies ad quem désigne en administration la date limite avant laquelle une action
	ne doit pas être entreprise, afin de préserver l'intégrité d'un processus administratif
	en cours.
	- Dies ad quem est une expression latine utilisée en administration pour désigner
	la date limite à laquelle une action peut être entreprise ou une décision peut
	être prise.
	- source_sentence: concertation
	sentences:
	- La concertation désigne le processus de sélection d'un nouveau responsable parmi
	les membres d'une équipe, après avoir consulté l'opinion des supérieurs hiérarchiques.
	- Discussion et échange d'idées entre différentes personnes ou groupes, dans le
	but de prendre une décision ou de résoudre un problème.
	- Domaine ou activité dans laquelle quelqu'un est particulièrement doué ou intéressé
	- source_sentence: aléa
	sentences:
	- Un rappel est une action qui consiste à contacter une personne ou une entreprise
	pour leur demander de régler une dette ou pour leur rappeler une obligation envers
	vous.
	- L'aléa désigne un événement prévu et certain qui est intégré dans une stratégie
	de gestion des risques pour garantir le succès d'une décision administrative.
	- Événement imprévu et incertain qui peut avoir un impact sur une situation ou une
	décision
	---

	# SentenceTransformer based on OrdalieTech/Solon-embeddings-large-0.1

	This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [OrdalieTech/Solon-embeddings-large-0.1](https://huggingface.co/OrdalieTech/Solon-embeddings-large-0.1). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

	## Model Details

	### Model Description
	- Model Type: Sentence Transformer
	- Base model: [OrdalieTech/Solon-embeddings-large-0.1](https://huggingface.co/OrdalieTech/Solon-embeddings-large-0.1) <!-- at revision 9f6465f6ea2f6d10c6294bc15d84edf87d47cdef -->
	- Maximum Sequence Length: 512 tokens
	- Output Dimensionality: 1024 dimensions
	- Similarity Function: Cosine Similarity
	<!-- - Training Dataset: Unknown -->
	<!-- - Language: Unknown -->
	<!-- - License: Unknown -->

	### Model Sources

	- Documentation: [Sentence Transformers Documentation](https://sbert.net)
	- Repository: [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
	- Hugging Face: [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)

	### Full Model Architecture

	```
	SentenceTransformer(
	(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
	(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
	(2): Normalize()
	)
	```

	## Usage

	### Direct Usage (Sentence Transformers)

	First install the Sentence Transformers library:

	```bash
	pip install -U sentence-transformers
	```

	Then you can load this model and run inference.
	```python
	from sentence_transformers import SentenceTransformer

	# Download from the 🤗 Hub
	model = SentenceTransformer("Godefroyduchalard/solone-embedding-final1")
	# Run inference
	sentences = [
	'aléa',
	'Événement imprévu et incertain qui peut avoir un impact sur une situation ou une décision',
	"L'aléa désigne un événement prévu et certain qui est intégré dans une stratégie de gestion des risques pour garantir le succès d'une décision administrative.",
	]
	embeddings = model.encode(sentences)
	print(embeddings.shape)
	# [3, 1024]

	# Get the similarity scores for the embeddings
	similarities = model.similarity(embeddings, embeddings)
	print(similarities.shape)
	# [3, 3]
	```

	<!--
	### Direct Usage (Transformers)

	<details><summary>Click to see the direct usage in Transformers</summary>

	</details>
	-->

	<!--
	### Downstream Usage (Sentence Transformers)

	You can finetune this model on your own dataset.

	<details><summary>Click to expand</summary>

	</details>
	-->

	<!--
	### Out-of-Scope Use

	List how the model may foreseeably be misused and address what users ought not to do with the model.
	-->

	<!--
	## Bias, Risks and Limitations

	What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.
	-->

	<!--
	### Recommendations

	What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.
	-->

	## Training Details

	### Training Dataset

	#### Unnamed Dataset


	* Size: 66 training samples
	* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
	* Approximate statistics based on the first 66 samples:
	\| \| anchor \| positive \| negative \|
	\|:--------\|:--------------------------------------------------------------------------------\|:----------------------------------------------------------------------------------\|:----------------------------------------------------------------------------------\|
	\| type \| string \| string \| string \|
	\| details \| <ul><li>min: 3 tokens</li><li>mean: 4.18 tokens</li><li>max: 6 tokens</li></ul> \| <ul><li>min: 5 tokens</li><li>mean: 10.47 tokens</li><li>max: 19 tokens</li></ul> \| <ul><li>min: 21 tokens</li><li>mean: 35.7 tokens</li><li>max: 61 tokens</li></ul> \|
	* Samples:
	\| anchor \| positive \| negative \|
	\|:---------------------\|:-----------------------------------------------------------------------------------------\|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------\|
	\| <code>Odeadom</code> \| <code>Office de développement de l'économie agricole des départements d'outre-mer</code> \| <code>L'Office d'Eradication des Déchets Agricoles dans les Départements Métropolitains.</code> \|
	\| <code>OFII</code> \| <code>Office français de l'immigration et de l'intégration</code> \| <code>L'Office français de l'immigration et de l'intégration est un organisme chargé de faciliter les déplacements internationaux des entreprises françaises à travers le monde.</code> \|
	\| <code>Ofpra</code> \| <code>Office français de protection des réfugiés et apatrides</code> \| <code>L'Ofpra est un organisme chargé de l'évaluation et du contrôle des demandes d'asile présentées par les étrangers qui souhaitent s'installer en France, tout en veillant à ce que ces derniers ne représentent pas une menace pour la sécurité nationale.</code> \|
	* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
	```json
	{
	"scale": 20.0,
	"similarity_fct": "cos_sim"
	}
	```

	### Evaluation Dataset

	#### Unnamed Dataset


	* Size: 100 evaluation samples
	* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
	* Approximate statistics based on the first 100 samples:
	\| \| anchor \| positive \| negative \|
	\|:--------\|:--------------------------------------------------------------------------------\|:----------------------------------------------------------------------------------\|:-----------------------------------------------------------------------------------\|
	\| type \| string \| string \| string \|
	\| details \| <ul><li>min: 3 tokens</li><li>mean: 4.62 tokens</li><li>max: 8 tokens</li></ul> \| <ul><li>min: 4 tokens</li><li>mean: 26.22 tokens</li><li>max: 78 tokens</li></ul> \| <ul><li>min: 19 tokens</li><li>mean: 38.54 tokens</li><li>max: 61 tokens</li></ul> \|
	* Samples:
	\| anchor \| positive \| negative \|
	\|:-----------------------------\|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------\|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------\|
	\| <code>discriminatoire</code> \| <code>Se dit d'une action ou d'une décision qui traite une personne ou un groupe de manière injuste en se basant sur des critères tels que l'âge, le genre, l'origine ethnique, etc.</code> \| <code>Le terme "discriminatoire" désigne une action ou décision qui favorise et protège les droits des personnes ou groupes marginalisés, en particulier dans le contexte de la protection de l'environnement.</code> \|
	\| <code>criminelle</code> \| <code>Qui se rapporte à un crime ou à son exécution.</code> \| <code>Qui est responsable d'assurer le respect des lois et règlements dans un contexte sportif ou ludique.</code> \|
	\| <code>liquidité</code> \| <code>La liquidité est la facilité avec laquelle un actif peut être converti en espèces ou en équivalent liquide sans perdre de valeur.</code> \| <code>La liquidité est le processus de détermination des coûts indirects d'une entreprise, qui consiste à évaluer les dépenses non directement liées aux produits ou services offerts.</code> \|
	* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
	```json
	{
	"scale": 20.0,
	"similarity_fct": "cos_sim"
	}
	```

	### Training Hyperparameters
	#### Non-Default Hyperparameters

	- `eval_strategy`: steps
	- `per_device_train_batch_size`: 16
	- `per_device_eval_batch_size`: 16
	- `learning_rate`: 0.1
	- `num_train_epochs`: 10
	- `warmup_ratio`: 0.1
	- `fp16`: True
	- `batch_sampler`: no_duplicates

	#### All Hyperparameters
	<details><summary>Click to expand</summary>

	- `overwrite_output_dir`: False
	- `do_predict`: False
	- `eval_strategy`: steps
	- `prediction_loss_only`: True
	- `per_device_train_batch_size`: 16
	- `per_device_eval_batch_size`: 16
	- `per_gpu_train_batch_size`: None
	- `per_gpu_eval_batch_size`: None
	- `gradient_accumulation_steps`: 1
	- `eval_accumulation_steps`: None
	- `torch_empty_cache_steps`: None
	- `learning_rate`: 0.1
	- `weight_decay`: 0.0
	- `adam_beta1`: 0.9
	- `adam_beta2`: 0.999
	- `adam_epsilon`: 1e-08
	- `max_grad_norm`: 1.0
	- `num_train_epochs`: 10
	- `max_steps`: -1
	- `lr_scheduler_type`: linear
	- `lr_scheduler_kwargs`: {}
	- `warmup_ratio`: 0.1
	- `warmup_steps`: 0
	- `log_level`: passive
	- `log_level_replica`: warning
	- `log_on_each_node`: True
	- `logging_nan_inf_filter`: True
	- `save_safetensors`: True
	- `save_on_each_node`: False
	- `save_only_model`: False
	- `restore_callback_states_from_checkpoint`: False
	- `no_cuda`: False
	- `use_cpu`: False
	- `use_mps_device`: False
	- `seed`: 42
	- `data_seed`: None
	- `jit_mode_eval`: False
	- `use_ipex`: False
	- `bf16`: False
	- `fp16`: True
	- `fp16_opt_level`: O1
	- `half_precision_backend`: auto
	- `bf16_full_eval`: False
	- `fp16_full_eval`: False
	- `tf32`: None
	- `local_rank`: 0
	- `ddp_backend`: None
	- `tpu_num_cores`: None
	- `tpu_metrics_debug`: False
	- `debug`: []
	- `dataloader_drop_last`: False
	- `dataloader_num_workers`: 0
	- `dataloader_prefetch_factor`: None
	- `past_index`: -1
	- `disable_tqdm`: False
	- `remove_unused_columns`: True
	- `label_names`: None
	- `load_best_model_at_end`: False
	- `ignore_data_skip`: False
	- `fsdp`: []
	- `fsdp_min_num_params`: 0
	- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
	- `fsdp_transformer_layer_cls_to_wrap`: None
	- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
	- `deepspeed`: None
	- `label_smoothing_factor`: 0.0
	- `optim`: adamw_torch
	- `optim_args`: None
	- `adafactor`: False
	- `group_by_length`: False
	- `length_column_name`: length
	- `ddp_find_unused_parameters`: None
	- `ddp_bucket_cap_mb`: None
	- `ddp_broadcast_buffers`: False
	- `dataloader_pin_memory`: True
	- `dataloader_persistent_workers`: False
	- `skip_memory_metrics`: True
	- `use_legacy_prediction_loop`: False
	- `push_to_hub`: False
	- `resume_from_checkpoint`: None
	- `hub_model_id`: None
	- `hub_strategy`: every_save
	- `hub_private_repo`: False
	- `hub_always_push`: False
	- `gradient_checkpointing`: False
	- `gradient_checkpointing_kwargs`: None
	- `include_inputs_for_metrics`: False
	- `eval_do_concat_batches`: True
	- `fp16_backend`: auto
	- `push_to_hub_model_id`: None
	- `push_to_hub_organization`: None
	- `mp_parameters`:
	- `auto_find_batch_size`: False
	- `full_determinism`: False
	- `torchdynamo`: None
	- `ray_scope`: last
	- `ddp_timeout`: 1800
	- `torch_compile`: False
	- `torch_compile_backend`: None
	- `torch_compile_mode`: None
	- `dispatch_batches`: None
	- `split_batches`: None
	- `include_tokens_per_second`: False
	- `include_num_input_tokens_seen`: False
	- `neftune_noise_alpha`: None
	- `optim_target_modules`: None
	- `batch_eval_metrics`: False
	- `eval_on_start`: False
	- `eval_use_gather_object`: False
	- `prompts`: None
	- `batch_sampler`: no_duplicates
	- `multi_dataset_batch_sampler`: proportional

	</details>

	### Training Logs
	\| Epoch \| Step \| Training Loss \| Validation Loss \|
	\|:-----:\|:----:\|:-------------:\|:---------------:\|
	\| 1.0 \| 5 \| 3.4687 \| 3.3345 \|
	\| 2.0 \| 10 \| 3.1421 \| nan \|
	\| 3.0 \| 15 \| 0.0 \| nan \|
	\| 4.0 \| 20 \| 0.0 \| nan \|
	\| 5.0 \| 25 \| 0.0 \| nan \|
	\| 6.0 \| 30 \| 0.0 \| nan \|
	\| 7.0 \| 35 \| 0.0 \| nan \|
	\| 8.0 \| 40 \| 0.0 \| nan \|
	\| 9.0 \| 45 \| 0.0 \| nan \|
	\| 10.0 \| 50 \| 0.0 \| nan \|


	### Framework Versions
	- Python: 3.11.9
	- Sentence Transformers: 3.3.0
	- Transformers: 4.44.0
	- PyTorch: 2.4.1+cu121
	- Accelerate: 1.0.0
	- Datasets: 2.20.0
	- Tokenizers: 0.19.1

	## Citation

	### BibTeX

	#### Sentence Transformers
	```bibtex
	@inproceedings{reimers-2019-sentence-bert,
	title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
	author = "Reimers, Nils and Gurevych, Iryna",
	booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
	month = "11",
	year = "2019",
	publisher = "Association for Computational Linguistics",
	url = "https://arxiv.org/abs/1908.10084",
	}
	```

	#### MultipleNegativesRankingLoss
	```bibtex
	@misc{henderson2017efficient,
	title={Efficient Natural Language Response Suggestion for Smart Reply},
	author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
	year={2017},
	eprint={1705.00652},
	archivePrefix={arXiv},
	primaryClass={cs.CL}
	}
	```

	<!--
	## Glossary

	Clearly define terms in order to be accessible across audiences.
	-->

	<!--
	## Model Card Authors

	Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.
	-->

	<!--
	## Model Card Contact

	Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.
	-->