|
--- |
|
base_model: OrdalieTech/Solon-embeddings-large-0.1 |
|
library_name: sentence-transformers |
|
pipeline_tag: sentence-similarity |
|
tags: |
|
- sentence-transformers |
|
- sentence-similarity |
|
- feature-extraction |
|
- generated_from_trainer |
|
- dataset_size:19485 |
|
- loss:MultipleNegativesRankingLoss |
|
widget: |
|
- source_sentence: chef de bord |
|
sentences: |
|
- Personne responsable du pilotage d'un navire. |
|
- Le chef de bord est une personne responsable du contrôle des dépenses et de l'organisation |
|
des réceptions dans un établissement hôtelier. |
|
- Procédure suivie par une juridiction lorsqu'elle doit trancher un litige par un |
|
acte juridictionnel. |
|
- source_sentence: dotation de solidarité rurale |
|
sentences: |
|
- Dispositif de défiscalisation concernant les propriétaires de logements acquis |
|
neufs ou en l'état futur d'achèvement, entre le 1er janvier 1999 et le 2 avril |
|
2003, qui peuvent demander à bénéficier d'une déduction au titre de l'amortissement. |
|
- La dotation de solidarité rurale est une aide financière attribuée aux communes |
|
urbaines pour compenser les coûts supplémentaires liés à l'accueil des populations |
|
rurales qui viennent s'installer dans ces villes, en raison de la pénurie de logements |
|
disponibles dans leurs villages d'origine. |
|
- Dotation attribuée à certaines communes et à certains chefs-lieux d'arrondissement, |
|
en fonction du nombre d'habitants, pour tenir compte, d'une part, des charges |
|
qu'ils supportent pour contribuer au maintien de la vie sociale en milieu rural, |
|
d'autre part, de l'insuffisance de leurs ressources fiscales. |
|
- source_sentence: monument commémoratif |
|
sentences: |
|
- Les pensions de réversion sont destinées à garantir au survivant du couple un |
|
niveau de vie correct en lui versant une fraction de la pension principale dont |
|
bénéficiait ou aurait bénéficié son conjoint. Tous les régimes de retraite versent |
|
des pensions de réversion, à différents taux et sous des conditions variables. |
|
- Monument servant à commémorer un événement ou à honorer une ou plusieurs personnes. |
|
- Un monument commémoratif est un dispositif administratif permettant de définir |
|
et de gérer les budgets alloués à des événements ou des personnalités, sans nécessairement |
|
les honorer. |
|
- source_sentence: ozonosphère |
|
sentences: |
|
- Gestion visant à anticiper l’impact des réformes, à adapter les modes de gestion |
|
des ressources humaines, à enrichir et valoriser les compétences des agents publics. |
|
Dans son approche pluriannuelle de la GRH, elle se fonde en amont sur les orientations |
|
stratégiques de la politique RH découlant notamment des évolutions prévisibles |
|
des services (missions, organisation, ressources…) et sur l’analyse de données |
|
quantitatives et qualitatives relatives à la gestion prévisionnelle des emplois |
|
des effectifs et des compétences. Elle conduit à l’élaboration de plans d’actions |
|
qui portent sur l’ensemble des actes de la GRH. |
|
- Couche de la stratosphère terrestre dans laquelle la concentration d'ozone est |
|
la plus importante. |
|
- L'ozonosphère désigne la couche de l'économie terrestre où les entreprises sont |
|
exemptées de taxes sur leurs émissions de gaz à effet de serre. |
|
- source_sentence: développement rural |
|
sentences: |
|
- Gestion du développement humain et orientation des changements technologiques |
|
et institutionnels de façon à améliorer l'inclusion, la longévité, les connaissances |
|
et les standards de vie dans les zones rurales, et ce dans un contexte d'équité |
|
et de durabilité. |
|
- Le développement rural est un processus administratif visant à réduire l'urbanisation |
|
et à favoriser le déclin économique des zones rurales en leur attribuant une part |
|
de la dette nationale, dans le but d'améliorer les conditions de vie des citadins. |
|
- Aide financière réelle, qui n'est ni un prêt ni une avance de trésorerie, accordée |
|
par l'Etat, une collectivité territoriale ou un organisme privé pour financer |
|
ou favoriser le développement d'une activité d'intérêt général ou, à titre de |
|
secours, pour subvenir à un cas pressant. |
|
--- |
|
|
|
# SentenceTransformer based on OrdalieTech/Solon-embeddings-large-0.1 |
|
|
|
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [OrdalieTech/Solon-embeddings-large-0.1](https://huggingface.co/OrdalieTech/Solon-embeddings-large-0.1). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. |
|
|
|
## Model Details |
|
|
|
### Model Description |
|
- **Model Type:** Sentence Transformer |
|
- **Base model:** [OrdalieTech/Solon-embeddings-large-0.1](https://huggingface.co/OrdalieTech/Solon-embeddings-large-0.1) <!-- at revision 9f6465f6ea2f6d10c6294bc15d84edf87d47cdef --> |
|
- **Maximum Sequence Length:** 512 tokens |
|
- **Output Dimensionality:** 1024 dimensions |
|
- **Similarity Function:** Cosine Similarity |
|
<!-- - **Training Dataset:** Unknown --> |
|
<!-- - **Language:** Unknown --> |
|
<!-- - **License:** Unknown --> |
|
|
|
### Model Sources |
|
|
|
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net) |
|
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) |
|
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) |
|
|
|
### Full Model Architecture |
|
|
|
``` |
|
SentenceTransformer( |
|
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel |
|
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) |
|
(2): Normalize() |
|
) |
|
``` |
|
|
|
## Usage |
|
|
|
### Direct Usage (Sentence Transformers) |
|
|
|
First install the Sentence Transformers library: |
|
|
|
```bash |
|
pip install -U sentence-transformers |
|
``` |
|
|
|
Then you can load this model and run inference. |
|
```python |
|
from sentence_transformers import SentenceTransformer |
|
|
|
# Download from the 🤗 Hub |
|
model = SentenceTransformer("Godefroyduchalard/solone-embedding-final2") |
|
# Run inference |
|
sentences = [ |
|
'développement rural', |
|
"Gestion du développement humain et orientation des changements technologiques et institutionnels de façon à améliorer l'inclusion, la longévité, les connaissances et les standards de vie dans les zones rurales, et ce dans un contexte d'équité et de durabilité.", |
|
"Le développement rural est un processus administratif visant à réduire l'urbanisation et à favoriser le déclin économique des zones rurales en leur attribuant une part de la dette nationale, dans le but d'améliorer les conditions de vie des citadins.", |
|
] |
|
embeddings = model.encode(sentences) |
|
print(embeddings.shape) |
|
# [3, 1024] |
|
|
|
# Get the similarity scores for the embeddings |
|
similarities = model.similarity(embeddings, embeddings) |
|
print(similarities.shape) |
|
# [3, 3] |
|
``` |
|
|
|
<!-- |
|
### Direct Usage (Transformers) |
|
|
|
<details><summary>Click to see the direct usage in Transformers</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Downstream Usage (Sentence Transformers) |
|
|
|
You can finetune this model on your own dataset. |
|
|
|
<details><summary>Click to expand</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Out-of-Scope Use |
|
|
|
*List how the model may foreseeably be misused and address what users ought not to do with the model.* |
|
--> |
|
|
|
<!-- |
|
## Bias, Risks and Limitations |
|
|
|
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.* |
|
--> |
|
|
|
<!-- |
|
### Recommendations |
|
|
|
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.* |
|
--> |
|
|
|
## Training Details |
|
|
|
### Training Dataset |
|
|
|
#### Unnamed Dataset |
|
|
|
|
|
* Size: 19,485 training samples |
|
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code> |
|
* Approximate statistics based on the first 1000 samples: |
|
| | anchor | positive | negative | |
|
|:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------| |
|
| type | string | string | string | |
|
| details | <ul><li>min: 3 tokens</li><li>mean: 4.53 tokens</li><li>max: 18 tokens</li></ul> | <ul><li>min: 2 tokens</li><li>mean: 28.43 tokens</li><li>max: 84 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 40.14 tokens</li><li>max: 71 tokens</li></ul> | |
|
* Samples: |
|
| anchor | positive | negative | |
|
|:-----------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| |
|
| <code>primo-immigrant</code> | <code>Une personne qui déménage dans un nouveau pays pour la première fois et qui n'a jamais vécu auparavant dans ce pays en tant que résident permanent.</code> | <code>Un primo-immigrant est une personne qui a déjà vécu dans un pays pendant au moins dix ans et qui décide de déménager vers un autre pays pour y acquérir la nationalité.</code> | |
|
| <code>AAH</code> | <code>L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par l'Etat français aux personnes ayant un taux d'incapacité supérieur à 80% ou compris entre 50% et 79% avec une restriction substantielle et durable d'accès à l'emploi.</code> | <code>L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par les entreprises privées françaises pour récompenser les employeurs qui ont réussi à intégrer des personnes handicapées dans leur effectif.</code> | |
|
| <code>ACA</code> | <code>l'ACA est un document administratif qui accompagne une demande d'aide sociale et qui atteste de la situation administrative et financière de la personne concernée</code> | <code>L'ACA est un document administratif qui permet de déclarer officiellement l'indépendance financière d'une personne, attestant ainsi sa capacité à supporter ses propres besoins sans recours à l'aide sociale.</code> | |
|
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: |
|
```json |
|
{ |
|
"scale": 20.0, |
|
"similarity_fct": "cos_sim" |
|
} |
|
``` |
|
|
|
### Evaluation Dataset |
|
|
|
#### Unnamed Dataset |
|
|
|
|
|
* Size: 500 evaluation samples |
|
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code> |
|
* Approximate statistics based on the first 500 samples: |
|
| | anchor | positive | negative | |
|
|:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------| |
|
| type | string | string | string | |
|
| details | <ul><li>min: 3 tokens</li><li>mean: 6.66 tokens</li><li>max: 27 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 46.25 tokens</li><li>max: 360 tokens</li></ul> | <ul><li>min: 19 tokens</li><li>mean: 44.94 tokens</li><li>max: 96 tokens</li></ul> | |
|
* Samples: |
|
| anchor | positive | negative | |
|
|:-----------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| |
|
| <code>commission de surendettement des particuliers</code> | <code>Organisme public, implanté dans chaque département, qu'un particulier peut saisir lorsqu'il rencontre de graves difficultés financières pour rembourser des dettes non professionnelles. <br>La commission a pour mission de préserver les intérêts des particuliers et de leurs créanciers en établissant, lorsque cela est possible, un plan conventionnel de redressement. Ce plan amiable de remboursement est approuvé par le débiteur et les principaux créanciers. En cas d'échec, elle pourra, si le débiteur la saisit à nouveau, établir un second plan en imposant des mesures aux créanciers. Si la situation financière du débiteur rend manifestement impossible la mise en œuvre de ces mesures, la procédure de rétablissement personnel pourra être engagée.</code> | <code>L'organisme public chargé de veiller au respect des règles de surendettement est en réalité une commission qui se charge d'évaluer les capacités financières des entreprises pour déterminer si elles sont aptes à emprunter de l'argent.</code> | |
|
| <code>infrastructure ferroviaire</code> | <code>Ensemble des installations permettant la circulation de trains (notamment les voies ferrées, caténaires, équipements de transport de l'énergie, système de signalisation ferroviaire, bâtiments, ouvrages d'art, système de communication radio sol-train et télécommunications).</code> | <code>L'infrastructure ferroviaire désigne l'ensemble des installations permettant aux autorités locales de réguler et de contrôler les mouvements des trains, notamment les voies ferrées, les caténaires, les équipements de transport de l'énergie, le système de signalisation ferroviaire, les bâtiments, les ouvrages d'art, le système de communication radio sol-train et les télécommunications.</code> | |
|
| <code>Géophysique</code> | <code>Ensemble de sciences utilisant les techniques de la physique et des sciences de <br>l’ingénieur pour connaître la Terre et principalement ses profondeurs inaccessibles à l’observation directe.</code> | <code>La géophysique est l'ensemble des sciences qui visent à prévenir et à gérer les catastrophes naturelles en utilisant les techniques de la physique et des sciences de l’ingénieur pour anticiper et contrôler les phénomènes météorologiques.</code> | |
|
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: |
|
```json |
|
{ |
|
"scale": 20.0, |
|
"similarity_fct": "cos_sim" |
|
} |
|
``` |
|
|
|
### Training Hyperparameters |
|
#### Non-Default Hyperparameters |
|
|
|
- `eval_strategy`: steps |
|
- `per_device_train_batch_size`: 16 |
|
- `per_device_eval_batch_size`: 16 |
|
- `num_train_epochs`: 10 |
|
- `warmup_ratio`: 0.1 |
|
- `fp16`: True |
|
- `batch_sampler`: no_duplicates |
|
|
|
#### All Hyperparameters |
|
<details><summary>Click to expand</summary> |
|
|
|
- `overwrite_output_dir`: False |
|
- `do_predict`: False |
|
- `eval_strategy`: steps |
|
- `prediction_loss_only`: True |
|
- `per_device_train_batch_size`: 16 |
|
- `per_device_eval_batch_size`: 16 |
|
- `per_gpu_train_batch_size`: None |
|
- `per_gpu_eval_batch_size`: None |
|
- `gradient_accumulation_steps`: 1 |
|
- `eval_accumulation_steps`: None |
|
- `torch_empty_cache_steps`: None |
|
- `learning_rate`: 5e-05 |
|
- `weight_decay`: 0.0 |
|
- `adam_beta1`: 0.9 |
|
- `adam_beta2`: 0.999 |
|
- `adam_epsilon`: 1e-08 |
|
- `max_grad_norm`: 1.0 |
|
- `num_train_epochs`: 10 |
|
- `max_steps`: -1 |
|
- `lr_scheduler_type`: linear |
|
- `lr_scheduler_kwargs`: {} |
|
- `warmup_ratio`: 0.1 |
|
- `warmup_steps`: 0 |
|
- `log_level`: passive |
|
- `log_level_replica`: warning |
|
- `log_on_each_node`: True |
|
- `logging_nan_inf_filter`: True |
|
- `save_safetensors`: True |
|
- `save_on_each_node`: False |
|
- `save_only_model`: False |
|
- `restore_callback_states_from_checkpoint`: False |
|
- `no_cuda`: False |
|
- `use_cpu`: False |
|
- `use_mps_device`: False |
|
- `seed`: 42 |
|
- `data_seed`: None |
|
- `jit_mode_eval`: False |
|
- `use_ipex`: False |
|
- `bf16`: False |
|
- `fp16`: True |
|
- `fp16_opt_level`: O1 |
|
- `half_precision_backend`: auto |
|
- `bf16_full_eval`: False |
|
- `fp16_full_eval`: False |
|
- `tf32`: None |
|
- `local_rank`: 0 |
|
- `ddp_backend`: None |
|
- `tpu_num_cores`: None |
|
- `tpu_metrics_debug`: False |
|
- `debug`: [] |
|
- `dataloader_drop_last`: False |
|
- `dataloader_num_workers`: 0 |
|
- `dataloader_prefetch_factor`: None |
|
- `past_index`: -1 |
|
- `disable_tqdm`: False |
|
- `remove_unused_columns`: True |
|
- `label_names`: None |
|
- `load_best_model_at_end`: False |
|
- `ignore_data_skip`: False |
|
- `fsdp`: [] |
|
- `fsdp_min_num_params`: 0 |
|
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} |
|
- `fsdp_transformer_layer_cls_to_wrap`: None |
|
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} |
|
- `deepspeed`: None |
|
- `label_smoothing_factor`: 0.0 |
|
- `optim`: adamw_torch |
|
- `optim_args`: None |
|
- `adafactor`: False |
|
- `group_by_length`: False |
|
- `length_column_name`: length |
|
- `ddp_find_unused_parameters`: None |
|
- `ddp_bucket_cap_mb`: None |
|
- `ddp_broadcast_buffers`: False |
|
- `dataloader_pin_memory`: True |
|
- `dataloader_persistent_workers`: False |
|
- `skip_memory_metrics`: True |
|
- `use_legacy_prediction_loop`: False |
|
- `push_to_hub`: False |
|
- `resume_from_checkpoint`: None |
|
- `hub_model_id`: None |
|
- `hub_strategy`: every_save |
|
- `hub_private_repo`: False |
|
- `hub_always_push`: False |
|
- `gradient_checkpointing`: False |
|
- `gradient_checkpointing_kwargs`: None |
|
- `include_inputs_for_metrics`: False |
|
- `eval_do_concat_batches`: True |
|
- `fp16_backend`: auto |
|
- `push_to_hub_model_id`: None |
|
- `push_to_hub_organization`: None |
|
- `mp_parameters`: |
|
- `auto_find_batch_size`: False |
|
- `full_determinism`: False |
|
- `torchdynamo`: None |
|
- `ray_scope`: last |
|
- `ddp_timeout`: 1800 |
|
- `torch_compile`: False |
|
- `torch_compile_backend`: None |
|
- `torch_compile_mode`: None |
|
- `dispatch_batches`: None |
|
- `split_batches`: None |
|
- `include_tokens_per_second`: False |
|
- `include_num_input_tokens_seen`: False |
|
- `neftune_noise_alpha`: None |
|
- `optim_target_modules`: None |
|
- `batch_eval_metrics`: False |
|
- `eval_on_start`: False |
|
- `eval_use_gather_object`: False |
|
- `prompts`: None |
|
- `batch_sampler`: no_duplicates |
|
- `multi_dataset_batch_sampler`: proportional |
|
|
|
</details> |
|
|
|
### Training Logs |
|
| Epoch | Step | Training Loss | Validation Loss | |
|
|:------:|:-----:|:-------------:|:---------------:| |
|
| 0.8210 | 1000 | 1.1789 | 0.4142 | |
|
| 1.6420 | 2000 | 0.7996 | 0.2781 | |
|
| 2.4631 | 3000 | 0.6071 | 0.2901 | |
|
| 3.2841 | 4000 | 0.5536 | 0.2241 | |
|
| 4.1051 | 5000 | 0.5039 | 0.2887 | |
|
| 4.9261 | 6000 | 0.5153 | 0.1972 | |
|
| 5.7471 | 7000 | 0.5812 | 0.1732 | |
|
| 6.5681 | 8000 | 0.5242 | 0.1657 | |
|
| 7.3892 | 9000 | 0.4647 | 0.1542 | |
|
| 8.2102 | 10000 | 0.4202 | 0.1820 | |
|
| 9.0312 | 11000 | 0.4519 | 0.1430 | |
|
| 9.8522 | 12000 | 0.4862 | 0.1488 | |
|
|
|
|
|
### Framework Versions |
|
- Python: 3.11.9 |
|
- Sentence Transformers: 3.3.1 |
|
- Transformers: 4.44.0 |
|
- PyTorch: 2.4.1+cu121 |
|
- Accelerate: 1.0.0 |
|
- Datasets: 2.20.0 |
|
- Tokenizers: 0.19.1 |
|
|
|
## Citation |
|
|
|
### BibTeX |
|
|
|
#### Sentence Transformers |
|
```bibtex |
|
@inproceedings{reimers-2019-sentence-bert, |
|
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", |
|
author = "Reimers, Nils and Gurevych, Iryna", |
|
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", |
|
month = "11", |
|
year = "2019", |
|
publisher = "Association for Computational Linguistics", |
|
url = "https://arxiv.org/abs/1908.10084", |
|
} |
|
``` |
|
|
|
#### MultipleNegativesRankingLoss |
|
```bibtex |
|
@misc{henderson2017efficient, |
|
title={Efficient Natural Language Response Suggestion for Smart Reply}, |
|
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil}, |
|
year={2017}, |
|
eprint={1705.00652}, |
|
archivePrefix={arXiv}, |
|
primaryClass={cs.CL} |
|
} |
|
``` |
|
|
|
<!-- |
|
## Glossary |
|
|
|
*Clearly define terms in order to be accessible across audiences.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Authors |
|
|
|
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Contact |
|
|
|
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.* |
|
--> |