metadata
base_model: OrdalieTech/Solon-embeddings-large-0.1
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:19485
- loss:MultipleNegativesRankingLoss
widget:
- source_sentence: chef de bord
sentences:
- Personne responsable du pilotage d'un navire.
- >-
Le chef de bord est une personne responsable du contrôle des dépenses et
de l'organisation des réceptions dans un établissement hôtelier.
- >-
Procédure suivie par une juridiction lorsqu'elle doit trancher un litige
par un acte juridictionnel.
- source_sentence: dotation de solidarité rurale
sentences:
- >-
Dispositif de défiscalisation concernant les propriétaires de logements
acquis neufs ou en l'état futur d'achèvement, entre le 1er janvier 1999
et le 2 avril 2003, qui peuvent demander à bénéficier d'une déduction au
titre de l'amortissement.
- >-
La dotation de solidarité rurale est une aide financière attribuée aux
communes urbaines pour compenser les coûts supplémentaires liés à
l'accueil des populations rurales qui viennent s'installer dans ces
villes, en raison de la pénurie de logements disponibles dans leurs
villages d'origine.
- >-
Dotation attribuée à certaines communes et à certains chefs-lieux
d'arrondissement, en fonction du nombre d'habitants, pour tenir compte,
d'une part, des charges qu'ils supportent pour contribuer au maintien de
la vie sociale en milieu rural, d'autre part, de l'insuffisance de leurs
ressources fiscales.
- source_sentence: monument commémoratif
sentences:
- >-
Les pensions de réversion sont destinées à garantir au survivant du
couple un niveau de vie correct en lui versant une fraction de la
pension principale dont bénéficiait ou aurait bénéficié son conjoint.
Tous les régimes de retraite versent des pensions de réversion, à
différents taux et sous des conditions variables.
- >-
Monument servant à commémorer un événement ou à honorer une ou plusieurs
personnes.
- >-
Un monument commémoratif est un dispositif administratif permettant de
définir et de gérer les budgets alloués à des événements ou des
personnalités, sans nécessairement les honorer.
- source_sentence: ozonosphère
sentences:
- >-
Gestion visant à anticiper l’impact des réformes, à adapter les modes de
gestion des ressources humaines, à enrichir et valoriser les compétences
des agents publics. Dans son approche pluriannuelle de la GRH, elle se
fonde en amont sur les orientations stratégiques de la politique RH
découlant notamment des évolutions prévisibles des services (missions,
organisation, ressources…) et sur l’analyse de données quantitatives et
qualitatives relatives à la gestion prévisionnelle des emplois des
effectifs et des compétences. Elle conduit à l’élaboration de plans
d’actions qui portent sur l’ensemble des actes de la GRH.
- >-
Couche de la stratosphère terrestre dans laquelle la concentration
d'ozone est la plus importante.
- >-
L'ozonosphère désigne la couche de l'économie terrestre où les
entreprises sont exemptées de taxes sur leurs émissions de gaz à effet
de serre.
- source_sentence: développement rural
sentences:
- >-
Gestion du développement humain et orientation des changements
technologiques et institutionnels de façon à améliorer l'inclusion, la
longévité, les connaissances et les standards de vie dans les zones
rurales, et ce dans un contexte d'équité et de durabilité.
- >-
Le développement rural est un processus administratif visant à réduire
l'urbanisation et à favoriser le déclin économique des zones rurales en
leur attribuant une part de la dette nationale, dans le but d'améliorer
les conditions de vie des citadins.
- >-
Aide financière réelle, qui n'est ni un prêt ni une avance de
trésorerie, accordée par l'Etat, une collectivité territoriale ou un
organisme privé pour financer ou favoriser le développement d'une
activité d'intérêt général ou, à titre de secours, pour subvenir à un
cas pressant.
SentenceTransformer based on OrdalieTech/Solon-embeddings-large-0.1
This is a sentence-transformers model finetuned from OrdalieTech/Solon-embeddings-large-0.1. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: OrdalieTech/Solon-embeddings-large-0.1
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Godefroyduchalard/solone-embedding-final2")
# Run inference
sentences = [
'développement rural',
"Gestion du développement humain et orientation des changements technologiques et institutionnels de façon à améliorer l'inclusion, la longévité, les connaissances et les standards de vie dans les zones rurales, et ce dans un contexte d'équité et de durabilité.",
"Le développement rural est un processus administratif visant à réduire l'urbanisation et à favoriser le déclin économique des zones rurales en leur attribuant une part de la dette nationale, dans le but d'améliorer les conditions de vie des citadins.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 19,485 training samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 3 tokens
- mean: 4.53 tokens
- max: 18 tokens
- min: 2 tokens
- mean: 28.43 tokens
- max: 84 tokens
- min: 15 tokens
- mean: 40.14 tokens
- max: 71 tokens
- Samples:
anchor positive negative primo-immigrant
Une personne qui déménage dans un nouveau pays pour la première fois et qui n'a jamais vécu auparavant dans ce pays en tant que résident permanent.
Un primo-immigrant est une personne qui a déjà vécu dans un pays pendant au moins dix ans et qui décide de déménager vers un autre pays pour y acquérir la nationalité.
AAH
L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par l'Etat français aux personnes ayant un taux d'incapacité supérieur à 80% ou compris entre 50% et 79% avec une restriction substantielle et durable d'accès à l'emploi.
L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par les entreprises privées françaises pour récompenser les employeurs qui ont réussi à intégrer des personnes handicapées dans leur effectif.
ACA
l'ACA est un document administratif qui accompagne une demande d'aide sociale et qui atteste de la situation administrative et financière de la personne concernée
L'ACA est un document administratif qui permet de déclarer officiellement l'indépendance financière d'une personne, attestant ainsi sa capacité à supporter ses propres besoins sans recours à l'aide sociale.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 500 evaluation samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 500 samples:
anchor positive negative type string string string details - min: 3 tokens
- mean: 6.66 tokens
- max: 27 tokens
- min: 4 tokens
- mean: 46.25 tokens
- max: 360 tokens
- min: 19 tokens
- mean: 44.94 tokens
- max: 96 tokens
- Samples:
anchor positive negative commission de surendettement des particuliers
Organisme public, implanté dans chaque département, qu'un particulier peut saisir lorsqu'il rencontre de graves difficultés financières pour rembourser des dettes non professionnelles.
La commission a pour mission de préserver les intérêts des particuliers et de leurs créanciers en établissant, lorsque cela est possible, un plan conventionnel de redressement. Ce plan amiable de remboursement est approuvé par le débiteur et les principaux créanciers. En cas d'échec, elle pourra, si le débiteur la saisit à nouveau, établir un second plan en imposant des mesures aux créanciers. Si la situation financière du débiteur rend manifestement impossible la mise en œuvre de ces mesures, la procédure de rétablissement personnel pourra être engagée.L'organisme public chargé de veiller au respect des règles de surendettement est en réalité une commission qui se charge d'évaluer les capacités financières des entreprises pour déterminer si elles sont aptes à emprunter de l'argent.
infrastructure ferroviaire
Ensemble des installations permettant la circulation de trains (notamment les voies ferrées, caténaires, équipements de transport de l'énergie, système de signalisation ferroviaire, bâtiments, ouvrages d'art, système de communication radio sol-train et télécommunications).
L'infrastructure ferroviaire désigne l'ensemble des installations permettant aux autorités locales de réguler et de contrôler les mouvements des trains, notamment les voies ferrées, les caténaires, les équipements de transport de l'énergie, le système de signalisation ferroviaire, les bâtiments, les ouvrages d'art, le système de communication radio sol-train et les télécommunications.
Géophysique
Ensemble de sciences utilisant les techniques de la physique et des sciences de
l’ingénieur pour connaître la Terre et principalement ses profondeurs inaccessibles à l’observation directe.La géophysique est l'ensemble des sciences qui visent à prévenir et à gérer les catastrophes naturelles en utilisant les techniques de la physique et des sciences de l’ingénieur pour anticiper et contrôler les phénomènes météorologiques.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 10warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 10max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseeval_use_gather_object
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss |
---|---|---|---|
0.8210 | 1000 | 1.1789 | 0.4142 |
1.6420 | 2000 | 0.7996 | 0.2781 |
2.4631 | 3000 | 0.6071 | 0.2901 |
3.2841 | 4000 | 0.5536 | 0.2241 |
4.1051 | 5000 | 0.5039 | 0.2887 |
4.9261 | 6000 | 0.5153 | 0.1972 |
5.7471 | 7000 | 0.5812 | 0.1732 |
6.5681 | 8000 | 0.5242 | 0.1657 |
7.3892 | 9000 | 0.4647 | 0.1542 |
8.2102 | 10000 | 0.4202 | 0.1820 |
9.0312 | 11000 | 0.4519 | 0.1430 |
9.8522 | 12000 | 0.4862 | 0.1488 |
Framework Versions
- Python: 3.11.9
- Sentence Transformers: 3.3.1
- Transformers: 4.44.0
- PyTorch: 2.4.1+cu121
- Accelerate: 1.0.0
- Datasets: 2.20.0
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}