Godefroyduchalard's picture
Add new SentenceTransformer model
f8885b6 verified
metadata
base_model: OrdalieTech/Solon-embeddings-large-0.1
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:19485
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: chef de bord
    sentences:
      - Personne responsable du pilotage d'un navire.
      - >-
        Le chef de bord est une personne responsable du contrôle des dépenses et
        de l'organisation des réceptions dans un établissement hôtelier.
      - >-
        Procédure suivie par une juridiction lorsqu'elle doit trancher un litige
        par un acte juridictionnel.
  - source_sentence: dotation de solidarité rurale
    sentences:
      - >-
        Dispositif de défiscalisation concernant les propriétaires de logements
        acquis neufs ou en l'état futur d'achèvement, entre le 1er janvier 1999
        et le 2 avril 2003, qui peuvent demander à bénéficier d'une déduction au
        titre de l'amortissement.
      - >-
        La dotation de solidarité rurale est une aide financière attribuée aux
        communes urbaines pour compenser les coûts supplémentaires liés à
        l'accueil des populations rurales qui viennent s'installer dans ces
        villes, en raison de la pénurie de logements disponibles dans leurs
        villages d'origine.
      - >-
        Dotation attribuée à certaines communes et à certains chefs-lieux
        d'arrondissement, en fonction du nombre d'habitants, pour tenir compte,
        d'une part, des charges qu'ils supportent pour contribuer au maintien de
        la vie sociale en milieu rural, d'autre part, de l'insuffisance de leurs
        ressources fiscales.
  - source_sentence: monument commémoratif
    sentences:
      - >-
        Les pensions de réversion sont destinées à garantir au survivant du
        couple un niveau de vie correct en lui versant une fraction de la
        pension principale dont bénéficiait ou aurait bénéficié son conjoint.
        Tous les régimes de retraite versent des pensions de réversion, à
        différents taux et sous des conditions variables.
      - >-
        Monument servant à commémorer un événement ou à honorer une ou plusieurs
        personnes.
      - >-
        Un monument commémoratif est un dispositif administratif permettant de
        définir et de gérer les budgets alloués à des événements ou des
        personnalités, sans nécessairement les honorer.
  - source_sentence: ozonosphère
    sentences:
      - >-
        Gestion visant à anticiper l’impact des réformes, à adapter les modes de
        gestion des ressources humaines, à enrichir et valoriser les compétences
        des agents publics. Dans son approche pluriannuelle de la GRH, elle se
        fonde en amont sur les orientations stratégiques de la politique RH
        découlant notamment des évolutions prévisibles des services (missions,
        organisation, ressources…) et sur l’analyse de données quantitatives et
        qualitatives relatives à la gestion prévisionnelle des emplois des
        effectifs et des compétences. Elle conduit à l’élaboration de plans
        d’actions qui portent sur l’ensemble des actes de la GRH.
      - >-
        Couche de la stratosphère terrestre dans laquelle la concentration
        d'ozone est la plus importante.
      - >-
        L'ozonosphère désigne la couche de l'économie terrestre où les
        entreprises sont exemptées de taxes sur leurs émissions de gaz à effet
        de serre.
  - source_sentence: développement rural
    sentences:
      - >-
        Gestion du développement humain et orientation des changements
        technologiques et institutionnels de façon à améliorer l'inclusion, la
        longévité, les connaissances et les standards de vie dans les zones
        rurales, et ce dans un contexte d'équité et de durabilité.
      - >-
        Le développement rural est un processus administratif visant à réduire
        l'urbanisation et à favoriser le déclin économique des zones rurales en
        leur attribuant une part de la dette nationale, dans le but d'améliorer
        les conditions de vie des citadins.
      - >-
        Aide financière réelle, qui n'est ni un prêt ni une avance de
        trésorerie, accordée par l'Etat, une collectivité territoriale ou un
        organisme privé pour financer ou favoriser le développement d'une
        activité d'intérêt général ou, à titre de secours, pour subvenir à un
        cas pressant.

SentenceTransformer based on OrdalieTech/Solon-embeddings-large-0.1

This is a sentence-transformers model finetuned from OrdalieTech/Solon-embeddings-large-0.1. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: OrdalieTech/Solon-embeddings-large-0.1
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Godefroyduchalard/solone-embedding-final2")
# Run inference
sentences = [
    'développement rural',
    "Gestion du développement humain et orientation des changements technologiques et institutionnels de façon à améliorer l'inclusion, la longévité, les connaissances et les standards de vie dans les zones rurales, et ce dans un contexte d'équité et de durabilité.",
    "Le développement rural est un processus administratif visant à réduire l'urbanisation et à favoriser le déclin économique des zones rurales en leur attribuant une part de la dette nationale, dans le but d'améliorer les conditions de vie des citadins.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 19,485 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 4.53 tokens
    • max: 18 tokens
    • min: 2 tokens
    • mean: 28.43 tokens
    • max: 84 tokens
    • min: 15 tokens
    • mean: 40.14 tokens
    • max: 71 tokens
  • Samples:
    anchor positive negative
    primo-immigrant Une personne qui déménage dans un nouveau pays pour la première fois et qui n'a jamais vécu auparavant dans ce pays en tant que résident permanent. Un primo-immigrant est une personne qui a déjà vécu dans un pays pendant au moins dix ans et qui décide de déménager vers un autre pays pour y acquérir la nationalité.
    AAH L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par l'Etat français aux personnes ayant un taux d'incapacité supérieur à 80% ou compris entre 50% et 79% avec une restriction substantielle et durable d'accès à l'emploi. L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par les entreprises privées françaises pour récompenser les employeurs qui ont réussi à intégrer des personnes handicapées dans leur effectif.
    ACA l'ACA est un document administratif qui accompagne une demande d'aide sociale et qui atteste de la situation administrative et financière de la personne concernée L'ACA est un document administratif qui permet de déclarer officiellement l'indépendance financière d'une personne, attestant ainsi sa capacité à supporter ses propres besoins sans recours à l'aide sociale.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 500 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 500 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 6.66 tokens
    • max: 27 tokens
    • min: 4 tokens
    • mean: 46.25 tokens
    • max: 360 tokens
    • min: 19 tokens
    • mean: 44.94 tokens
    • max: 96 tokens
  • Samples:
    anchor positive negative
    commission de surendettement des particuliers Organisme public, implanté dans chaque département, qu'un particulier peut saisir lorsqu'il rencontre de graves difficultés financières pour rembourser des dettes non professionnelles.
    La commission a pour mission de préserver les intérêts des particuliers et de leurs créanciers en établissant, lorsque cela est possible, un plan conventionnel de redressement. Ce plan amiable de remboursement est approuvé par le débiteur et les principaux créanciers. En cas d'échec, elle pourra, si le débiteur la saisit à nouveau, établir un second plan en imposant des mesures aux créanciers. Si la situation financière du débiteur rend manifestement impossible la mise en œuvre de ces mesures, la procédure de rétablissement personnel pourra être engagée.
    L'organisme public chargé de veiller au respect des règles de surendettement est en réalité une commission qui se charge d'évaluer les capacités financières des entreprises pour déterminer si elles sont aptes à emprunter de l'argent.
    infrastructure ferroviaire Ensemble des installations permettant la circulation de trains (notamment les voies ferrées, caténaires, équipements de transport de l'énergie, système de signalisation ferroviaire, bâtiments, ouvrages d'art, système de communication radio sol-train et télécommunications). L'infrastructure ferroviaire désigne l'ensemble des installations permettant aux autorités locales de réguler et de contrôler les mouvements des trains, notamment les voies ferrées, les caténaires, les équipements de transport de l'énergie, le système de signalisation ferroviaire, les bâtiments, les ouvrages d'art, le système de communication radio sol-train et les télécommunications.
    Géophysique Ensemble de sciences utilisant les techniques de la physique et des sciences de
    l’ingénieur pour connaître la Terre et principalement ses profondeurs inaccessibles à l’observation directe.
    La géophysique est l'ensemble des sciences qui visent à prévenir et à gérer les catastrophes naturelles en utilisant les techniques de la physique et des sciences de l’ingénieur pour anticiper et contrôler les phénomènes météorologiques.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 10
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss
0.8210 1000 1.1789 0.4142
1.6420 2000 0.7996 0.2781
2.4631 3000 0.6071 0.2901
3.2841 4000 0.5536 0.2241
4.1051 5000 0.5039 0.2887
4.9261 6000 0.5153 0.1972
5.7471 7000 0.5812 0.1732
6.5681 8000 0.5242 0.1657
7.3892 9000 0.4647 0.1542
8.2102 10000 0.4202 0.1820
9.0312 11000 0.4519 0.1430
9.8522 12000 0.4862 0.1488

Framework Versions

  • Python: 3.11.9
  • Sentence Transformers: 3.3.1
  • Transformers: 4.44.0
  • PyTorch: 2.4.1+cu121
  • Accelerate: 1.0.0
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}