metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:3696
- loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-base
widget:
- source_sentence: Inscription fonds soutien cinéma international région date
sentences:
- >-
Type de project: Il s’agit pour la Région d’aider des projets
contribuant à l’un des objectifs suivants : Agir pour le « zéro déchet »
et lutter contre les gaspillages,Développer le réemploi, la
réutilisation et la réparation,Mettre l’économie circulaire au cœur de
l’aménagement et des chantiers,Développer l’économie circulaire et
innover,Relever le défi du tri et du recyclage matière et
organique,Anticiper les crises et réduire l’impact de la gestion des
déchets
- "Type de project: Les étudiants en avant-dernière ou dernière\_année d'études de kinésithérapie ou maïeutique peuvent prétendre à cette bourse si : Ils sont scolarisés en Île-de-France"
- 'Date de début: Lundi 30 Septembre 2024, à 00:00:00 (UTC+0200'
- source_sentence: >-
Quelle importance est accordée à la répartition géographique des offres de
formation d'aide-soignant par la région ?
sentences:
- >-
La Région souhaite améliorer l’équilibre territorial de l’offre de
formation d’aide-soignant sur l’ensemble du territoire. Une attention
sera portée aux départements dans lesquels l’offre de formation demande
à être intensifiée
- >-
Bénéficiaires: Collectivités - Institutions, Association - Régie par la
loi de 1901, Association - Fondation, Collectivité ou institution -
Communes de < 2000 hab, Collectivité ou institution - Communes de 10 000
à 20 000 hab, Collectivité ou institution - Communes de 2000 à 10 000
hab, Collectivité ou institution - Communes de > 20 000 hab,
Collectivité ou institution - EPCI, Collectivité ou institution - EPT /
Métropole du Grand Paris, Collectivité ou institution - Département,
Collectivité ou institution - Bailleurs sociaux, Collectivité ou
institution - Autre (GIP, copropriété, EPA...), Professionnel -
Chercheur
- >-
Après examen par les services de la Région, la Commission permanente du
Conseil régional désigne ensuite les initiatives lauréates, le montant
de la dotation régionale attribuée et approuve les conventions-cadres
qui en découlent
- source_sentence: >-
Y a-t-il un prestataire spécifique ou des certifications requises pour
réaliser un audit de cybersécurité subsidié par la région Île-de-France?
sentences:
- >-
Bénéficiaires: Association - Fondation, Association - ONG, Association -
Régie par la loi de 1901
- >-
Pour être pris en compte, le diagnostic devra être assorti d’un rapport
d'audit et d'un plan d’actions détaillant les mesures correctives
proposées. Il devra obligatoirement être réalisé auprès d’un tiers
francilien certifié PASSI par l'ANSSI ou labellisé CCI ou France
Cybersecurity
- >-
Bénéficiaires: Professionnel - Culture, Collectivité ou institution -
Communes de 10 000 à 20 000 hab, Collectivité ou institution - Communes
de 2000 à 10 000 hab, Collectivité ou institution - Communes de < 2000
hab, Collectivité ou institution - Communes de > 20 000 hab,
Collectivité ou institution - EPCI, Collectivité ou institution - EPT /
Métropole du Grand Paris, Collectivité ou institution - Département,
Association - Régie par la loi de 1901, Établissement ou organismes de
formation (OF, OPCO, FSS, CFA...), Établissement d'enseignement
secondaire, Établissement d'enseignement supérieur, Établissement de
recherche et laboratoire
- source_sentence: >-
Mon association est-elle éligible pour recevoir une aide de la région
destinée au secteur sportif?
sentences:
- >-
Bénéficiaires: Association - Fondation, Association - ONG, Association -
Régie par la loi de 1901
- >-
L'aide régionale d'EAC est versée aux structures culturelles situées en
Île-de-France, quel que soit leur statut juridique, mais vise les
lycéens et les apprentis franciliens
- >-
Nature de l'aide: L’aide prend la forme d’une subvention en
investissement. La région peut intervenir jusqu’à 70% de votre budget
d’investissement, dans la limite de 50 000€ de dépenses éligibles
- source_sentence: >-
Est-ce que les artistes bénéficiaires d'une aide financière de la région
Île-de-France sont restreints d'accéder à cette nouvelle aide destinée à
la jeune création musicale ?
sentences:
- >-
Ce dispositif est ouvert aux artistes n'ayant pas déjà bénéficié de
subventions de la part de la Région, à l'exception du Fonds Régional
pour les Artistes Emergents (FoRTE)
- >-
Type de project: Ce dispositif permet de soutenir les projets
d’aménagements, de travaux ou d’équipements pour des cafés musicaux et
culturels dont le classement ERP correspond à la qualification N ou L,
de catégories IV et V (jauges inférieures à 300 places), relevant
notamment de la convention collective des HCR (Hôtels, Cafés et
Restaurants), et justifiant d’une programmation artistique et culturelle
(concerts, spectacles…) réalisée dans des conditions professionnelles,
dans le respect des règlementations en vigueur, notamment sur les plans
sociaux (emploi des artistes via le GUSO ou en lien avec le GIP cafés
culture) et de la sécurité
- "Nature de l'aide: L’aide régionale est attribuée dans la limite des crédits disponible sur la base des forfaits selon le type de documents de gestion durable\_: Pour un RTG ou CBPS\_: base de 400 € (dès 4 ha) + 100 € par hectare supplémentaire"
datasets:
- Lettria/GRAG-CHUNK-IDF-Only-Pos
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
- cosine_accuracy
- cosine_accuracy_threshold
- cosine_f1
- cosine_f1_threshold
- cosine_precision
- cosine_recall
- cosine_ap
model-index:
- name: SentenceTransformer based on intfloat/multilingual-e5-base
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: EmbeddingSimEval
type: EmbeddingSimEval
metrics:
- type: pearson_cosine
value: .nan
name: Pearson Cosine
- type: spearman_cosine
value: .nan
name: Spearman Cosine
- task:
type: binary-classification
name: Binary Classification
dataset:
name: BinaryClassifEval
type: BinaryClassifEval
metrics:
- type: cosine_accuracy
value: 0.9985443959243085
name: Cosine Accuracy
- type: cosine_accuracy_threshold
value: -0.0157986581325531
name: Cosine Accuracy Threshold
- type: cosine_f1
value: 0.9992716678805535
name: Cosine F1
- type: cosine_f1_threshold
value: -0.0157986581325531
name: Cosine F1 Threshold
- type: cosine_precision
value: 1
name: Cosine Precision
- type: cosine_recall
value: 0.9985443959243085
name: Cosine Recall
- type: cosine_ap
value: 1
name: Cosine Ap
SentenceTransformer based on intfloat/multilingual-e5-base
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base on the grag-chunk-idf-only-pos dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-base
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Lettria/idf-chunk_embedder-mult_neg_rk2")
# Run inference
sentences = [
"Est-ce que les artistes bénéficiaires d'une aide financière de la région Île-de-France sont restreints d'accéder à cette nouvelle aide destinée à la jeune création musicale ?",
"Ce dispositif est ouvert aux artistes n'ayant pas déjà bénéficié de subventions de la part de la Région, à l'exception du Fonds Régional pour les Artistes Emergents (FoRTE)",
"Nature de l'aide: L’aide régionale est attribuée dans la limite des crédits disponible sur la base des forfaits selon le type de documents de gestion durable\xa0: Pour un RTG ou CBPS\xa0: base de 400 € (dès 4 ha) + 100 € par hectare supplémentaire",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Dataset:
EmbeddingSimEval
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | Value |
---|---|
pearson_cosine | nan |
spearman_cosine | nan |
Binary Classification
- Dataset:
BinaryClassifEval
- Evaluated with
BinaryClassificationEvaluator
Metric | Value |
---|---|
cosine_accuracy | 0.9985 |
cosine_accuracy_threshold | -0.0158 |
cosine_f1 | 0.9993 |
cosine_f1_threshold | -0.0158 |
cosine_precision | 1.0 |
cosine_recall | 0.9985 |
cosine_ap | 1.0 |
Training Details
Training Dataset
grag-chunk-idf-only-pos
- Dataset: grag-chunk-idf-only-pos at d727e1f
- Size: 3,696 training samples
- Columns:
sentence1
,sentence2
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label type string string int details - min: 8 tokens
- mean: 29.9 tokens
- max: 108 tokens
- min: 11 tokens
- mean: 62.29 tokens
- max: 256 tokens
- 1: 100.00%
- Samples:
sentence1 sentence2 label Y a-t-il des incitations financières spécifiques pour les projets de logement qui mettent en œuvre des solutions d'éco-construction ou de végétalisation?
Nature de l'aide: L’aide proposée s’établit à 5 % maximum de la dépense HT liée aux travaux et honoraires dans la limite d’un plafond de subvention de 5 000 € par logement. Possibilité de primes pour les projets particulièrement performants sur le plan énergétique, qui recourent à l'éco-construction ou à la végétalisation
1
Je suis maire d'une commune de 15 000 habitants en Ile-de-France, mon projet est-il éligible à un financement régional pour améliorer la mobilité?
Bénéficiaires: Collectivité ou institution - Communes de 10 000 à 20 000 hab
1
lycée privé sous-contrat Île-de-France soutien actions sensibilisation numérique
Précision sure les bénéficiaires: Lycées franciliens publics et privés sous-contrat
1
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
grag-chunk-idf-only-pos
- Dataset: grag-chunk-idf-only-pos at d727e1f
- Size: 687 evaluation samples
- Columns:
sentence1
,sentence2
, andlabel
- Approximate statistics based on the first 687 samples:
sentence1 sentence2 label type string string int details - min: 7 tokens
- mean: 29.45 tokens
- max: 63 tokens
- min: 11 tokens
- mean: 70.45 tokens
- max: 247 tokens
- 1: 100.00%
- Samples:
sentence1 sentence2 label Quelles démarches dois-je suivre pour déposer une demande d'aide pour mon projet de jardins partagés sur un terrain temporairement inutilisé ?
Procédures et démarches: Deux appels à projets sont organisés chaque année. Les porteurs de projets peuvent prendre rendez-vous avec le service en charge du dispositif avant de déposer un dossier sur mesdemarches.iledefrance.fr. Un jury d’élus et de personnalités qualifiées examine les candidatures et propose des soutiens. Sur cette base, la Commission permanente du Conseil régional désigne les projets retenus et arrête le montant de la subvention régionale prévisionnelle
1
Quels documents me faut-il rassembler pour solliciter une aide numérique pour mon commerce?
Réunissez les pièces nécessaires : Un justificatif d'identité du représentant légal,Un extrait Kbis ou D1 de moins de 3 mois,Un RIB,Un justificatif comptable attestant de l’activité de l’entreprise*,Les pièces justificatives des dépenses prévisionnelles (devis, grille tarifaire,...) OU les factures acquittées (dans un délai de 18 mois avant la date de la demande) et le formulaire téléchargeable en ligne
1
Projets santé numérique soutien région Île-de-France
Type de project: Les projets proposés doivent prioritairement concerner l’une ou plusieurs des thématiques suivantes : Innovation en santé,Intelligence artificielle,Télémédecine,Téléconsultation,Téléexpertise,Coordination des professionnels de santé,Amélioration de la prise en charge des patients
1
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 4per_device_eval_batch_size
: 4gradient_accumulation_steps
: 8num_train_epochs
: 10warmup_steps
: 369
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 4per_device_eval_batch_size
: 4per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 8eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 10max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 369log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss | EmbeddingSimEval_spearman_cosine | BinaryClassifEval_cosine_ap |
---|---|---|---|---|---|
7.9654 | 920 | 0.0914 | 0.1569 | nan | 1.0 |
9.9567 | 1150 | - | 0.1583 | nan | 1.0 |
Framework Versions
- Python: 3.11.9
- Sentence Transformers: 3.3.1
- Transformers: 4.45.2
- PyTorch: 2.4.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.20.3
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}