--- tags: - sentence-transformers - sentence-similarity - feature-extraction - generated_from_trainer - dataset_size:3696 - loss:MultipleNegativesRankingLoss base_model: intfloat/multilingual-e5-base widget: - source_sentence: Inscription fonds soutien cinéma international région date sentences: - 'Type de project: Il s’agit pour la Région d’aider des projets contribuant à l’un des objectifs suivants : Agir pour le « zéro déchet » et lutter contre les gaspillages,Développer le réemploi, la réutilisation et la réparation,Mettre l’économie circulaire au cœur de l’aménagement et des chantiers,Développer l’économie circulaire et innover,Relever le défi du tri et du recyclage matière et organique,Anticiper les crises et réduire l’impact de la gestion des déchets' - 'Type de project: Les étudiants en avant-dernière ou dernière année d''études de kinésithérapie ou maïeutique peuvent prétendre à cette bourse si : Ils sont scolarisés en Île-de-France' - 'Date de début: Lundi 30 Septembre 2024, à 00:00:00 (UTC+0200' - source_sentence: Quelle importance est accordée à la répartition géographique des offres de formation d'aide-soignant par la région ? sentences: - La Région souhaite améliorer l’équilibre territorial de l’offre de formation d’aide-soignant sur l’ensemble du territoire. Une attention sera portée aux départements dans lesquels l’offre de formation demande à être intensifiée - 'Bénéficiaires: Collectivités - Institutions, Association - Régie par la loi de 1901, Association - Fondation, Collectivité ou institution - Communes de < 2000 hab, Collectivité ou institution - Communes de 10 000 à 20 000 hab, Collectivité ou institution - Communes de 2000 à 10 000 hab, Collectivité ou institution - Communes de > 20 000 hab, Collectivité ou institution - EPCI, Collectivité ou institution - EPT / Métropole du Grand Paris, Collectivité ou institution - Département, Collectivité ou institution - Bailleurs sociaux, Collectivité ou institution - Autre (GIP, copropriété, EPA...), Professionnel - Chercheur' - Après examen par les services de la Région, la Commission permanente du Conseil régional désigne ensuite les initiatives lauréates, le montant de la dotation régionale attribuée et approuve les conventions-cadres qui en découlent - source_sentence: Y a-t-il un prestataire spécifique ou des certifications requises pour réaliser un audit de cybersécurité subsidié par la région Île-de-France? sentences: - 'Bénéficiaires: Association - Fondation, Association - ONG, Association - Régie par la loi de 1901' - Pour être pris en compte, le diagnostic devra être assorti d’un rapport d'audit et d'un plan d’actions détaillant les mesures correctives proposées. Il devra obligatoirement être réalisé auprès d’un tiers francilien certifié PASSI par l'ANSSI ou labellisé CCI ou France Cybersecurity - 'Bénéficiaires: Professionnel - Culture, Collectivité ou institution - Communes de 10 000 à 20 000 hab, Collectivité ou institution - Communes de 2000 à 10 000 hab, Collectivité ou institution - Communes de < 2000 hab, Collectivité ou institution - Communes de > 20 000 hab, Collectivité ou institution - EPCI, Collectivité ou institution - EPT / Métropole du Grand Paris, Collectivité ou institution - Département, Association - Régie par la loi de 1901, Établissement ou organismes de formation (OF, OPCO, FSS, CFA...), Établissement d''enseignement secondaire, Établissement d''enseignement supérieur, Établissement de recherche et laboratoire' - source_sentence: Mon association est-elle éligible pour recevoir une aide de la région destinée au secteur sportif? sentences: - 'Bénéficiaires: Association - Fondation, Association - ONG, Association - Régie par la loi de 1901' - L'aide régionale d'EAC est versée aux structures culturelles situées en Île-de-France, quel que soit leur statut juridique, mais vise les lycéens et les apprentis franciliens - 'Nature de l''aide: L’aide prend la forme d’une subvention en investissement. La région peut intervenir jusqu’à 70% de votre budget d’investissement, dans la limite de 50 000€ de dépenses éligibles' - source_sentence: Est-ce que les artistes bénéficiaires d'une aide financière de la région Île-de-France sont restreints d'accéder à cette nouvelle aide destinée à la jeune création musicale ? sentences: - Ce dispositif est ouvert aux artistes n'ayant pas déjà bénéficié de subventions de la part de la Région, à l'exception du Fonds Régional pour les Artistes Emergents (FoRTE) - 'Type de project: Ce dispositif permet de soutenir les projets d’aménagements, de travaux ou d’équipements pour des cafés musicaux et culturels dont le classement ERP correspond à la qualification N ou L, de catégories IV et V (jauges inférieures à 300 places), relevant notamment de la convention collective des HCR (Hôtels, Cafés et Restaurants), et justifiant d’une programmation artistique et culturelle (concerts, spectacles…) réalisée dans des conditions professionnelles, dans le respect des règlementations en vigueur, notamment sur les plans sociaux (emploi des artistes via le GUSO ou en lien avec le GIP cafés culture) et de la sécurité' - 'Nature de l''aide: L’aide régionale est attribuée dans la limite des crédits disponible sur la base des forfaits selon le type de documents de gestion durable : Pour un RTG ou CBPS : base de 400 € (dès 4 ha) + 100 € par hectare supplémentaire' datasets: - Lettria/GRAG-CHUNK-IDF-Only-Pos pipeline_tag: sentence-similarity library_name: sentence-transformers metrics: - pearson_cosine - spearman_cosine - cosine_accuracy - cosine_accuracy_threshold - cosine_f1 - cosine_f1_threshold - cosine_precision - cosine_recall - cosine_ap model-index: - name: SentenceTransformer based on intfloat/multilingual-e5-base results: - task: type: semantic-similarity name: Semantic Similarity dataset: name: EmbeddingSimEval type: EmbeddingSimEval metrics: - type: pearson_cosine value: .nan name: Pearson Cosine - type: spearman_cosine value: .nan name: Spearman Cosine - task: type: binary-classification name: Binary Classification dataset: name: BinaryClassifEval type: BinaryClassifEval metrics: - type: cosine_accuracy value: 0.9985443959243085 name: Cosine Accuracy - type: cosine_accuracy_threshold value: -0.0157986581325531 name: Cosine Accuracy Threshold - type: cosine_f1 value: 0.9992716678805535 name: Cosine F1 - type: cosine_f1_threshold value: -0.0157986581325531 name: Cosine F1 Threshold - type: cosine_precision value: 1.0 name: Cosine Precision - type: cosine_recall value: 0.9985443959243085 name: Cosine Recall - type: cosine_ap value: 1.0 name: Cosine Ap --- # SentenceTransformer based on intfloat/multilingual-e5-base This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) - **Maximum Sequence Length:** 512 tokens - **Output Dimensionality:** 768 dimensions - **Similarity Function:** Cosine Similarity - **Training Dataset:** - [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos) ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) (2): Normalize() ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("Lettria/idf-chunk_embedder-mult_neg_rk2") # Run inference sentences = [ "Est-ce que les artistes bénéficiaires d'une aide financière de la région Île-de-France sont restreints d'accéder à cette nouvelle aide destinée à la jeune création musicale ?", "Ce dispositif est ouvert aux artistes n'ayant pas déjà bénéficié de subventions de la part de la Région, à l'exception du Fonds Régional pour les Artistes Emergents (FoRTE)", "Nature de l'aide: L’aide régionale est attribuée dans la limite des crédits disponible sur la base des forfaits selon le type de documents de gestion durable\xa0: Pour un RTG ou CBPS\xa0: base de 400 € (dès 4 ha) + 100 € par hectare supplémentaire", ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 768] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] ``` ## Evaluation ### Metrics #### Semantic Similarity * Dataset: `EmbeddingSimEval` * Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator) | Metric | Value | |:--------------------|:--------| | pearson_cosine | nan | | **spearman_cosine** | **nan** | #### Binary Classification * Dataset: `BinaryClassifEval` * Evaluated with [BinaryClassificationEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator) | Metric | Value | |:--------------------------|:--------| | cosine_accuracy | 0.9985 | | cosine_accuracy_threshold | -0.0158 | | cosine_f1 | 0.9993 | | cosine_f1_threshold | -0.0158 | | cosine_precision | 1.0 | | cosine_recall | 0.9985 | | **cosine_ap** | **1.0** | ## Training Details ### Training Dataset #### grag-chunk-idf-only-pos * Dataset: [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos) at [d727e1f](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos/tree/d727e1fb408af0ddad0fce2cc944d618d1b9120b) * Size: 3,696 training samples * Columns: sentence1, sentence2, and label * Approximate statistics based on the first 1000 samples: | | sentence1 | sentence2 | label | |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------| | type | string | string | int | | details | | | | * Samples: | sentence1 | sentence2 | label | |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------| | Y a-t-il des incitations financières spécifiques pour les projets de logement qui mettent en œuvre des solutions d'éco-construction ou de végétalisation? | Nature de l'aide: L’aide proposée s’établit à 5 % maximum de la dépense HT liée aux travaux et honoraires dans la limite d’un plafond de subvention de 5 000 € par logement.  Possibilité de primes pour les projets particulièrement performants sur le plan énergétique, qui recourent à l'éco-construction ou à la végétalisation | 1 | | Je suis maire d'une commune de 15 000 habitants en Ile-de-France, mon projet est-il éligible à un financement régional pour améliorer la mobilité? | Bénéficiaires: Collectivité ou institution - Communes de 10 000 à 20 000 hab | 1 | | lycée privé sous-contrat Île-de-France soutien actions sensibilisation numérique | Précision sure les bénéficiaires: Lycées franciliens publics et privés sous-contrat | 1 | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim" } ``` ### Evaluation Dataset #### grag-chunk-idf-only-pos * Dataset: [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos) at [d727e1f](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos/tree/d727e1fb408af0ddad0fce2cc944d618d1b9120b) * Size: 687 evaluation samples * Columns: sentence1, sentence2, and label * Approximate statistics based on the first 687 samples: | | sentence1 | sentence2 | label | |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------| | type | string | string | int | | details | | | | * Samples: | sentence1 | sentence2 | label | |:------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------| | Quelles démarches dois-je suivre pour déposer une demande d'aide pour mon projet de jardins partagés sur un terrain temporairement inutilisé ? | Procédures et démarches: Deux appels à projets sont organisés chaque année. Les porteurs de projets peuvent prendre rendez-vous avec le service en charge du dispositif avant de déposer un dossier sur mesdemarches.iledefrance.fr. Un jury d’élus et de personnalités qualifiées examine les candidatures et propose des soutiens. Sur cette base, la Commission permanente du Conseil régional désigne les projets retenus et arrête le montant de la subvention régionale prévisionnelle | 1 | | Quels documents me faut-il rassembler pour solliciter une aide numérique pour mon commerce? | Réunissez les pièces nécessaires : Un justificatif d'identité du représentant légal,Un extrait Kbis ou D1 de moins de 3 mois,Un RIB,Un justificatif comptable attestant de l’activité de l’entreprise*,Les pièces justificatives des dépenses prévisionnelles (devis, grille tarifaire,...) OU les factures acquittées (dans un délai de 18 mois avant la date de la demande) et le formulaire téléchargeable en ligne | 1 | | Projets santé numérique soutien région Île-de-France | Type de project: Les projets proposés doivent prioritairement concerner l’une ou plusieurs des thématiques suivantes : Innovation en santé,Intelligence artificielle,Télémédecine,Téléconsultation,Téléexpertise,Coordination des professionnels de santé,Amélioration de la prise en charge des patients | 1 | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim" } ``` ### Training Hyperparameters #### Non-Default Hyperparameters - `eval_strategy`: steps - `per_device_train_batch_size`: 4 - `per_device_eval_batch_size`: 4 - `gradient_accumulation_steps`: 8 - `num_train_epochs`: 10 - `warmup_steps`: 369 #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: steps - `prediction_loss_only`: True - `per_device_train_batch_size`: 4 - `per_device_eval_batch_size`: 4 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 8 - `eval_accumulation_steps`: None - `torch_empty_cache_steps`: None - `learning_rate`: 5e-05 - `weight_decay`: 0.0 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1.0 - `num_train_epochs`: 10 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.0 - `warmup_steps`: 369 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: False - `fp16`: False - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 0 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: False - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: None - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: False - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: False - `hub_always_push`: False - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `dispatch_batches`: None - `split_batches`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `eval_on_start`: False - `use_liger_kernel`: False - `eval_use_gather_object`: False - `prompts`: None - `batch_sampler`: batch_sampler - `multi_dataset_batch_sampler`: proportional
### Training Logs | Epoch | Step | Training Loss | Validation Loss | EmbeddingSimEval_spearman_cosine | BinaryClassifEval_cosine_ap | |:------:|:----:|:-------------:|:---------------:|:--------------------------------:|:---------------------------:| | 7.9654 | 920 | 0.0914 | 0.1569 | nan | 1.0 | | 9.9567 | 1150 | - | 0.1583 | nan | 1.0 | ### Framework Versions - Python: 3.11.9 - Sentence Transformers: 3.3.1 - Transformers: 4.45.2 - PyTorch: 2.4.1+cu121 - Accelerate: 1.2.1 - Datasets: 3.2.0 - Tokenizers: 0.20.3 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### MultipleNegativesRankingLoss ```bibtex @misc{henderson2017efficient, title={Efficient Natural Language Response Suggestion for Smart Reply}, author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil}, year={2017}, eprint={1705.00652}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```