---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:3696
- loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-base
widget:
- source_sentence: Inscription fonds soutien cinéma international région date
sentences:
- 'Type de project: Il s’agit pour la Région d’aider des projets contribuant à l’un
des objectifs suivants : Agir pour le « zéro déchet » et lutter contre les gaspillages,Développer
le réemploi, la réutilisation et la réparation,Mettre l’économie circulaire au
cœur de l’aménagement et des chantiers,Développer l’économie circulaire et innover,Relever
le défi du tri et du recyclage matière et organique,Anticiper les crises et réduire
l’impact de la gestion des déchets'
- 'Type de project: Les étudiants en avant-dernière ou dernière année d''études
de kinésithérapie ou maïeutique peuvent prétendre à cette bourse si : Ils sont
scolarisés en Île-de-France'
- 'Date de début: Lundi 30 Septembre 2024, à 00:00:00 (UTC+0200'
- source_sentence: Quelle importance est accordée à la répartition géographique des
offres de formation d'aide-soignant par la région ?
sentences:
- La Région souhaite améliorer l’équilibre territorial de l’offre de formation d’aide-soignant
sur l’ensemble du territoire. Une attention sera portée aux départements dans
lesquels l’offre de formation demande à être intensifiée
- 'Bénéficiaires: Collectivités - Institutions, Association - Régie par la loi de
1901, Association - Fondation, Collectivité ou institution - Communes de < 2000
hab, Collectivité ou institution - Communes de 10 000 à 20 000 hab, Collectivité
ou institution - Communes de 2000 à 10 000 hab, Collectivité ou institution -
Communes de > 20 000 hab, Collectivité ou institution - EPCI, Collectivité ou
institution - EPT / Métropole du Grand Paris, Collectivité ou institution - Département,
Collectivité ou institution - Bailleurs sociaux, Collectivité ou institution -
Autre (GIP, copropriété, EPA...), Professionnel - Chercheur'
- Après examen par les services de la Région, la Commission permanente du Conseil
régional désigne ensuite les initiatives lauréates, le montant de la dotation
régionale attribuée et approuve les conventions-cadres qui en découlent
- source_sentence: Y a-t-il un prestataire spécifique ou des certifications requises
pour réaliser un audit de cybersécurité subsidié par la région Île-de-France?
sentences:
- 'Bénéficiaires: Association - Fondation, Association - ONG, Association - Régie
par la loi de 1901'
- Pour être pris en compte, le diagnostic devra être assorti d’un rapport d'audit
et d'un plan d’actions détaillant les mesures correctives proposées. Il devra
obligatoirement être réalisé auprès d’un tiers francilien certifié PASSI par l'ANSSI
ou labellisé CCI ou France Cybersecurity
- 'Bénéficiaires: Professionnel - Culture, Collectivité ou institution - Communes
de 10 000 à 20 000 hab, Collectivité ou institution - Communes de 2000 à 10 000
hab, Collectivité ou institution - Communes de < 2000 hab, Collectivité ou institution
- Communes de > 20 000 hab, Collectivité ou institution - EPCI, Collectivité ou
institution - EPT / Métropole du Grand Paris, Collectivité ou institution - Département,
Association - Régie par la loi de 1901, Établissement ou organismes de formation
(OF, OPCO, FSS, CFA...), Établissement d''enseignement secondaire, Établissement
d''enseignement supérieur, Établissement de recherche et laboratoire'
- source_sentence: Mon association est-elle éligible pour recevoir une aide de la
région destinée au secteur sportif?
sentences:
- 'Bénéficiaires: Association - Fondation, Association - ONG, Association - Régie
par la loi de 1901'
- L'aide régionale d'EAC est versée aux structures culturelles situées en Île-de-France,
quel que soit leur statut juridique, mais vise les lycéens et les apprentis franciliens
- 'Nature de l''aide: L’aide prend la forme d’une subvention en investissement.
La région peut intervenir jusqu’à 70% de votre budget d’investissement, dans la
limite de 50 000€ de dépenses éligibles'
- source_sentence: Est-ce que les artistes bénéficiaires d'une aide financière de
la région Île-de-France sont restreints d'accéder à cette nouvelle aide destinée
à la jeune création musicale ?
sentences:
- Ce dispositif est ouvert aux artistes n'ayant pas déjà bénéficié de subventions
de la part de la Région, à l'exception du Fonds Régional pour les Artistes Emergents
(FoRTE)
- 'Type de project: Ce dispositif permet de soutenir les projets d’aménagements,
de travaux ou d’équipements pour des cafés musicaux et culturels dont le classement
ERP correspond à la qualification N ou L, de catégories IV et V (jauges inférieures
à 300 places), relevant notamment de la convention collective des HCR (Hôtels,
Cafés et Restaurants), et justifiant d’une programmation artistique et culturelle
(concerts, spectacles…) réalisée dans des conditions professionnelles, dans le
respect des règlementations en vigueur, notamment sur les plans sociaux (emploi
des artistes via le GUSO ou en lien avec le GIP cafés culture) et de la sécurité'
- 'Nature de l''aide: L’aide régionale est attribuée dans la limite des crédits
disponible sur la base des forfaits selon le type de documents de gestion durable :
Pour un RTG ou CBPS : base de 400 € (dès 4 ha) + 100 € par hectare supplémentaire'
datasets:
- Lettria/GRAG-CHUNK-IDF-Only-Pos
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
- cosine_accuracy
- cosine_accuracy_threshold
- cosine_f1
- cosine_f1_threshold
- cosine_precision
- cosine_recall
- cosine_ap
model-index:
- name: SentenceTransformer based on intfloat/multilingual-e5-base
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: EmbeddingSimEval
type: EmbeddingSimEval
metrics:
- type: pearson_cosine
value: .nan
name: Pearson Cosine
- type: spearman_cosine
value: .nan
name: Spearman Cosine
- task:
type: binary-classification
name: Binary Classification
dataset:
name: BinaryClassifEval
type: BinaryClassifEval
metrics:
- type: cosine_accuracy
value: 0.9985443959243085
name: Cosine Accuracy
- type: cosine_accuracy_threshold
value: -0.0157986581325531
name: Cosine Accuracy Threshold
- type: cosine_f1
value: 0.9992716678805535
name: Cosine F1
- type: cosine_f1_threshold
value: -0.0157986581325531
name: Cosine F1 Threshold
- type: cosine_precision
value: 1.0
name: Cosine Precision
- type: cosine_recall
value: 0.9985443959243085
name: Cosine Recall
- type: cosine_ap
value: 1.0
name: Cosine Ap
---
# SentenceTransformer based on intfloat/multilingual-e5-base
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
- **Training Dataset:**
- [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos)
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Lettria/idf-chunk_embedder-mult_neg_rk2")
# Run inference
sentences = [
"Est-ce que les artistes bénéficiaires d'une aide financière de la région Île-de-France sont restreints d'accéder à cette nouvelle aide destinée à la jeune création musicale ?",
"Ce dispositif est ouvert aux artistes n'ayant pas déjà bénéficié de subventions de la part de la Région, à l'exception du Fonds Régional pour les Artistes Emergents (FoRTE)",
"Nature de l'aide: L’aide régionale est attribuée dans la limite des crédits disponible sur la base des forfaits selon le type de documents de gestion durable\xa0: Pour un RTG ou CBPS\xa0: base de 400 € (dès 4 ha) + 100 € par hectare supplémentaire",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Evaluation
### Metrics
#### Semantic Similarity
* Dataset: `EmbeddingSimEval`
* Evaluated with [EmbeddingSimilarityEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:--------|
| pearson_cosine | nan |
| **spearman_cosine** | **nan** |
#### Binary Classification
* Dataset: `BinaryClassifEval`
* Evaluated with [BinaryClassificationEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
| Metric | Value |
|:--------------------------|:--------|
| cosine_accuracy | 0.9985 |
| cosine_accuracy_threshold | -0.0158 |
| cosine_f1 | 0.9993 |
| cosine_f1_threshold | -0.0158 |
| cosine_precision | 1.0 |
| cosine_recall | 0.9985 |
| **cosine_ap** | **1.0** |
## Training Details
### Training Dataset
#### grag-chunk-idf-only-pos
* Dataset: [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos) at [d727e1f](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos/tree/d727e1fb408af0ddad0fce2cc944d618d1b9120b)
* Size: 3,696 training samples
* Columns: sentence1
, sentence2
, and label
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | label |
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------|
| type | string | string | int |
| details |
Y a-t-il des incitations financières spécifiques pour les projets de logement qui mettent en œuvre des solutions d'éco-construction ou de végétalisation?
| Nature de l'aide: L’aide proposée s’établit à 5 % maximum de la dépense HT liée aux travaux et honoraires dans la limite d’un plafond de subvention de 5 000 € par logement. Possibilité de primes pour les projets particulièrement performants sur le plan énergétique, qui recourent à l'éco-construction ou à la végétalisation
| 1
|
| Je suis maire d'une commune de 15 000 habitants en Ile-de-France, mon projet est-il éligible à un financement régional pour améliorer la mobilité?
| Bénéficiaires: Collectivité ou institution - Communes de 10 000 à 20 000 hab
| 1
|
| lycée privé sous-contrat Île-de-France soutien actions sensibilisation numérique
| Précision sure les bénéficiaires: Lycées franciliens publics et privés sous-contrat
| 1
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Evaluation Dataset
#### grag-chunk-idf-only-pos
* Dataset: [grag-chunk-idf-only-pos](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos) at [d727e1f](https://huggingface.co/datasets/Lettria/GRAG-CHUNK-IDF-Only-Pos/tree/d727e1fb408af0ddad0fce2cc944d618d1b9120b)
* Size: 687 evaluation samples
* Columns: sentence1
, sentence2
, and label
* Approximate statistics based on the first 687 samples:
| | sentence1 | sentence2 | label |
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------|
| type | string | string | int |
| details | Quelles démarches dois-je suivre pour déposer une demande d'aide pour mon projet de jardins partagés sur un terrain temporairement inutilisé ?
| Procédures et démarches: Deux appels à projets sont organisés chaque année. Les porteurs de projets peuvent prendre rendez-vous avec le service en charge du dispositif avant de déposer un dossier sur mesdemarches.iledefrance.fr. Un jury d’élus et de personnalités qualifiées examine les candidatures et propose des soutiens. Sur cette base, la Commission permanente du Conseil régional désigne les projets retenus et arrête le montant de la subvention régionale prévisionnelle
| 1
|
| Quels documents me faut-il rassembler pour solliciter une aide numérique pour mon commerce?
| Réunissez les pièces nécessaires : Un justificatif d'identité du représentant légal,Un extrait Kbis ou D1 de moins de 3 mois,Un RIB,Un justificatif comptable attestant de l’activité de l’entreprise*,Les pièces justificatives des dépenses prévisionnelles (devis, grille tarifaire,...) OU les factures acquittées (dans un délai de 18 mois avant la date de la demande) et le formulaire téléchargeable en ligne
| 1
|
| Projets santé numérique soutien région Île-de-France
| Type de project: Les projets proposés doivent prioritairement concerner l’une ou plusieurs des thématiques suivantes : Innovation en santé,Intelligence artificielle,Télémédecine,Téléconsultation,Téléexpertise,Coordination des professionnels de santé,Amélioration de la prise en charge des patients
| 1
|
* Loss: [MultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 4
- `per_device_eval_batch_size`: 4
- `gradient_accumulation_steps`: 8
- `num_train_epochs`: 10
- `warmup_steps`: 369
#### All Hyperparameters