cbpuschmann's picture
Add SetFit model
5af37f2 verified
---
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
library_name: setfit
metrics:
- accuracy
pipeline_tag: text-classification
tags:
- setfit
- sentence-transformers
- text-classification
- generated_from_setfit_trainer
widget:
- text: 'Das Coachella-Festival in der kalifornischen Wüste sorgt Jahr für Jahr für
beeindruckende Bilder. Neben dem Star-Line-Up auf der Bühne steht das Event nämlich
auch für ausgefallene Kostüme und Fahrzeuge im "Mad-Max-Look". Zwei Jahre lang
mussten die Coachella-Fans jetzt aussetzen. Denn 2020 und 2021 konnte das Event
– zu dem traditionell zehntausende Besucher kommen – coronabedingt nicht stattfinden.
Dementsprechend groß war in diesem Jahr die Feierlust, von der sich auch "Temptation
Island"-Moderatorin Lola Weippert anstecken ließ. Die 26-Jährige war mit einigen
Freundinnen bei dem Festival am vergangenen Wochenende. Bei Instagram hielt Lola
für ihre Follower fest, wie sie das Spektakel erlebte. Neben vielen schönen Momenten
berichtet sie hier auch leider von einer Begegnung, auf die sie gerne verzichtet
hätte.
Sie sei "mit einer deutschen Gruppe" unterwegs gewesen, erzählt die RTL-Moderatorin,
und eine der Frauen habe sie "von Anfang an so abwertend gemustert, sich geweigert,
sich...'
- text: 'Mann fehlt 15 Jahre lang bei der Arbeit und kassiert mehr als eine halbe
Million Euro
Ein italienischer Krankenhausmitarbeiter fehlte mehr als ein Jahrzehnt auf der
Arbeit und kassierte trotzdem Gehalt. Nun muss sich der Rentner vor Gericht verantworten.
Catanzaro - Eine etwas andere Art des passiven Einkommens hat sich ein italienischer
Krankenhausmitarbeiter ausgedacht. Medienberichten zufolge ist der Mann ganze
15 Jahre lang nicht zur Arbeit erschienen und hat sich trotzdem mehr als eine
halbe Million Euro „verdient“ - genauer: 538.000 Euro.
Wie BBC berichtet, soll der inzwischen 67-Jährige zuletzt 2005 im Ciaccio Krankenhaus
in Catanzaro zur Arbeit aufgetaucht sein. Seither soll der „König der Abwesenden“,
wie er in der Presse genannt wird, keinen Finger für das Krankenhaus gekrümmt
haben.
Anmerkung der Redaktion
Dieser Artikel wurde ursprünglich am 27.04.2021 veröffentlicht. Da er für unsere
Leserinnen und Leser noch immer Relevanz besitzt, haben wir ihn erneut auf Facebook
gep...'
- text: 'Nachgehakt: Klopp sagt nur die halbe Wahrheit!
Am Donnerstag findet in Istanbul die Auslosung für die Gruppenphase der diesjährigen
Champions League statt. Durch den Gewinn der Europa League ist mit Eintracht Frankfurt
erstmals ein fünfter Klub aus der Bundesliga dabei.
Nur noch zweimal wird die sogenannte „Königsklasse“ im bisherigen Modus stattfinden.
Ab 2024 gibt es dann eine neue Champions League mit noch mehr Spielen, also auch
mit noch mehr Geld.
Kurz: noch gigantischer!
225 statt 125 Spiele - also satte 100 mehr. 36 Mannschaften statt 32. Diese werden
nicht mehr auf acht Gruppen verteilt, sondern spielen alle gemeinsam in einer
Liga. Dabei trägt jede Mannschaft in der Vorrunde acht Spiele gegen acht unterschiedliche
Gegner aus (vier Heim-, vier Auswärtsspiele), wobei die Gegner vorab aus vier
Setztöpfen gelost werden.
Woran erinnert uns das? Richtig! An die Einführung einer „Superleague Light“ (die
angeblich niemand will), an neue Geldtöpfe exklusiv für die großen Klubs und a...'
- text: 'Es gibt sie noch: die Warenhaus-Kette Real. Zwar sind von den einstmals 276
Märkten nur noch 62 übrig – verteilt über ganz Deutschland. Doch die sollen bestehen
bleiben und mit Maßnahmen, die viele Kunden betreffen, jetzt wieder in die Gewinnzone
geführt werden.
Wir erinnern uns: Im Sommer 2020 rutschte die große Warenhauskette Real – bekannt
durch ihren Werbeslogan „Einmal hin, alles drin“ – in eine schwere Krise. Der
damalige Eigentümer, der Metro-Konzern, wollte seine Tochtergesellschaft abstoßen.
Schließlich übernahm das Unternehmen „SCP Retail Investments“ Real und stellte
die Kette neu auf. Oder besser gesagt: dampfte sie erst einmal ein. Zum einen
wurden zahlreiche Märkte verkauft. Zum anderen wurden Standorte, die nicht ausreichend
rentabel waren und sich auch nicht verkaufen ließen, geschlossen. Am Ende blieben
62 Standorte übrig. Sie laufen inzwischen unter dem neuen Markennamen „mein real“.
Real: Hohe Verluste nach der Übernahme
Eigentümer ist jedoch auch in diesen Fällen...'
- text: 'Bestimmt hört ihre eure Eltern besonders jetzt ziemlich oft über die Spritpreise
schimpfen, oder?
Benzin und Diesel sind nämlich echt teuer geworden. Das hat sehr viel mit dem
Ukraine-Krieg zu tun - mehr dazu erfahrt ihr im Video, das wir euch verlinkt haben.
Wenn Autofahren so teuer ist, sind vielleicht Bus und Bahn eine gute Idee - auch
für die Umwelt. Das dachten sich auch die Politiker und Politikerinnen und haben
deshalb beschlossen: Es soll ein 9-Euro-Monatsticket für alle geben. Am Freitag
hat auch der Bundesrat dem Plan zugestimmt. Und damit steht jetzt fest: Das 9-Euro-Ticket
kommt.
So funktioniert das 9-Euro-Ticket
Also, man soll für nur 9 Euro überall hinfahren können. Stopp, wirklich überall?
Wir schauen uns das mal genau an - hier sind die wichtigsten Fragen und Antworten:
So lautet die Kritik am 9-Euro-Ticket
Klingt alles ziemlich gut, oder? Aber es gibt auch Kritik:
Diesen Text hat Meike geschrieben.
Mein ZDF - Registrierung
Login mit ARD-Konto
Wenn du bereits ein ARD...'
inference: true
model-index:
- name: SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
results:
- task:
type: text-classification
name: Text Classification
dataset:
name: Unknown
type: unknown
split: test
metrics:
- type: accuracy
value: 0.8877551020408163
name: Accuracy
---
# SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
The model has been trained using an efficient few-shot learning technique that involves:
1. Fine-tuning a [Sentence Transformer](https://www.sbert.net) with contrastive learning.
2. Training a classification head with features from the fine-tuned Sentence Transformer.
## Model Details
### Model Description
- **Model Type:** SetFit
- **Sentence Transformer body:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2)
- **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
- **Maximum Sequence Length:** 128 tokens
- **Number of Classes:** 2 classes
<!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
<!-- - **Language:** Unknown -->
<!-- - **License:** Unknown -->
### Model Sources
- **Repository:** [SetFit on GitHub](https://github.com/huggingface/setfit)
- **Paper:** [Efficient Few-Shot Learning Without Prompts](https://arxiv.org/abs/2209.11055)
- **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
### Model Labels
| Label | Examples |
|:--------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| political | <ul><li>'SAP Quartalszahlen21:30 Uhr"Hoffen, dass Belegschaft profitieren wird"Der SAP-Betriebsratsvorsitzende Eberhard Schick fordert angesichts guter Quartalszahlen das Ende von Sparmaßnahmen. SAP Quartalszahlen21:30 Uhr"Hoffen, dass Belegschaft profitieren wird"Der SAP-Betriebsratsvorsitzende Eberhard Schick fordert angesichts guter Quartalszahlen das Ende von Sparmaßnahmen.'</li><li>'Neuer Völkermord-StrafparagrafWer leugnet, muss hinter Gitter\nDüsseldorf · Wer Völkermord, Verbrechen gegen die Menschlichkeit oder Kriegsverbrechen verharmlost oder leugnet, muss künftig in Deutschland mit Haftstrafen rechnen. Doch wer legt fest, was ein solches Verbrechen ist?\nFast unbemerkt von der Öffentlichkeit hat der Bundestag in der vergangenen Woche ein Gesetz verabschiedet, das es in sich hat. Die Leipziger Strafrechtsprofessorin Elisa Hoven spricht sogar von einer „kleinen Revolution im Strafrecht“. Was ist geschehen? Das deutsche Parlament hat generell die Leugnung aller Völkermorde, Verbrechen gegen die Menschlichkeit und Kriegsverbrechen unter Strafe gestellt. Wer also künftig die Untaten des Kolonialismus oder des Stalinismus herunterspielt oder leugnet, muss mit Strafen von bis zu drei Jahren Haft rechnen. Für die Rechtsänderung hat es weder eine Anhörung noch eine breitere Debatte gegeben. Die einschneidende Maßnahme wurde im Rahmen eines Artikelgesetzes an eine uns...'</li><li>'Der Berliner Comedian Felix Lobrecht (34) hat die Angriffe auf Rettungskräfte in der Silvesternacht verurteilt, wundert sich gleichzeitig aber über den Verlauf der Debatte.\nDie Angriffe nannte er „offensichtlich scheiße“. „Da braucht man gar nicht drüber reden“, sagte Lobrecht der Deutschen Presse-Agentur. „Mir kommen die Debatten nur so ein bisschen weltfremd vor.“ Es sei nicht so, dass es dieses Jahr das erste Mal eskaliert sei. Sondern so sei Silvester, seitdem er ein Kind gewesen sei in Neukölln.\nViele Leute aus Neukölln oder ähnlichen Gegenden deutschlandweit würden das kennen, sagte Lobrecht. Er moderiert den Podcast „Gemischtes Hack“ und ist in der Berliner Gropiusstadt aufgewachsen. Darüber hat er auch in seinem Roman „Sonne und Beton“ geschrieben. Die Geschichte ist nun verfilmt worden und kommt am 2. März ins Kino.\nDer Film handelt von vier Jungs, die in allerhand Probleme geraten, und setzt sich mit sozialer Gerechtigkeit und Gewalt auseinander. Der Film war am Wochenende...'</li></ul> |
| non-political | <ul><li>'Berlin (dpa/bb). Eine 60 Jahre alte Fußgängerin ist beim Überqueren einer Straße in Berlin-Steglitz zwischen zwei Autos eingeklemmt und schwer verletzt worden. Sie kam in ein Krankenhaus, wie die Polizei am Mittwoch mitteilte. Demnach bog ein 83-jähriger Autofahrer am Dienstag bei grüner Ampel nach rechts ab, als die 60-Jährige über die Straße ging. Dabei sei sie zwischen dem Wagen des 83-Jährigen und einem wartenden Auto eingeklemmt und am Kopf und an den Beinen verletzt worden.\nEin Insasse des wartenden Autos soll sich den Angaben zufolge lediglich den möglichen Schaden am Wagen angeschaut haben, bevor das Auto weitergefahren sei. Die Polizei habe die Ermittlungen aufgenommen. Der 83-Jährige blieb unverletzt.'</li><li>"Er ist ein „Bares für Rares“-Star der ersten Stunde! „Bares für Rares“-Händler Walter 'Waldi' Lehnertz ist bereits seit der ersten Staffel im Jahr 2013 dabei und wurde mit seinem obligatorischen Startgebot von 80 Euro zum Kult.\nDoch nicht nur bei „Bares für Rares“ können die Zuschauer ihren Waldi sehen. Der 55-Jährige ist auch bei Instagram aktiv und lässt seine Fans an seinem Leben teilhaben.\n„Bares für Rares“-Händler Walter 'Waldi' Lehnertz hat ordentlich abgespeckt\nUnter anderem auch an seinen Bemühungen, abzuspecken. So verriet Waldi am Samstag, dass er erste Abnehmerfolge erzielt habe. Elf Kilo, so der „Bares für Rares“-Star, habe er bereits verloren.\n------------\n„Bares für Rares“-Star Waldi: So tickt der Antikhändler privat\n- Walter Heinrich Lehnertz wurde am 9. Februar 1967 in Prüm geboren\n- Lehnertz ist ausgebildeter Pferdewirt\n- Seit 1998 beschäftigt sich Waldi mit Antiquitäten\n- Seit 2013 ist Waldi fest im Team von „Bares für Rares“\n- Zuletzt tauchte immer wieder die Fals..."</li><li>'Hensslers schnelle Nummer\n"Das geilste Gemüse der Welt" mit nur 3 Zutaten\n25 weitere Videos\nSteffen Henssler ist absoluter Spitzkohl-Fan!\nManchmal braucht es zum Glück nicht viel. In diesem Fall sind es genau drei Zutaten: Französische Salzbutter, Sojasauce und… Spitzkohl! Denn das ergibt laut Profikoch Steffen Henssler „das geilste Gemüse der Welt“ – perfekt als Beilage zu Fleisch, Fisch oder einfach nur so. Worauf es beim Kochen ankommt, sehen Sie im Video!\nSpitzkohl-Gemüse: So einfach geht\'s\nZutaten für 2 Personen:\n- 60 g Salzbutter\n- 2 EL Sojasauce\n- 400 g Spitzkohl\nVorbereitungszeit: 0 Minuten\nKochzeit: 9 Minuten\nGesamtzeit: 9 Minuten\nZubereitung:\n- Salzbutter in einer Pfanne schmelzen. Währenddessen den Spitzkohl in 0,5 cm dünne Streifen schneiden.\n- Spitzkohl zur Butter in die Pfanne geben und bei schwacher Hitze sieben bis acht Minuten braten.\n- Sobald der Spitzkohl eine leicht braune Farbe hat, mit Sojasauce ablöschen und leicht einköcheln lassen. Alles gut verrühren und an...'</li></ul> |
## Evaluation
### Metrics
| Label | Accuracy |
|:--------|:---------|
| **all** | 0.8878 |
## Uses
### Direct Use for Inference
First install the SetFit library:
```bash
pip install setfit
```
Then you can load this model and run inference.
```python
from setfit import SetFitModel
# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("cbpuschmann/MiniLM-ispolitical-german-zeroshot_v0.1")
# Run inference
preds = model("Das Coachella-Festival in der kalifornischen Wüste sorgt Jahr für Jahr für beeindruckende Bilder. Neben dem Star-Line-Up auf der Bühne steht das Event nämlich auch für ausgefallene Kostüme und Fahrzeuge im \"Mad-Max-Look\". Zwei Jahre lang mussten die Coachella-Fans jetzt aussetzen. Denn 2020 und 2021 konnte das Event – zu dem traditionell zehntausende Besucher kommen – coronabedingt nicht stattfinden.
Dementsprechend groß war in diesem Jahr die Feierlust, von der sich auch \"Temptation Island\"-Moderatorin Lola Weippert anstecken ließ. Die 26-Jährige war mit einigen Freundinnen bei dem Festival am vergangenen Wochenende. Bei Instagram hielt Lola für ihre Follower fest, wie sie das Spektakel erlebte. Neben vielen schönen Momenten berichtet sie hier auch leider von einer Begegnung, auf die sie gerne verzichtet hätte.
Sie sei \"mit einer deutschen Gruppe\" unterwegs gewesen, erzählt die RTL-Moderatorin, und eine der Frauen habe sie \"von Anfang an so abwertend gemustert, sich geweigert, sich...")
```
<!--
### Downstream Use
*List how someone could finetune this model on their own dataset.*
-->
<!--
### Out-of-Scope Use
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->
<!--
## Bias, Risks and Limitations
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->
<!--
### Recommendations
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->
## Training Details
### Training Set Metrics
| Training set | Min | Median | Max |
|:-------------|:----|:---------|:----|
| Word count | 36 | 124.8840 | 174 |
| Label | Training Sample Count |
|:--------------|:----------------------|
| non-political | 171 |
| political | 122 |
### Training Hyperparameters
- batch_size: (128, 128)
- num_epochs: (10, 10)
- max_steps: -1
- sampling_strategy: oversampling
- body_learning_rate: (2e-05, 1e-05)
- head_learning_rate: 0.01
- loss: CosineSimilarityLoss
- distance_metric: cosine_distance
- margin: 0.25
- end_to_end: False
- use_amp: False
- warmup_proportion: 0.1
- seed: 42
- eval_max_steps: -1
- load_best_model_at_end: False
### Training Results
| Epoch | Step | Training Loss | Validation Loss |
|:------:|:----:|:-------------:|:---------------:|
| 0.0029 | 1 | 0.3219 | - |
| 0.1437 | 50 | 0.2316 | - |
| 0.2874 | 100 | 0.1009 | - |
| 0.4310 | 150 | 0.0031 | - |
| 0.5747 | 200 | 0.0003 | - |
| 0.7184 | 250 | 0.0002 | - |
| 0.8621 | 300 | 0.0001 | - |
| 1.0057 | 350 | 0.0001 | - |
| 1.1494 | 400 | 0.0001 | - |
| 1.2931 | 450 | 0.0 | - |
| 1.4368 | 500 | 0.0 | - |
| 1.5805 | 550 | 0.0 | - |
| 1.7241 | 600 | 0.0 | - |
| 1.8678 | 650 | 0.0 | - |
| 2.0115 | 700 | 0.0 | - |
| 2.1552 | 750 | 0.0 | - |
| 2.2989 | 800 | 0.0 | - |
| 2.4425 | 850 | 0.0 | - |
| 2.5862 | 900 | 0.0 | - |
| 2.7299 | 950 | 0.0 | - |
| 2.8736 | 1000 | 0.0 | - |
| 3.0172 | 1050 | 0.0 | - |
| 3.1609 | 1100 | 0.0 | - |
| 3.3046 | 1150 | 0.0 | - |
| 3.4483 | 1200 | 0.0 | - |
| 3.5920 | 1250 | 0.0 | - |
| 3.7356 | 1300 | 0.0 | - |
| 3.8793 | 1350 | 0.0 | - |
| 4.0230 | 1400 | 0.0 | - |
| 4.1667 | 1450 | 0.0 | - |
| 4.3103 | 1500 | 0.0 | - |
| 4.4540 | 1550 | 0.0 | - |
| 4.5977 | 1600 | 0.0 | - |
| 4.7414 | 1650 | 0.0 | - |
| 4.8851 | 1700 | 0.0 | - |
| 5.0287 | 1750 | 0.0 | - |
| 5.1724 | 1800 | 0.0 | - |
| 5.3161 | 1850 | 0.0 | - |
| 5.4598 | 1900 | 0.0 | - |
| 5.6034 | 1950 | 0.0 | - |
| 5.7471 | 2000 | 0.0 | - |
| 5.8908 | 2050 | 0.0 | - |
| 6.0345 | 2100 | 0.0 | - |
| 6.1782 | 2150 | 0.0 | - |
| 6.3218 | 2200 | 0.0 | - |
| 6.4655 | 2250 | 0.0 | - |
| 6.6092 | 2300 | 0.0 | - |
| 6.7529 | 2350 | 0.0 | - |
| 6.8966 | 2400 | 0.0 | - |
| 7.0402 | 2450 | 0.0 | - |
| 7.1839 | 2500 | 0.0 | - |
| 7.3276 | 2550 | 0.0 | - |
| 7.4713 | 2600 | 0.0 | - |
| 7.6149 | 2650 | 0.0 | - |
| 7.7586 | 2700 | 0.0 | - |
| 7.9023 | 2750 | 0.0 | - |
| 8.0460 | 2800 | 0.0 | - |
| 8.1897 | 2850 | 0.0 | - |
| 8.3333 | 2900 | 0.0 | - |
| 8.4770 | 2950 | 0.0 | - |
| 8.6207 | 3000 | 0.0 | - |
| 8.7644 | 3050 | 0.0 | - |
| 8.9080 | 3100 | 0.0 | - |
| 9.0517 | 3150 | 0.0 | - |
| 9.1954 | 3200 | 0.0 | - |
| 9.3391 | 3250 | 0.0 | - |
| 9.4828 | 3300 | 0.0 | - |
| 9.6264 | 3350 | 0.0 | - |
| 9.7701 | 3400 | 0.0 | - |
| 9.9138 | 3450 | 0.0 | - |
### Framework Versions
- Python: 3.10.14
- SetFit: 1.0.3
- Sentence Transformers: 3.0.1
- Transformers: 4.40.2
- PyTorch: 2.0.0.post104
- Datasets: 2.20.0
- Tokenizers: 0.19.1
## Citation
### BibTeX
```bibtex
@article{https://doi.org/10.48550/arxiv.2209.11055,
doi = {10.48550/ARXIV.2209.11055},
url = {https://arxiv.org/abs/2209.11055},
author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Efficient Few-Shot Learning Without Prompts},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
```
<!--
## Glossary
*Clearly define terms in order to be accessible across audiences.*
-->
<!--
## Model Card Authors
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->
<!--
## Model Card Contact
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
-->