Add SetFit model
Browse files- .gitattributes +2 -0
- 1_Pooling/config.json +10 -0
- README.md +293 -0
- config.json +26 -0
- config_sentence_transformers.json +10 -0
- config_setfit.json +8 -0
- model.safetensors +3 -0
- model_head.pkl +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +64 -0
- unigram.json +3 -0
.gitattributes
CHANGED
@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
37 |
+
unigram.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 384,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,293 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
3 |
+
library_name: setfit
|
4 |
+
metrics:
|
5 |
+
- accuracy
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
tags:
|
8 |
+
- setfit
|
9 |
+
- sentence-transformers
|
10 |
+
- text-classification
|
11 |
+
- generated_from_setfit_trainer
|
12 |
+
widget:
|
13 |
+
- text: 'Twitter-Übernahme durch Musk Sieben Tage der Zerstörung
|
14 |
+
|
15 |
+
Schlimmer hätte die erste Woche nach der Übernahme für Twitter kaum laufen können.
|
16 |
+
Und doch - es könnte noch wesentlich schlimmer kommen. Das zu verhindern, liege
|
17 |
+
letztlich auch bei den Nutzern selbst.
|
18 |
+
|
19 |
+
Wenn die Welt wirklich in einer Woche geschaffen wurde, könnte vermutlich nur
|
20 |
+
Elon Musk sie in einer Woche auch wieder zerlegen. Wie er das anstellen würde,
|
21 |
+
hat er bei Twitter gezeigt - vor allem mit Rücksichtslosigkeit.
|
22 |
+
|
23 |
+
Er hat Personal entlassen, Werbekunden verloren, Vertrauen verspielt. Ex-Mitarbeitende
|
24 |
+
wollen ihn verklagen, die übrigen sind offenbar eingeschüchtert. Die Einnahmen
|
25 |
+
seien, das hat Musk selbst gewittert, massiv runtergegangen. Alles in einer Woche.
|
26 |
+
|
27 |
+
Zu viel Macht für Musk
|
28 |
+
|
29 |
+
Drei Dinge bereiten besonders große Sorgen: Verifizierte Accounts - das sind die
|
30 |
+
mit den blauen Haken - kann sich offenbar künftig jeder kaufen. Wenn das wirklich
|
31 |
+
so kommt, könnte es noch schwerer werden zu unterscheiden, was eine glaubwürdige
|
32 |
+
In...'
|
33 |
+
- text: 'Zwei Jahre lang musste das "Weiße Fest" wegen Corona pausieren – umso mehr
|
34 |
+
Besucher kamen in diesem Jahr und erlebten genau das Fest mit "Lebensfreude pur",
|
35 |
+
auf das sie so lange warten mussten. Pünktlich um 18 Uhr eröffnete Bürgermeister
|
36 |
+
Martin Biber die "Partymeile". Er war sichtlich erfreut, so viele Gäste begrüßen
|
37 |
+
zu können und lud sie alle ein "abzufeiern". Das musste er nicht zweimal sagen:
|
38 |
+
Nach dem Bürgermeister ging das Mikrofon an Moderator Florian Jochum, der die
|
39 |
+
Besucher durch den langen Abend begleitete.
|
40 |
+
|
41 |
+
Eggenfelden
|
42 |
+
|
43 |
+
Ganz in Weiß
|
44 |
+
|
45 |
+
31.07.2022 | Stand 31.07.2022, 14:24 Uhr'
|
46 |
+
- text: 'Von reitschuster.de
|
47 |
+
|
48 |
+
Paxlovid wurde insbesondere für Menschen mit Vorerkrankungen als Gamechanger gefeiert.
|
49 |
+
Ende vergangenen Jahres erhielt das Medikament aus dem Hause Pfizer die Notfallzulassung
|
50 |
+
in den USA und kurz darauf auch in Europa. Allen bisherigen Erkenntnissen zufolge
|
51 |
+
kann Paxlovid tatsächlich dazu beitragen, das Sterberisiko bei den Vulnerablen
|
52 |
+
nach einer Corona-Infektion um bis zu 90 Prozent zu reduzieren. Dies gilt offenbar
|
53 |
+
aber nur, wenn das Mittel alleine eingenommen wird oder allenfalls zusammen mit
|
54 |
+
vergleichsweise harmlosen Medikamenten wie etwa Aspirin. Das legen die Ergebnisse
|
55 |
+
einer Studie nahe, die von Forschern mehrerer US-Institutionen durchgeführt wurde,
|
56 |
+
unter anderem dem Lahey Hospital and Medical Center in Burlington und der Harvard
|
57 |
+
Medical School in Boston.
|
58 |
+
|
59 |
+
Die Autoren berichten in ihrer Arbeit von „gefährlichen Wechselwirkungen mit gängigen
|
60 |
+
Medikamenten“. Das gelte insbesondere, wenn Paxlovid zusammen mit Statinen oder
|
61 |
+
Blutverdünnern eingenommen werde. Nebe...'
|
62 |
+
- text: 'Tödlicher baum-Crash | 19-Jähriger stirbt bei Überholversuch
|
63 |
+
|
64 |
+
Welsleben – Furchtbarer Unfall am Donnerstagmittag in Sachsen-Anhalt: Ein 19-jähriger
|
65 |
+
Fahrer ist bei einem Überholmanöver gegen einen Baum geschleudert und tödlich
|
66 |
+
verunglückt.
|
67 |
+
|
68 |
+
Nach Polizeiangaben war der junge Mann gegen 12 Uhr mit seinem VW zwischen Welsleben
|
69 |
+
und Biere (Salzlandkreis) unterwegs. Auf der Welslebener Straße setze er zum Überholen
|
70 |
+
an – und verlor die Kontrolle. Der Wagen kam von der Straße ab, krachte mit voller
|
71 |
+
Wucht gegen einen Baum am Straßenrand.
|
72 |
+
|
73 |
+
„Durch die Wucht des Aufpralls wurde der Mann in seinem Fahrzeug eingeklemmt und
|
74 |
+
musste durch die Feuerwehr befreit werden. Wenig später verstarb der 19-Jährige
|
75 |
+
an der Unfallstelle“, erklärte ein Polizeisprecher.
|
76 |
+
|
77 |
+
Der andere Autofahrer erlitt einen Schock und musste mit einem Rettungswagen in
|
78 |
+
ein Krankenhaus gebracht werden.
|
79 |
+
|
80 |
+
Die Straße zwischen Welsleben und Biere wurde für mehrere Stunden gesperrt. Die
|
81 |
+
Polizei ermittelt nun, wie es genau zu dem Unfall kommen ko...'
|
82 |
+
- text: 'Im Jahr 2021 sind in Deutschland 2.562 Menschen bei Straßenverkehrsunfällen
|
83 |
+
ums Leben gekommen - 5,8 Prozent oder 157 Menschen weniger als im Vorjahr. Die
|
84 |
+
Zahl der Verletzten ging gegenüber dem Vorjahr um 1,3 Prozent auf 323.129 zurück,
|
85 |
+
teilte das Statistische Bundesamt (Destatis) nach endgültigen Ergebnissen am Donnerstag
|
86 |
+
mit. Damit sank die Zahl der Verkehrstoten und Verletzten erneut und erreichte
|
87 |
+
den tiefsten Stand seit mehr als 60 Jahren.
|
88 |
+
|
89 |
+
Im Durchschnitt wurden etwa 6.300 Verkehrsunfälle pro Tag polizeilich erfasst.
|
90 |
+
Dabei wurden jeden Tag 885 Menschen verletzt und sieben Menschen getötet. Die
|
91 |
+
Polizei zählte 2021 insgesamt 2,3 Millionen Verkehrsunfälle auf deutschen Straßen.
|
92 |
+
|
93 |
+
Das waren 3,1 Prozent mehr als 2020. Die Zahl der Unfälle lag aber weiterhin deutlich
|
94 |
+
unter dem Vor-Pandemie-Niveau (2019: 2,7 Millionen Unfälle insgesamt, darunter
|
95 |
+
300.000 Unfälle mit Personenschaden). Bei knapp 90 Prozent der Unfälle blieb es
|
96 |
+
bei Sachschaden.
|
97 |
+
|
98 |
+
Bei elf Prozent der Unfälle wurden Menschen get...'
|
99 |
+
inference: true
|
100 |
+
model-index:
|
101 |
+
- name: SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
102 |
+
results:
|
103 |
+
- task:
|
104 |
+
type: text-classification
|
105 |
+
name: Text Classification
|
106 |
+
dataset:
|
107 |
+
name: Unknown
|
108 |
+
type: unknown
|
109 |
+
split: test
|
110 |
+
metrics:
|
111 |
+
- type: accuracy
|
112 |
+
value: 0.826530612244898
|
113 |
+
name: Accuracy
|
114 |
+
---
|
115 |
+
|
116 |
+
# SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
117 |
+
|
118 |
+
This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
|
119 |
+
|
120 |
+
The model has been trained using an efficient few-shot learning technique that involves:
|
121 |
+
|
122 |
+
1. Fine-tuning a [Sentence Transformer](https://www.sbert.net) with contrastive learning.
|
123 |
+
2. Training a classification head with features from the fine-tuned Sentence Transformer.
|
124 |
+
|
125 |
+
## Model Details
|
126 |
+
|
127 |
+
### Model Description
|
128 |
+
- **Model Type:** SetFit
|
129 |
+
- **Sentence Transformer body:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2)
|
130 |
+
- **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
|
131 |
+
- **Maximum Sequence Length:** 128 tokens
|
132 |
+
- **Number of Classes:** 3 classes
|
133 |
+
<!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
|
134 |
+
<!-- - **Language:** Unknown -->
|
135 |
+
<!-- - **License:** Unknown -->
|
136 |
+
|
137 |
+
### Model Sources
|
138 |
+
|
139 |
+
- **Repository:** [SetFit on GitHub](https://github.com/huggingface/setfit)
|
140 |
+
- **Paper:** [Efficient Few-Shot Learning Without Prompts](https://arxiv.org/abs/2209.11055)
|
141 |
+
- **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
|
142 |
+
|
143 |
+
### Model Labels
|
144 |
+
| Label | Examples |
|
145 |
+
|:--------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
146 |
+
| non-political | <ul><li>'Fahndung nach Überfall in Koblenz-Arenberg: Opfer ausgeraubt und in eigenen Kofferraum gesperrt\nWie die Polizei mitteilte befährt der betroffene Mann den Waldweg regelmäßig. An diesem Morgen zwang ihn ein auf dem Weg liegender Ast zum Aussteigen. Nachdem der Fahrer sein Fahrzeug verlassen hatte, überfiel ihn ein maskierter Mann, der das Opfer schlug und beraubte.\nIm Anschluss sperrte der Täter das Opfer in den Laderaum des eigenen Geländewagens und fuhr mit ihm im Bereich des Tatorts herum. Gegen 7.40 Uhr stellte der Täter das Fahrzeug auf dem Parkplatz gegenüber des Klosters, im Bereich der Immendorfer Straße, ab.\nZeugen fiel der verletzte Mann auf, worauf sie die Polizei riefen. Die Fahndung mit einem großen Aufgebot an Polizeikräften und einem Polizeihubschrauber verlief bisher allerdings ohne Erfolg.'</li><li>'Die Kaulitz-Zwillinge droppen in ihrem Podcast "Senf aus Hollywood" schonmal die eine oder andere persönliche Geschichte. Dass Bill und Tom dabei zumindest manchmal etwas übertreiben, ist den Podcast-Fans zumeist bewusst. Kürzlich ist aus den Erzählungen der beiden sogar eine reißerische Schlagzeile entstanden. Bills Worte waren es, die Tom diese bescherten. Nun räumt Tom mit den Spekulationen auf.\nIn der aktuellsten Folge ihres Podcasts vom 20. Dezember lassen die Zwillinge etwa ihr Jahr 2022 Revue passieren. Unter anderem Thema: ihre "Lows", also die Tiefpunkte des Jahres. Neben der politischen Lage samt Krieg und Krisen nennen die beiden im Zuge dessen auch persönliche negative Momente.\nGesundheitlich lief es bei Tom demnach nicht besonders rund. So verrät er: "Mein Low war auf jeden Fall die Clusterkopfschmerzphase, über die ich aber gar nicht gerne rede, weil ich mir denke, dass ich die damit sofort wieder anziehe." Kein Wunder: Cluster-Kopfschmerzen sind besonders heftige Kopf...'</li><li>'Eine neue in Osnabrück entwickelte App soll Leben in Restaurants bringen. Mit „NeoTaste“ können Gastronomen den Nutzern aktuelle Angebote unterbreiten und so freie Kapazitäten in ihren Gaststätten füllen. Am 6. November fällt der Startschuss.\nEine neue in Osnabrück entwickelte App soll Leben in Restaurants bringen. Mit „NeoTaste“ können Gastronomen den Nutzern aktuelle Angebote unterbreiten und so freie Kapazitäten in ihren Gaststätten füllen. Am 6. November fällt der Startschuss.'</li></ul> |
|
147 |
+
| political | <ul><li>'Angriffskrieg gegen die Ukraine Russlands Hilfstruppen haben offenbar Motivationsprobleme\nRussland kontrolliert die ukrainische Region Luhansk und einen Großteil des Oblast Donezk. Doch diese Erfolge schaden womöglich der weiteren Motivation der moskautreuen Separatisten in diesen Gebieten. So berichtet es das britische Verteidigungsministerium in London unter Berufung auf Geheimdiensterkenntnisse.\nDemnach kann Russland seine Hilfstruppen aus den Separatistengebieten immer schwerer für den andauernden Krieg gegen die Ukraine motivieren. Einige Kommandeure würden ihren Soldaten vermutlich finanzielle Anreize versprechen. Einige Einheiten würden als unzuverlässig gelten und daher nicht mit Angriffen betraut.\nDas Ministerium verwies als Beispiel auf ein Video von Mitte August, in dem sich Mitglieder einer Einheit der selbst ernannten »Volksrepublik Luhansk« geweigert haben sollen, an Offensivoperationen teilzunehmen. Die Kämpfer hätten betont, sie hätten mit der vollständigen Eroberung...'</li><li>'Cooler Ehrenbürger: Udo ist jetzt Hamburgs Panik-Botschafter – und die AfD ätzt\n„Ich begrüße ganz herzlich Udo Lindenberg in unserer Mitte!“, sprach Carola Veit um 18.38 und unter Applaus der Bürgerschaftsmitglieder tänzelte Udo Lindenberg mit Hut, Nadelstreifen-Jacket und schwarzer Hose auf seinen Ehrenplatz – und lauschte der emotionalen Rede des Bürgermeisters Peter Tschentscher (SPD) und den Freundlichkeiten der Fraktionsführer.\nMit Ausnahme der AfD-Abgeordneten stimmten anschließend alle Fraktionen der Bürgerschaft dem Antrag zu und ernannten den Panikrocker mit Standing Ovations zum vermutlich coolsten Ehrenbürger Hamburgs – der sich prompt mit einem kleinen Udo-Tänzchen bedankte.'</li><li>'Maskenpflicht in Sachsen fällt, aber nicht überall: Das gilt ab Montag in Bus und Bahn\nDresden – Ab Montag dürfen Fahrgäste in Sachsens Bussen und Bahnen erstmals nach zweieinhalb Jahren wieder ohne Mundschutz mitfahren. Doch das gilt nicht für alle Reisemöglichkeiten.\nFür Fernzüge und Fernbusse ist noch bis zum 2. Februar bundesweit eine FFP2-Maskenpflicht festgeschrieben.\nDas Ende der Maskenpflicht im öffentlichen Nahverkehr war vergangenen Dienstag nach einer Kabinettssitzung von Gesundheitsministerin Petra Köpping (64, SPD) verkündet worden.\nKöpping tritt weiterhin für das freiwillige Tragen einer Maske ein. „Wir haben viele Infektionskrankheiten und eine Maske schützt nicht nur vor Corona, sondern auch vor anderen Infektionskrankheiten“, sagte die SPD-Politikerin.\nSachsen war das erste Bundesland, das nach Ausbruch der Corona-Pandemie die Maskenpflicht in öffentlichen Verkehrsmitteln sowie beim Einkauf einführte.'</li></ul> |
|
148 |
+
| ? | <ul><li>'Corvus Corax schrieb am 06.04.2022 13:44:\nUnd die Chinesen würden sich die Misere mit der abstürzenden ISS anschauen und sagen.\nDie Chinesen würden wohl eher sagen:\nKlar ziehen wir mit euch was auf, schließlich kann man sich auf Euch verlassen.\nViel lieber als mit den Amis, die aus fadenscheinigen Gründen langfristige Abkommen mal eben aufkündigen.'</li></ul> |
|
149 |
+
|
150 |
+
## Evaluation
|
151 |
+
|
152 |
+
### Metrics
|
153 |
+
| Label | Accuracy |
|
154 |
+
|:--------|:---------|
|
155 |
+
| **all** | 0.8265 |
|
156 |
+
|
157 |
+
## Uses
|
158 |
+
|
159 |
+
### Direct Use for Inference
|
160 |
+
|
161 |
+
First install the SetFit library:
|
162 |
+
|
163 |
+
```bash
|
164 |
+
pip install setfit
|
165 |
+
```
|
166 |
+
|
167 |
+
Then you can load this model and run inference.
|
168 |
+
|
169 |
+
```python
|
170 |
+
from setfit import SetFitModel
|
171 |
+
|
172 |
+
# Download from the 🤗 Hub
|
173 |
+
model = SetFitModel.from_pretrained("cbpuschmann/MiniLM-ispolitical-zeroshot")
|
174 |
+
# Run inference
|
175 |
+
preds = model("Zwei Jahre lang musste das \"Weiße Fest\" wegen Corona pausieren – umso mehr Besucher kamen in diesem Jahr und erlebten genau das Fest mit \"Lebensfreude pur\", auf das sie so lange warten mussten. Pünktlich um 18 Uhr eröffnete Bürgermeister Martin Biber die \"Partymeile\". Er war sichtlich erfreut, so viele Gäste begrüßen zu können und lud sie alle ein \"abzufeiern\". Das musste er nicht zweimal sagen: Nach dem Bürgermeister ging das Mikrofon an Moderator Florian Jochum, der die Besucher durch den langen Abend begleitete.
|
176 |
+
Eggenfelden
|
177 |
+
Ganz in Weiß
|
178 |
+
31.07.2022 | Stand 31.07.2022, 14:24 Uhr")
|
179 |
+
```
|
180 |
+
|
181 |
+
<!--
|
182 |
+
### Downstream Use
|
183 |
+
|
184 |
+
*List how someone could finetune this model on their own dataset.*
|
185 |
+
-->
|
186 |
+
|
187 |
+
<!--
|
188 |
+
### Out-of-Scope Use
|
189 |
+
|
190 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
191 |
+
-->
|
192 |
+
|
193 |
+
<!--
|
194 |
+
## Bias, Risks and Limitations
|
195 |
+
|
196 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
197 |
+
-->
|
198 |
+
|
199 |
+
<!--
|
200 |
+
### Recommendations
|
201 |
+
|
202 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
203 |
+
-->
|
204 |
+
|
205 |
+
## Training Details
|
206 |
+
|
207 |
+
### Training Set Metrics
|
208 |
+
| Training set | Min | Median | Max |
|
209 |
+
|:-------------|:----|:---------|:----|
|
210 |
+
| Word count | 40 | 124.0612 | 171 |
|
211 |
+
|
212 |
+
| Label | Training Sample Count |
|
213 |
+
|:--------------|:----------------------|
|
214 |
+
| ? | 1 |
|
215 |
+
| non-political | 115 |
|
216 |
+
| political | 80 |
|
217 |
+
|
218 |
+
### Training Hyperparameters
|
219 |
+
- batch_size: (32, 32)
|
220 |
+
- num_epochs: (1, 1)
|
221 |
+
- max_steps: -1
|
222 |
+
- sampling_strategy: oversampling
|
223 |
+
- body_learning_rate: (2e-05, 1e-05)
|
224 |
+
- head_learning_rate: 0.01
|
225 |
+
- loss: CosineSimilarityLoss
|
226 |
+
- distance_metric: cosine_distance
|
227 |
+
- margin: 0.25
|
228 |
+
- end_to_end: False
|
229 |
+
- use_amp: False
|
230 |
+
- warmup_proportion: 0.1
|
231 |
+
- seed: 42
|
232 |
+
- eval_max_steps: -1
|
233 |
+
- load_best_model_at_end: False
|
234 |
+
|
235 |
+
### Training Results
|
236 |
+
| Epoch | Step | Training Loss | Validation Loss |
|
237 |
+
|:------:|:----:|:-------------:|:---------------:|
|
238 |
+
| 0.0016 | 1 | 0.3128 | - |
|
239 |
+
| 0.0806 | 50 | 0.074 | - |
|
240 |
+
| 0.1613 | 100 | 0.0042 | - |
|
241 |
+
| 0.2419 | 150 | 0.0002 | - |
|
242 |
+
| 0.3226 | 200 | 0.0001 | - |
|
243 |
+
| 0.4032 | 250 | 0.0001 | - |
|
244 |
+
| 0.4839 | 300 | 0.0 | - |
|
245 |
+
| 0.5645 | 350 | 0.0001 | - |
|
246 |
+
| 0.6452 | 400 | 0.0 | - |
|
247 |
+
| 0.7258 | 450 | 0.0 | - |
|
248 |
+
| 0.8065 | 500 | 0.0 | - |
|
249 |
+
| 0.8871 | 550 | 0.0175 | - |
|
250 |
+
| 0.9677 | 600 | 0.0 | - |
|
251 |
+
|
252 |
+
### Framework Versions
|
253 |
+
- Python: 3.10.14
|
254 |
+
- SetFit: 1.0.3
|
255 |
+
- Sentence Transformers: 3.0.1
|
256 |
+
- Transformers: 4.40.2
|
257 |
+
- PyTorch: 2.0.0.post104
|
258 |
+
- Datasets: 2.20.0
|
259 |
+
- Tokenizers: 0.19.1
|
260 |
+
|
261 |
+
## Citation
|
262 |
+
|
263 |
+
### BibTeX
|
264 |
+
```bibtex
|
265 |
+
@article{https://doi.org/10.48550/arxiv.2209.11055,
|
266 |
+
doi = {10.48550/ARXIV.2209.11055},
|
267 |
+
url = {https://arxiv.org/abs/2209.11055},
|
268 |
+
author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
|
269 |
+
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
|
270 |
+
title = {Efficient Few-Shot Learning Without Prompts},
|
271 |
+
publisher = {arXiv},
|
272 |
+
year = {2022},
|
273 |
+
copyright = {Creative Commons Attribution 4.0 International}
|
274 |
+
}
|
275 |
+
```
|
276 |
+
|
277 |
+
<!--
|
278 |
+
## Glossary
|
279 |
+
|
280 |
+
*Clearly define terms in order to be accessible across audiences.*
|
281 |
+
-->
|
282 |
+
|
283 |
+
<!--
|
284 |
+
## Model Card Authors
|
285 |
+
|
286 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
287 |
+
-->
|
288 |
+
|
289 |
+
<!--
|
290 |
+
## Model Card Contact
|
291 |
+
|
292 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
293 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"gradient_checkpointing": false,
|
9 |
+
"hidden_act": "gelu",
|
10 |
+
"hidden_dropout_prob": 0.1,
|
11 |
+
"hidden_size": 384,
|
12 |
+
"initializer_range": 0.02,
|
13 |
+
"intermediate_size": 1536,
|
14 |
+
"layer_norm_eps": 1e-12,
|
15 |
+
"max_position_embeddings": 512,
|
16 |
+
"model_type": "bert",
|
17 |
+
"num_attention_heads": 12,
|
18 |
+
"num_hidden_layers": 12,
|
19 |
+
"pad_token_id": 0,
|
20 |
+
"position_embedding_type": "absolute",
|
21 |
+
"torch_dtype": "float32",
|
22 |
+
"transformers_version": "4.40.2",
|
23 |
+
"type_vocab_size": 2,
|
24 |
+
"use_cache": true,
|
25 |
+
"vocab_size": 250037
|
26 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.40.2",
|
5 |
+
"pytorch": "2.0.0.post104"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
config_setfit.json
ADDED
@@ -0,0 +1,8 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"labels": [
|
3 |
+
"?",
|
4 |
+
"non-political",
|
5 |
+
"political"
|
6 |
+
],
|
7 |
+
"normalize_embeddings": false
|
8 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:ac5aa1fc472a8f8eead6870d8987ea5bc4b64c75fb164b4110bffe2899fe9207
|
3 |
+
size 470637416
|
model_head.pkl
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:693d61373866d1e9cd14e215c37c39b4729629c7d6df9e765c1bf3eff18d9a7e
|
3 |
+
size 10239
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 128,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
|
3 |
+
size 17082987
|
tokenizer_config.json
ADDED
@@ -0,0 +1,64 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"do_lower_case": true,
|
48 |
+
"eos_token": "</s>",
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"max_length": 128,
|
51 |
+
"model_max_length": 128,
|
52 |
+
"pad_to_multiple_of": null,
|
53 |
+
"pad_token": "<pad>",
|
54 |
+
"pad_token_type_id": 0,
|
55 |
+
"padding_side": "right",
|
56 |
+
"sep_token": "</s>",
|
57 |
+
"stride": 0,
|
58 |
+
"strip_accents": null,
|
59 |
+
"tokenize_chinese_chars": true,
|
60 |
+
"tokenizer_class": "BertTokenizer",
|
61 |
+
"truncation_side": "right",
|
62 |
+
"truncation_strategy": "longest_first",
|
63 |
+
"unk_token": "<unk>"
|
64 |
+
}
|
unigram.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:da145b5e7700ae40f16691ec32a0b1fdc1ee3298db22a31ea55f57a966c4a65d
|
3 |
+
size 14763260
|