BERT Amharic Text Embedding Small

This is a sentence-transformers model finetuned from rasyosef/bert-small-amharic on the json dataset. It maps sentences & paragraphs to a 512-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: rasyosef/bert-small-amharic
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 512 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 512, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/bert-amharic-embed-small")
# Run inference
sentences = [
    '“ጠይቄ አስጠየቄ እስኪ ልቋጠራት፣ የእነ ብረት አስጥል የእነ ንቦ ዘር ናት”',
    '“ጠይቄ አስጠየቄ እስኪ ልቋጠራት፣የእነ ብረት አስጥል የእነ ንቦ ዘር ናት”ማኅጸነ ለምለም፣ ዙፋን ላይ ሆና የምትፈርድ፣ ሲርብ በእናት አንጄት የምታጎርስ፣ ሲከፋ የምትዳስስ፣ ሲታረዙ የምታለብስ፣ ሀገር ሲጠቃ የምትተኩስ ሴት ከወዴት አለች? ቢባል ከኢትዮጵያ ነው።እንደ እናት ታዝናለች፣ ትፀልያለች፣ አሳምራ ታሳድጋለች፣ እንደ አባት ታስታጥቃለች፣ ለራሷም ትታጠቃለች፣ እንደ አርበኛ ትተኩሳለች፣ መቀነት ታጥቃ እንዳይፈታ አጥብቃ ጠላትን በመመለስ ለሀገር ጠበቃ ትሆናለች። የሌላው ዓለም እናት ጀግና ልትወልድ ትችላለች፣ የኢትዮጵያ እናት ግን ጀግና ወላድ ብቻ ሳትሆን ጀግናም ናት።በኢትዮጵያ በተለያዩ ዘመናት በተደረጉ ጦርነቶች ሴቶች ደጀን ሆነው በመተኮስ፣ ወገን ሲጎዳ ደም በማበስ፣ ሲሞት አፈር በማልበስ፣ ሲራብ በማጉረስ፣ የከፋ ጉዳት እንዳይደርስ ስልት በመቀየስ ለተመዘገቡት ድሎች ሁሉ የሴቷ እጅ አለበት። ኢትዮጵያዊት እናት ፈሪ ልጅ አትወልድም፣ ፈሪ ሰው አትወድም። “ተኳሽ እወዳለሁ ገዳይም አልጣላ፣ ሲደክመኝ አርፋለሁ ከጎፈሬው ጥላ” እያለች እልፍ ጀግኖችን ታፈልቃለች።ኢትዮጵያዊ መሆን ያኮራል፣ ስሙ ብቻ ያስከብራል። ለምድር የተሰጠው ሁሉ በኢትዮጵያ ውስጥ አለ። ኢትዮጵያ ለዓለም መኖርና ለስልጣኔ መፈጠር ቀዳሚዋ ናት። ቀዳሚዋ ከሌለች ተከታዮቹ መኖር አይቻላቸውምና፣ ዳሩ ኢትዮጵያ የፈጣሪውን ቁጣ በፀሎት፣ የጠላትን በትር በጥይት የምትመልስ\xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 ሀገር ናትና ምንም አትሆንም።“ሀገራችን ኢትዮጵያን ባርካት ቀድሳት፣ ሰላም ስጣት ጠላቶቿን ፈጥነህ አስገዛላት፣ ዳሯን እሳት መሀሏን ገነት አድርግላት” የሚለው የካህኑ ልመና “ሰላም ይሁን የሚለው የሼሁ ዱዓ” የማይታዩ ነገር ግን የማይሸነፉ አሳልፈው የማይሰጡ የኢትዮጵያ ሚስጥራዊ ወታደሮች ናቸው። ለሚስጥር እና ለምስክር የተፈጠረች ሀገር ፍፃሜ ዓለም እስኪደርስ ድረስ ትቆያለች እንጂ አትሰጋም።የማይፈሩና የማይደፈሩ ምድራዊ ወታደሮች፣ ረቂቅ ሰማያዊ ጠባቂዎች ያሏት ሀገር ናት። ሰውና ፈጣሪ፣ ሰውና መላዕክት በስስት የሚመለከቷት አብዝተው የሚወዷት፣ በደስታ የሚጠብቋት ሀገር ናት ኢትዮጵያ። የዓለም ዓይኖች ሁሉ ሊያይዋት ይመኟታል። በክፉ ያዩዋት ይጠፉባታል። በመልካም ያዩዋት ደግሞ ይከብሩባታል። ኢትዮጵያ ለደጎች እንጂ ለክፉዎች ቦታ የላትም። መሰረቷም ደግነት፣ አንድነት፣ አርቆ አሳቢነት፣ ብልህነት፣ ጠበብትነት፣ አይደፈሬነት፣ ጀግንነት እና አሸናፊነት ነው።የራያን ምድር አይቼ፣ በባሕላቸው ተደስቼ፣ በፍቅራቸው ተረትቼ፣ የግራ ካሶን ዳገት ወጥቼ፣ ኮረምን ተመልክቼ በወፍላ ተራራዎች ተገኝቼ ነበር። ብርዱ ልብ ያንሰፈስፋል። እጅ ያደነዝዛል። ተራራዎቹ ፈታኞች ናቸው። በወፍላ ተራራዎች ከቆቦ ተነስቶ፣ በግራ ካሶ ታላቅ ጀብዱ ፈፅሞ፣ ኮረምን አረጋግቶ፣ ጠላቱን አፅድቶ የትህነግን ታጣቂ እየደመሰሰ የሄደው የአማራ ልዩ ኃይል አባላት ይገኙበል። በማይሸሸው ልባቸው፣ በሚያነጣጥረው ዓይናቸው አካባቢውን እየጠበቁት ነው።አጥንት በሚሰረስው ብርዳማ ተራራ በፅናት እና በኩራት ለወገንና ለሀገር የቆመውን ሠራዊት ሳይ ደነቀኝ። ለእኛ ሙቀት የሚሰጡት እነርሱ እየበረዳቸው ነው። ለእኛ መኖር እነርሱ ሞተው ነው። ለእኛ ሰላም ማደር እነርሱ እንቅልፍ አጥተው ነው። ለወገን መልካም ሕይወት ሲሉ የእነርሱ ሕይወት በዱር በገደል፣ በተራራ በጉድብ ሆኗል። መታደል ነውና ይሁን ብዬ አለፍኩ።ትጥቅና ስንቅ አንግተው፣ በእግራቸው እየተጓዙ፣ በግራ ካሶ ተራራ እየተኮሱ ድል እየነሱ የሄዱና በወፍላ ተራራዎች ለወገን ዘብ የቆሙ ሴቶችን አየሁ። “ገና ሲወለድ እራሱን ሲላጭ፣ ይቅለበለባል እጁ ከምላጭ” እንዳለ እጃቸው ከመሳሪያቸው ምላጭ አጠገብ አይታጣም። ዓይናቸው እንደ ንስር ነው። አካባቢውን በንቃት ይመለከታሉ። የሴትነት ውበት አላሳሰባቸውም አፈር ምሰው ድንጋይ ተንተርሰው ያድራሉ እንጂ። የእነርሱ ውበት የወገናቸው ሰላምና ደስታ ነው። ስለወኔያቸውን በአንደበታቸው መስማት ፈለኩ። አናገርኳቸው። ጀግኖች ብቻ ሳይሆኑ ትሁትም ናቸው። በዚያ ውጊያ መሪና ተመሪ አልነበረም። መሪው ቀድሞ ይገባል። ስልት እየቀየሰ ራሱም እየተኮሰ ነበር የሚገባው። ይህ ደግሞ ለልዩ ኀይሉ መነሳሳት የፈጠረ ነበር። ሴት የልዩ ኀይል አባላት ከወንድ የልዩ ኃይል አባላት እኩል ግዳጅ ሲፈፅሙ እንደነበር ጓደኞቻቸው መስክረውላቸዋል። ከነብስ ወከፍ መሳሪያ ጀምሮ እንደ ወንዶች እኩል በመተኮስ፣ ለተራበ በማጉረስ፣ ለተጠማ በማጠጣት ተጋድሎ ሲያደርጉ እንደነበርም ተናግረውላቸዋል።ሴት የልዩ ኀይል አባላት የሚያሳዩት ጀብዱ ሠራዊቱ ለተጨማሪ ድል እንዲነሳሳ እንዳደረጋቸው ጓደኞቻቸው ነግረውኛል። የትኛውንም ጀብዱ ይፈፅማሉ ነው ያሏቸው።ምክትል ሳጅን ሕይወት አደመ፣ ኮንስታብል ማስተዋል አወቀና ኮንስታብል ሳዳ ሁሴን በወፍላ ተራራዎች ያገኜኋቸው ጀግኖች ናቸው። በዚያ ብርዳማ ስፍራ በወኔ ቆመዋል። ስለ አየር ንብረቱ ሲጠየቁ ለሀገር ዘብ ሲቆም ሁሉም ነገር ቀላል ነው ይላሉ። በነበረው ዘመቻ በግራ ካሶ ላይ ከጠላት በኩል በከባድ መሳሪያ የታገዘ ውጊያ ነበር፣ በያዝነው መሳሪያ መልስ እየሰጠን የጠላትን ምሽግ አፍርሰናል፣ ድል አድርገንም እዚህ ተገኝተናል ነው ያሉት።ሴት ወንድ ሳንል ለኢትዮጵያ እና ለኢትዮጵያውያን ጠላት የሆነውን አስወግደናል ወደፊትም እናስወግዳለን ነው ያሉኝ። ሀሳባቸው በክልል የተወሰነ አለመሆኑን እና ትግላቸው እንደ ኢትዮጵያ መሆኑንም ነግረውኛል። እኛ የአማራነት ጀግንነታችንን ተጠቅመን ለኢትዮጵያ እንቆማለንም ብለውኛል። በውትድርና ሕይወት በተለይም በውጊያ ወቅት ረሃብና ጥም አለ፤ ይህ ግን ለእነዚያ ሴት የልዩ ኃይል አባላት ካላማቸው አላስቀራቸውም።ለአማራና ለመላው የኢትዮጵያ ሕዝብ ሲባል ድካም አይደለም ሌላ ነገር ቢመጣ አይቆጨንም፣ ሁሉም በያለበት በወኔና በቁርጠኝነት መሥራት አለበት ነው ያሉት። “ኢትዮጵያዊነት እና ኢትዮጵያውያን እስከ መቼ ነው የሚጨቆኑት የሚለው ለትግል አስነስቶናል፣ በቀጣይም ለሚኖር ግዳጅ ወደኋላ አንልም፣ ለኢትዮጵያ አለንላት፣ ጀግንነታችንና ወኔያችን የተሟላ ነው፣ አይዞሽ እናታለም፣ ኩራትሽ ነን” ሲሉ ነበር በወፍላ ተራራዎች ካገኘኋቸው ጀግና ሴት የልዩ ኃይል አባላት የሰማሁት።“ጥንካሬ፣ ቆራጥነት፣ ፍቅርና አይበገሬነት አለባቸው። ኢትዮጵያን ሰላም እናደርጋታለን፣ ጀግንነታችን እና ወኔያችን ስንቅ አድርገን እንቀጥላለን፣ ኢትዮጵያም በእኛ ትኮራለች” ነበር ያሉኝ።ሴት የልዩ ኃይል አባላት የቀደሙት ጀግና ኢትዮጵያዊ እናቶችን ታሪክ ለመድገም ዝግጁ እንደሆኑም ነግረውኛል።ኢትዮጵያ ጉድብ ውስጥ አድራ አይዞሽ እናታለም አለሁልሽ የምትል ጀግና ሴት እና ከሞቀ ቤት እያደረ ሀብቷን የሚዘርፍ በጉያዋ ይዛለች። በአንደኛዋ ትኮራለች በአንደኛው ታዝናለች። መኩሪያ መሆን ቢያቅት ማፈሪያ ላለመሆን መሥራት መልካም ነው።“ጠይቄ አስጠየቄ እስኪ ልቋጠራት፣የእነ ብረት አስጥል የእነ ንቦ ዘር ናት” አዎ ጠይቄ ዘሯን አውቂያለሁ። ኩሩ ኢትዮጵያዊት ናት። ኩሩ ኢትዮጵያውያን ናቸው። እንዲህ አይነት ሴት ድሮስ ከዬት ሊገኝና፣ ብንችል ኢትዮጵያ ትኩራብን፣ ሰንደቁ ከፍ ይበልልን፣ ባንችል ግን ኢትዮጵያ አትፈርብን፣ ክብር ሁሉ ኢትዮጵያን ላከበሯት።',
    '«የእኔ ዕድሜ እኮዮች የተማርነው እንዴት ነበር?» ሲል ይጠይቃል የዛሬው የጋቢና ቴክ ተረኛ አቅራቢ ሀብታሙ ስዩም።ደግሞም ለራሱ ይመልሳል «ደብተር እና ብዕር ሸክፈን ፣መምህር አለበት ወደተባለበት ትምህርት ቤት በአጀብ ተመን አልነበረምን?» በማለት። የቀጣይ ዘመን ትምህርት ግን ከዚያ ልማድ ለወጥ የሚል መሆኑን ፍንጭ የሚያሳዩ ግኝቶች ብቅ ብለዋል። ወደ ትምህርት ቤት ከሚያቀኑ ብላቴናዎች ይልቅ ወደ ብላቴናዎች የሚመጣ ትምህርት፣እና መምህር ልናይ እንችላለን ።ለዚያ ማሳያ እንዲሆን ስለ አንድ የበይነመረብ ላይ አስኳላ፣ በቀጣይ ዘገባው ይነግረናል ።ሙሉ መሰናዶውን ያዳምጡ ፦\n ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 512]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_512 dim_256 dim_128
cosine_accuracy@1 0.5817 0.5706 0.5554
cosine_accuracy@3 0.7312 0.7242 0.7048
cosine_accuracy@5 0.7857 0.7781 0.7573
cosine_accuracy@10 0.839 0.8323 0.8229
cosine_precision@1 0.5817 0.5706 0.5554
cosine_precision@3 0.2437 0.2414 0.2349
cosine_precision@5 0.1571 0.1556 0.1515
cosine_precision@10 0.0839 0.0832 0.0823
cosine_recall@1 0.5817 0.5706 0.5554
cosine_recall@3 0.7312 0.7242 0.7048
cosine_recall@5 0.7857 0.7781 0.7573
cosine_recall@10 0.839 0.8323 0.8229
cosine_ndcg@10 0.7097 0.7008 0.6864
cosine_mrr@10 0.6684 0.6587 0.643
cosine_map@100 0.6735 0.664 0.6483

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 40,237 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 15.12 tokens
    • max: 44 tokens
    • min: 46 tokens
    • mean: 304.71 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    ሚንስትር ዴኤታ ወይዘሮ አለም-ፀሀይ የአርባ ምንጭ ሆስፒታልና የኮቪድ-19 ሕክምና ማዕከልን ጎበኙ አዲስ አበባ፣ መስከረም 13፣ 2013 (ኤፍ.ቢ.ሲ) የጤና ሚኒስቴር ሚንስትር ዴኤታ ወይዘሮ አለምፀሀይ ጳውሎስ በደቡብ ክልል ጋሞ ዞን የአርባ ምንጭ ከተማ ሆስፒታል እና ጤና ጣቢያ ጎብኙ፡፡እንዲሁም በኮቪድ-19 የህክምና ማዕከል ተገኝተው ያለውን የስራ እንቅስቃሴ መመልከታቸውም ተገልጸል፡፡ሚኒስትር ዴኤታዋ በጉብኝቱ ወቅት የህክምና ተቋማቱ ለአካባቢ ነዋሪዎች እየሰጡ ያለውን ዘርፈ ብዙ አገልግሎት እና ለኮቪድ 19 ወረርሽኝ የመከላከልና የመቆጣጠር ምላሽ አሠጣጥ የሚበረታታና ውጤታማ እንደሆነ ተናግረዋል፡፡በዚህም ለማዕከሉ ሰራተኞች ምስጋናቸውን አቅርበዋል፡፡የተቋማቱ ስራ ኃላፊዎችም ከሚኒስትር ዴኤታዋ ጋር መወያየታቸው ተሰምቷል፡፡ኃላፊዎቹ አገልግሎታቸውን በተሟላ መንገድ ለመስራት አያስችሉንም ያሏቸውን ጉድለቶች አንስተው ውይይት አድረገውባቸዋል፡፡የህክምና ተቋማቱ ያሉበት የስራ አፈጻጸም የሚበረታታ ቢሆንም ለተሻለ ስራ መነሳትና የጤና አገልግሎቱን ይበልጥ ማሻሻል ያስፈልጋል ሲሉ ሚኒስትር ዴኤታዋ ማሳሰባቸውን ከሚኒስቴሩ ያገኘነው መረጃ ያመለክታል፡፡
    መምህራን በትምህርት ቤቶችና በአከባቢያቸው ሰላም እንዲረጋገጥ የበኩላቸውን ሚና እንዲወጡ ተጠየቁ መምህራን በትምህርት ቤቶችና በአከባቢያቸው ሰላም እንዲረጋገጥ የበኩላቸውን ሚና እንዲወጡ ተጠይቀዋል፡፡የሰላም ሚኒስቴር ከሳይንስና ከፍተኛ ትምህርት ሚኒስቴርና የኢትዮጵያ መምህራን ማህበር ጋር በመተባበር ያዘጋጁት ሀገር አቀፍ መምህራን የሰላም ውይይት መድረክ በአዲስ አበባ እየተካሄደ ነው፡፡በዚህ የውይይት መድረክ ላይ የሰላም ሚኒስትሯ ወይዘሮ ሙፈሪያት ካሚልን ጨምሮ ሌሎች ባለድርሻ  አካላት ተገኝተዋል፡፡ውይይቱ “ሰላምና ሀገር ወዳድ መምህራኖች ፤ ሰላምና ሀገር ወዳድ ተማሪዎችን ያፈራሉ” በሚል መሪ ቃል እየተካሄደ የሚገኝ ሲሆን መምህራን በትምህርት ቤቶችና በአከባቢያቸው ሰላም እንዲረጋገጥ የበኩላቸውን ሚና እንዲወጡ ተጠይቀዋል፡፡በውይይቱ ንግግር ያደረጉት የሰላም ሚኒስትር ወይዘሮ ሙፈሪያት ካሚል መምህራን ትውልድን መቅረጽ ካላቸው እድል አንፃር ሰላምን በመስበክ በኩል ከፍተኛ አስተዋጽኦ ሊያበርክቱ ይገባል ብለዋል፡፡ሀገራዊ ግንባታ ትምህርትና የተሟላ ስብዕና የሚጠይቅ በመሆኑም ለማህበረሰብ ስብዕናና የበለጸገ ትውልድን በመፍጠር ረገድ የመምህራን ሚና ክፍተኛ መሆኑንም ተናግረዋል።ትምህርት ቤቶች የሰላም ማዕድ ይሆኑ ዘንድም መምህራን እያከናዎኑት ያለውን ትውልድን የመቅረጽ ተግባር አጠናክረው መቀጠል እንዳለባቸውም ወይዘሮ ሙፈሪያት አሳስበዋል፡፡     በውይይቱ ላይ አስተያየት የሰጡት መምህራን በበኩላቸው ሰላም ሁሉንም የሚመለከት ጉዳይ በመሆኑ ሰላምን በመስበክና በማረጋገጥ ረገድ ከመንግስት ጋር በመሆን የሚጠበቅባቸውን ኃላፊነት እንደሚወጡ ገልጸዋል፡፡በተለይም የስነ ዜጋ፣ ስነ ምግባርና የታሪክ ትምህርት መምህራን ለተማሪዎች በሚያቀርቡት ትምህርት ላይ ሚዛናዊና ኃላፊነት በተሞላበት መንገድ ማቅረብ እንዳለባቸውም ጠቁመዋል፡፡  መምህሩ በስነ ምግባር አርዓያ በመሆን ሰላምና ግብ...
    የኢትዮጵያ እና ማሊ ከ17 አመት በታች ብሄራዊ ቡድኖች ጨዋታ እሁድ ይካሄዳል በአዲስ አበባ ስታድየም እየተዘጋጀ የሚገኘው ብሄራዊ ቡድኑ በዛሬው የልምምድ መርሃ ግብር በእሁዱ ጨዋታ ላይ ቋሚ ተሰላፊዎች ይሆናሉ ተብለው የሚገመቱትን በመለየት የቅንጅትና ከርቀት አክርሮ የመምታት ልምምዶችን አከናውኗል፡፡ባለፉት ሶስት ቀናት በመጠነኛ ጉዳት በልምምድ ወቅት አቋርጠው ሲወጡ የነበሩት ሳሙኤል ተስፋዬ እና አቡበከር ነስሩ በዛሬው ልምምድ ከቡድኑ ጋር ሙሉ ልምምድ የሰሩ ሲሆን ሁሉም ተጨዋቾች በሙሉ ጤንነት ላይ ይገኛሉ፡፡ከ17 አመት ቡድናችን እሁድ ዕለት ከአፍሮ ፅዮን ጋር ባደረጉት የአቋም መፈተሻ ጨዋታ ላይ ከአፍሮፅዮን በኩል መልካም እንቅስቃሴ ያሳዩ 6 ተጨዋቾች ጥሪ ቀርቦላቸው በዛሬው ልምምድ ላይ ተገኝተው ከቡድኑ ጋር ልምምድ ያደረጉ ቢሆንም አሳማኝ እንቅስቃሴ ባለማሳየታቸው እንዲመለሱ ተደርጓል፡፡ቀይ ቀበሮዎቹ በእሁዱ ጨዋታ በባማኮ የደረሰባቸውን የ2-0 ሽንፈት ቀልብሰው ወደ ማዳጋስካር የአፍሪካ ከ17 አመት በታች ዋንጫ ለማምራት በከፍተኛ ተነሳሽነት እና ፍላጎት ዝግጅታቸውን በማከናወን ላይ እንደሚገኙ ለመታዘብ ችለናል፡፡በኢትዮጵያ እና ማሊ መካከል የሚደረገው ጨዋታ እሁድ መስከረም 22 ቀን 2009 በአዲስ አበባ ስታድየም 10:00 ላይ የሚካሄድ ሲሆን ጨዋታው የሚካሄድበት የአዲስ አበባ ስታድየም ሜዳን ምቹ ለማድረግ የሚያስችሉ ስራዎች እየተከናወኑ ይገኛሉ፡፡የእሁዱ ተጋጣሚያችን የማሊ ከ17 አመት በታች ብሄራዊ ቡድን አርብ አዲስ አበባ ይገባል፡፡ ጨዋታውን የሚመሩት አራቱም ዳኞች ከኒጀር ፤ ኮሚሽነሩ ደግሞ ከዩጋንዳ እንደተመደቡም ታውቋል፡፡
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            512,
            256,
            128
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • num_train_epochs: 5
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • seed: 16
  • fp16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 16
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_512_cosine_ndcg@10 dim_256_cosine_ndcg@10 dim_128_cosine_ndcg@10
0.0159 10 6.1922 - - -
0.0318 20 5.683 - - -
0.0477 30 4.6076 - - -
0.0636 40 3.9178 - - -
0.0795 50 3.1909 - - -
0.0954 60 2.3178 - - -
0.1113 70 2.1892 - - -
0.1272 80 1.9808 - - -
0.1431 90 1.8523 - - -
0.1590 100 1.6107 - - -
0.1749 110 1.4807 - - -
0.1908 120 1.4554 - - -
0.2067 130 1.2557 - - -
0.2226 140 1.0496 - - -
0.2385 150 1.1565 - - -
0.2544 160 1.0481 - - -
0.2703 170 1.1281 - - -
0.2862 180 0.9192 - - -
0.3021 190 0.9497 - - -
0.3180 200 1.1644 - - -
0.3339 210 0.9211 - - -
0.3498 220 0.7702 - - -
0.3657 230 0.9992 - - -
0.3816 240 0.8142 - - -
0.3975 250 0.9276 - - -
0.4134 260 0.9904 - - -
0.4293 270 0.8621 - - -
0.4452 280 0.8776 - - -
0.4610 290 0.9268 - - -
0.4769 300 0.7601 - - -
0.4928 310 0.7721 - - -
0.5087 320 0.892 - - -
0.5246 330 0.799 - - -
0.5405 340 0.8818 - - -
0.5564 350 0.7317 - - -
0.5723 360 0.7622 - - -
0.5882 370 0.5545 - - -
0.6041 380 0.6964 - - -
0.6200 390 0.5674 - - -
0.6359 400 0.639 - - -
0.6518 410 0.6187 - - -
0.6677 420 0.53 - - -
0.6836 430 0.6975 - - -
0.6995 440 0.6865 - - -
0.7154 450 0.7152 - - -
0.7313 460 0.6455 - - -
0.7472 470 0.8349 - - -
0.7631 480 0.6589 - - -
0.7790 490 0.4648 - - -
0.7949 500 0.8056 - - -
0.8108 510 0.7058 - - -
0.8267 520 0.6845 - - -
0.8426 530 0.6203 - - -
0.8585 540 0.5678 - - -
0.8744 550 0.5013 - - -
0.8903 560 0.5113 - - -
0.9062 570 0.7517 - - -
0.9221 580 0.7173 - - -
0.9380 590 0.5379 - - -
0.9539 600 0.6434 - - -
0.9698 610 0.661 - - -
0.9857 620 0.6275 - - -
1.0 629 - 0.6487 0.6366 0.6134
1.0016 630 0.6426 - - -
1.0175 640 0.4163 - - -
1.0334 650 0.323 - - -
1.0493 660 0.3823 - - -
1.0652 670 0.3506 - - -
1.0811 680 0.3523 - - -
1.0970 690 0.4006 - - -
1.1129 700 0.4216 - - -
1.1288 710 0.3462 - - -
1.1447 720 0.3954 - - -
1.1606 730 0.3752 - - -
1.1765 740 0.3412 - - -
1.1924 750 0.3188 - - -
1.2083 760 0.3089 - - -
1.2242 770 0.4076 - - -
1.2401 780 0.4033 - - -
1.2560 790 0.3759 - - -
1.2719 800 0.3031 - - -
1.2878 810 0.34 - - -
1.3037 820 0.3209 - - -
1.3196 830 0.4039 - - -
1.3355 840 0.4197 - - -
1.3514 850 0.4107 - - -
1.3672 860 0.4421 - - -
1.3831 870 0.4072 - - -
1.3990 880 0.351 - - -
1.4149 890 0.3924 - - -
1.4308 900 0.3622 - - -
1.4467 910 0.453 - - -
1.4626 920 0.456 - - -
1.4785 930 0.3161 - - -
1.4944 940 0.36 - - -
1.5103 950 0.3308 - - -
1.5262 960 0.3496 - - -
1.5421 970 0.4545 - - -
1.5580 980 0.3517 - - -
1.5739 990 0.3289 - - -
1.5898 1000 0.3153 - - -
1.6057 1010 0.2682 - - -
1.6216 1020 0.3237 - - -
1.6375 1030 0.5514 - - -
1.6534 1040 0.331 - - -
1.6693 1050 0.3172 - - -
1.6852 1060 0.3119 - - -
1.7011 1070 0.3216 - - -
1.7170 1080 0.366 - - -
1.7329 1090 0.3386 - - -
1.7488 1100 0.3613 - - -
1.7647 1110 0.2997 - - -
1.7806 1120 0.3683 - - -
1.7965 1130 0.3361 - - -
1.8124 1140 0.3198 - - -
1.8283 1150 0.3168 - - -
1.8442 1160 0.4225 - - -
1.8601 1170 0.3533 - - -
1.8760 1180 0.3054 - - -
1.8919 1190 0.324 - - -
1.9078 1200 0.3282 - - -
1.9237 1210 0.3696 - - -
1.9396 1220 0.3376 - - -
1.9555 1230 0.3517 - - -
1.9714 1240 0.3707 - - -
1.9873 1250 0.4085 - - -
2.0 1258 - 0.6781 0.6690 0.6496
2.0032 1260 0.2562 - - -
2.0191 1270 0.146 - - -
2.0350 1280 0.1519 - - -
2.0509 1290 0.174 - - -
2.0668 1300 0.1505 - - -
2.0827 1310 0.2005 - - -
2.0986 1320 0.175 - - -
2.1145 1330 0.1652 - - -
2.1304 1340 0.1639 - - -
2.1463 1350 0.1513 - - -
2.1622 1360 0.2161 - - -
2.1781 1370 0.2236 - - -
2.1940 1380 0.175 - - -
2.2099 1390 0.1829 - - -
2.2258 1400 0.1969 - - -
2.2417 1410 0.1787 - - -
2.2576 1420 0.1719 - - -
2.2734 1430 0.199 - - -
2.2893 1440 0.1696 - - -
2.3052 1450 0.243 - - -
2.3211 1460 0.147 - - -
2.3370 1470 0.1672 - - -
2.3529 1480 0.1754 - - -
2.3688 1490 0.1704 - - -
2.3847 1500 0.1626 - - -
2.4006 1510 0.1574 - - -
2.4165 1520 0.1755 - - -
2.4324 1530 0.2045 - - -
2.4483 1540 0.1851 - - -
2.4642 1550 0.16 - - -
2.4801 1560 0.1617 - - -
2.4960 1570 0.1743 - - -
2.5119 1580 0.1801 - - -
2.5278 1590 0.1622 - - -
2.5437 1600 0.1189 - - -
2.5596 1610 0.1623 - - -
2.5755 1620 0.1791 - - -
2.5914 1630 0.1648 - - -
2.6073 1640 0.1429 - - -
2.6232 1650 0.1595 - - -
2.6391 1660 0.1805 - - -
2.6550 1670 0.1693 - - -
2.6709 1680 0.1707 - - -
2.6868 1690 0.1234 - - -
2.7027 1700 0.1523 - - -
2.7186 1710 0.1912 - - -
2.7345 1720 0.1842 - - -
2.7504 1730 0.1707 - - -
2.7663 1740 0.1669 - - -
2.7822 1750 0.1671 - - -
2.7981 1760 0.1556 - - -
2.8140 1770 0.181 - - -
2.8299 1780 0.2468 - - -
2.8458 1790 0.1781 - - -
2.8617 1800 0.2035 - - -
2.8776 1810 0.1384 - - -
2.8935 1820 0.1757 - - -
2.9094 1830 0.1578 - - -
2.9253 1840 0.1411 - - -
2.9412 1850 0.1233 - - -
2.9571 1860 0.1866 - - -
2.9730 1870 0.1817 - - -
2.9889 1880 0.1426 - - -
3.0 1887 - 0.7011 0.6929 0.6774
3.0048 1890 0.1389 - - -
3.0207 1900 0.0981 - - -
3.0366 1910 0.1092 - - -
3.0525 1920 0.0811 - - -
3.0684 1930 0.1088 - - -
3.0843 1940 0.1247 - - -
3.1002 1950 0.0908 - - -
3.1161 1960 0.1228 - - -
3.1320 1970 0.1174 - - -
3.1479 1980 0.0806 - - -
3.1638 1990 0.1071 - - -
3.1797 2000 0.0933 - - -
3.1955 2010 0.0983 - - -
3.2114 2020 0.1353 - - -
3.2273 2030 0.1105 - - -
3.2432 2040 0.1075 - - -
3.2591 2050 0.1245 - - -
3.2750 2060 0.0796 - - -
3.2909 2070 0.1145 - - -
3.3068 2080 0.0842 - - -
3.3227 2090 0.0875 - - -
3.3386 2100 0.1133 - - -
3.3545 2110 0.0804 - - -
3.3704 2120 0.1128 - - -
3.3863 2130 0.083 - - -
3.4022 2140 0.0811 - - -
3.4181 2150 0.1173 - - -
3.4340 2160 0.1428 - - -
3.4499 2170 0.1148 - - -
3.4658 2180 0.0666 - - -
3.4817 2190 0.1066 - - -
3.4976 2200 0.1332 - - -
3.5135 2210 0.0815 - - -
3.5294 2220 0.1139 - - -
3.5453 2230 0.1443 - - -
3.5612 2240 0.0941 - - -
3.5771 2250 0.0922 - - -
3.5930 2260 0.1059 - - -
3.6089 2270 0.1023 - - -
3.6248 2280 0.1157 - - -
3.6407 2290 0.0936 - - -
3.6566 2300 0.1118 - - -
3.6725 2310 0.1165 - - -
3.6884 2320 0.0694 - - -
3.7043 2330 0.1117 - - -
3.7202 2340 0.1241 - - -
3.7361 2350 0.116 - - -
3.7520 2360 0.0755 - - -
3.7679 2370 0.0841 - - -
3.7838 2380 0.1067 - - -
3.7997 2390 0.1273 - - -
3.8156 2400 0.1179 - - -
3.8315 2410 0.1003 - - -
3.8474 2420 0.1027 - - -
3.8633 2430 0.0939 - - -
3.8792 2440 0.1036 - - -
3.8951 2450 0.0976 - - -
3.9110 2460 0.1085 - - -
3.9269 2470 0.1157 - - -
3.9428 2480 0.0906 - - -
3.9587 2490 0.0957 - - -
3.9746 2500 0.0817 - - -
3.9905 2510 0.0949 - - -
4.0 2516 - 0.7047 0.6975 0.6825
4.0064 2520 0.1151 - - -
4.0223 2530 0.0958 - - -
4.0382 2540 0.0959 - - -
4.0541 2550 0.1126 - - -
4.0700 2560 0.0732 - - -
4.0859 2570 0.0783 - - -
4.1017 2580 0.1312 - - -
4.1176 2590 0.0888 - - -
4.1335 2600 0.0824 - - -
4.1494 2610 0.0695 - - -
4.1653 2620 0.0639 - - -
4.1812 2630 0.1038 - - -
4.1971 2640 0.1011 - - -
4.2130 2650 0.1012 - - -
4.2289 2660 0.0943 - - -
4.2448 2670 0.0834 - - -
4.2607 2680 0.0712 - - -
4.2766 2690 0.096 - - -
4.2925 2700 0.0788 - - -
4.3084 2710 0.1016 - - -
4.3243 2720 0.0905 - - -
4.3402 2730 0.0954 - - -
4.3561 2740 0.0747 - - -
4.3720 2750 0.1137 - - -
4.3879 2760 0.122 - - -
4.4038 2770 0.078 - - -
4.4197 2780 0.0517 - - -
4.4356 2790 0.096 - - -
4.4515 2800 0.0775 - - -
4.4674 2810 0.1207 - - -
4.4833 2820 0.1079 - - -
4.4992 2830 0.1411 - - -
4.5151 2840 0.0988 - - -
4.5310 2850 0.0666 - - -
4.5469 2860 0.0943 - - -
4.5628 2870 0.0698 - - -
4.5787 2880 0.0721 - - -
4.5946 2890 0.092 - - -
4.6105 2900 0.1138 - - -
4.6264 2910 0.0814 - - -
4.6423 2920 0.0951 - - -
4.6582 2930 0.0717 - - -
4.6741 2940 0.0791 - - -
4.6900 2950 0.0789 - - -
4.7059 2960 0.1098 - - -
4.7218 2970 0.1017 - - -
4.7377 2980 0.071 - - -
4.7536 2990 0.135 - - -
4.7695 3000 0.072 - - -
4.7854 3010 0.0995 - - -
4.8013 3020 0.0571 - - -
4.8172 3030 0.0884 - - -
4.8331 3040 0.0729 - - -
4.8490 3050 0.0951 - - -
4.8649 3060 0.1106 - - -
4.8808 3070 0.0896 - - -
4.8967 3080 0.0723 - - -
4.9126 3090 0.0745 - - -
4.9285 3100 0.0741 - - -
4.9444 3110 0.1112 - - -
4.9603 3120 0.0757 - - -
4.9762 3130 0.1096 - - -
4.9921 3140 0.0963 - - -
5.0 3145 - 0.7097 0.7008 0.6864
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.49.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.3.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
13
Safetensors
Model size
27.8M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for yosefw/bert-amharic-embed-small

Finetuned
(1)
this model

Evaluation results