Announcing UA-Code-Bench: a New Benchmark for Evaluating LLMs on Competitive Programming Tasks in Ukrainian
Dataset: https://huggingface.co/datasets/anon-researcher-ua/ua-code-bench
UPD 08.08.2025: added gpt-oss evals
UA translation below: click
With 5,500 graded interactions across 500 diverse programming problems, this benchmark offers a valuable lens into how state-of-the-art models reason and generate Python code when challenged with real-world tasks written in Ukrainian.
Why It Matters
Most benchmarks for language models focus on English or a few high-resource languages. But many real-world users work in other languages – like Ukrainian – where models often perform worse or behave unpredictably.
UA-Code-Bench helps address this gap. Unlike basic text generation, solving programming problems requires the model to fully understand the task described in Ukrainian and generate a correct solution that passes all test cases. This should be a much more reliable way to check how well a model actually understands the language. That makes UA-Code-Bench a helpful tool for evaluating real capabilities in underrepresented languages.
What's Inside
500 Eolymp Basecamp problems (100 per tier: from very easy to extra hard) totaling 5,500 evaluations
Graded Python solutions and reasoning traces by eleven proprietary and open-weight LLMs
Verdicts and numeric scores from Eolymp's official online judge
📌 Note: As requested by the Eolymp team, original problem texts are not included. We only provide automatically generated summaries, which may vary in quality.
Evaluated Models
All evaluations were conducted between April–August 2025 via paid API access and compute instances. Solutions were judged inside a private pay-per-seat Eolymp workspace, ensuring consistent and fair scoring.
Coming Soon
We're just getting started. In the next few weeks, expect:
📄 Research paper with deeper analysis and more insights
🛠 Public benchmark repo for automated evaluation
🇺🇦 Fine-tuned Ukrainian model for code generation
🧠 Grok-4 benchmark results
Intended use & limitations
This benchmark is provided exclusively for non-commercial research on algorithmic reasoning and code generation in low-resource languages. Commercial usage or redistribution of original statements is prohibited.
License
- Dataset summaries & metadata: released under CC-BY-NC-4.0.
- Original problem statements remain © EOLYMP ACADEMY, S.L. – all rights reserved; they are not redistributed here and are referenced by URL only.
- Users must also comply with the Eolymp Terms of Service when accessing any original statements.
Представляємо UA-Code-Bench – новий бенчмарк для оцінювання великих мовних моделей на задачах з алгоритмічного програмування українською
Набір даних: https://huggingface.co/datasets/anon-researcher-ua/ua-code-bench
З 5,500 оціненими рішеннями та 500 задачами, UA-Code-Bench демонструє, як сучасні LLM-моделі міркують і генерують Python-код, коли стикаються з реальними завданнями, описаними українською.
Навіщо це потрібно
Більшість бенчмарків орієнтовано на англійську або інші мови із великою кількістю даних. Проте багато користувачів працюють з іншими мовами – зокрема українською, де моделі нерідко показують нижчу або нестабільну якість.
UA-Code-Bench частково розв’язує цю проблему. На відміну від простої генерації тексту, розв’язання задач з програмування вимагає, щоб модель повністю зрозуміла умову українською і видала коректний код, який проходить усі тест-кейси. Це більш надійний спосіб перевірити реальне розуміння мови та логіки моделі в умовах недостатньої кількості даних.
Що містить набір
500 задач з Eolymp Basecamp (по 100 на кожен рівень складності – від «дуже легко» до «дуже складно»), загалом 5 500 оцінювань
Оцінені Python-рішення та ланцюжки міркувань від одинадцяти LLM-моделей (відкритих і пропрієтарних)
Вердикти та бали офіційного онлайн-судді Eolymp
📌 За запитом команди Eolymp оригінальні умови задач не додаються. Ми надаємо лише автоматично згенеровані короткі резюме, які можуть відрізнятися за якістю
Оцінені моделі
Усі оцінювання проведено у період квітень – серпень 2025 через API провайдерів моделей. Рішення перевірялися у приватному платному робочому просторі Eolymp, що гарантує послідовність та справедливість балів.
Плани
Наша робота тільки починається. Упродовж кількох тижнів очікуйте:
📄 Препринт з глибшим аналізом
🛠 Публічний репозиторій для автоматизованого тестування
🇺🇦 Натреновану українську модель генерації коду
🧠 Результати для Grok-4
Призначення та обмеження
Доступ до UA-Code-Bench надається виключно для некомерційних досліджень з алгоритмічного міркування та генерації коду. Комерційне використання або повторне поширення оригінальних умов задач заборонене.
Ліцензія
Набір даних – CC-BY-NC-4.0.
Оригінальні умови задач залишаються © EOLYMP ACADEMY, S.L. – усі права захищені; не поширюються у цьому репозиторії та посилаються лише за URL.
Користувачі також мають дотримуватися Правил користування Eolymp при доступі до будь-яких оригінальних матеріалів.