{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "import json\n",
    "from pathlib import Path\n",
    "\n",
    "import gradio as gr\n",
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_leaderboard_df():\n",
    "    filepaths = list(Path(\"eval_results\").rglob(\"*.json\"))\n",
    "\n",
    "    # Parse filepaths to get unique models\n",
    "    models = set()\n",
    "    for filepath in filepaths:\n",
    "        path_parts = Path(filepath).parts\n",
    "        model_revision = \"_\".join(path_parts[1:4])\n",
    "        models.add(model_revision)\n",
    "\n",
    "    # Initialize DataFrame\n",
    "    df = pd.DataFrame(index=list(models))\n",
    "\n",
    "    # Extract data from each file and populate the DataFrame\n",
    "    for filepath in filepaths:\n",
    "        path_parts = Path(filepath).parts\n",
    "        date = filepath.stem.split(\"_\")[-1][:-3].split(\"T\")[0]\n",
    "        model_revision = \"_\".join(path_parts[1:4]) + \"_\" + date\n",
    "        task = path_parts[4].capitalize()\n",
    "        df.loc[model_revision, \"Date\"] = date\n",
    "\n",
    "        with open(filepath, \"r\") as file:\n",
    "            data = json.load(file)\n",
    "            first_result_key = next(iter(data[\"results\"]))  # gets the first key in 'results'\n",
    "            # TruthfulQA has two metrics, so we need to pick the `mc2` one that's reported on the leaderboard\n",
    "            if task.lower() == \"truthfulqa\":\n",
    "                value = data[\"results\"][first_result_key][\"truthfulqa_mc2\"]\n",
    "            # IFEval has several metrics but we report just the prompt-loose-acc one\n",
    "            elif task.lower() == \"ifeval\":\n",
    "                value = data[\"results\"][first_result_key][\"prompt_level_loose_acc\"]\n",
    "            # MMLU has several metrics but we report just the average one\n",
    "            elif task.lower() == \"mmlu\":\n",
    "                value = data[\"results\"][\"lighteval|mmlu:_average|5\"][\"acc\"]\n",
    "            # HellaSwag and ARC reports acc_norm\n",
    "            elif task.lower() in [\"hellaswag\", \"arc\"]:\n",
    "                value = data[\"results\"][first_result_key][\"acc_norm\"]\n",
    "            else:\n",
    "                first_metric_key = next(\n",
    "                    iter(data[\"results\"][first_result_key])\n",
    "                )  # gets the first key in the first result\n",
    "                value = data[\"results\"][first_result_key][first_metric_key]  # gets the value of the first metric\n",
    "            df.loc[model_revision, task] = value\n",
    "\n",
    "    # Put IFEval in first column\n",
    "    ifeval_col = df.pop(\"Ifeval\")\n",
    "    df.insert(1, \"Ifeval\", ifeval_col)\n",
    "    # Drop rows where every entry is NaN\n",
    "    df = df.dropna(how=\"all\", axis=0, subset=[c for c in df.columns if c != \"Date\"])\n",
    "    df.insert(loc=1, column=\"Average\", value=df.mean(axis=1, numeric_only=True))\n",
    "    # Convert all values to percentage\n",
    "    df[df.select_dtypes(include=[\"number\"]).columns] *= 100.0\n",
    "    df = df.sort_values(by=[\"Average\"], ascending=False)\n",
    "    df = df.reset_index().rename(columns={\"index\": \"Model\"}).round(2)\n",
    "    # Strip off date from model name\n",
    "    df[\"Model\"] = df[\"Model\"].apply(lambda x: x.rsplit(\"_\", 1)[0])\n",
    "    return df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "df = get_leaderboard_df()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Date</th>\n",
       "      <th>Average</th>\n",
       "      <th>Ifeval</th>\n",
       "      <th>Truthfulqa</th>\n",
       "      <th>Winogrande</th>\n",
       "      <th>Gsm8k</th>\n",
       "      <th>Mmlu</th>\n",
       "      <th>Hellaswag</th>\n",
       "      <th>Arc</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>NousResearch_Nous-Hermes-2-Yi-34B_main</td>\n",
       "      <td>2024-03-04</td>\n",
       "      <td>74.01</td>\n",
       "      <td>NaN</td>\n",
       "      <td>61.44</td>\n",
       "      <td>80.58</td>\n",
       "      <td>NaN</td>\n",
       "      <td>76.24</td>\n",
       "      <td>83.79</td>\n",
       "      <td>68.00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
       "      <td>2024-03-05</td>\n",
       "      <td>71.62</td>\n",
       "      <td>55.27</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>76.12</td>\n",
       "      <td>71.18</td>\n",
       "      <td>83.94</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main</td>\n",
       "      <td>2024-03-02</td>\n",
       "      <td>70.43</td>\n",
       "      <td>59.33</td>\n",
       "      <td>64.76</td>\n",
       "      <td>78.53</td>\n",
       "      <td>62.17</td>\n",
       "      <td>71.96</td>\n",
       "      <td>85.42</td>\n",
       "      <td>70.82</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>mistralai_Mixtral-8x7B-Instruct-v0.1_main</td>\n",
       "      <td>2024-03-02</td>\n",
       "      <td>69.80</td>\n",
       "      <td>55.08</td>\n",
       "      <td>70.79</td>\n",
       "      <td>73.56</td>\n",
       "      <td>59.89</td>\n",
       "      <td>70.60</td>\n",
       "      <td>86.68</td>\n",
       "      <td>72.01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
       "      <td>2024-03-04</td>\n",
       "      <td>67.03</td>\n",
       "      <td>NaN</td>\n",
       "      <td>57.78</td>\n",
       "      <td>79.16</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>64.16</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>269</th>\n",
       "      <td>HuggingFaceH4_starcoder2-15b-ift_v18.0</td>\n",
       "      <td>2024-03-10</td>\n",
       "      <td>11.23</td>\n",
       "      <td>21.63</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.83</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>270</th>\n",
       "      <td>HuggingFaceH4_mistral-7b-ift_v49.0</td>\n",
       "      <td>2024-03-07</td>\n",
       "      <td>10.07</td>\n",
       "      <td>20.15</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.00</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>271</th>\n",
       "      <td>HuggingFaceH4_starchat-beta_main</td>\n",
       "      <td>2024-03-12</td>\n",
       "      <td>8.13</td>\n",
       "      <td>8.13</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>272</th>\n",
       "      <td>HuggingFaceH4_starcoder2-15b-ift_v7.0</td>\n",
       "      <td>2024-03-10</td>\n",
       "      <td>7.88</td>\n",
       "      <td>12.57</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>3.18</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>273</th>\n",
       "      <td>HuggingFaceH4_zephyr-7b-beta-ift_v1.1</td>\n",
       "      <td>2024-03-13</td>\n",
       "      <td>4.71</td>\n",
       "      <td>9.43</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.00</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>274 rows × 10 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                Model        Date  Average  \\\n",
       "0              NousResearch_Nous-Hermes-2-Yi-34B_main  2024-03-04    74.01   \n",
       "1              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-05    71.62   \n",
       "2    NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main  2024-03-02    70.43   \n",
       "3           mistralai_Mixtral-8x7B-Instruct-v0.1_main  2024-03-02    69.80   \n",
       "4              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-04    67.03   \n",
       "..                                                ...         ...      ...   \n",
       "269            HuggingFaceH4_starcoder2-15b-ift_v18.0  2024-03-10    11.23   \n",
       "270                HuggingFaceH4_mistral-7b-ift_v49.0  2024-03-07    10.07   \n",
       "271                  HuggingFaceH4_starchat-beta_main  2024-03-12     8.13   \n",
       "272             HuggingFaceH4_starcoder2-15b-ift_v7.0  2024-03-10     7.88   \n",
       "273             HuggingFaceH4_zephyr-7b-beta-ift_v1.1  2024-03-13     4.71   \n",
       "\n",
       "     Ifeval  Truthfulqa  Winogrande  Gsm8k   Mmlu  Hellaswag    Arc  \n",
       "0       NaN       61.44       80.58    NaN  76.24      83.79  68.00  \n",
       "1     55.27         NaN         NaN  76.12  71.18      83.94    NaN  \n",
       "2     59.33       64.76       78.53  62.17  71.96      85.42  70.82  \n",
       "3     55.08       70.79       73.56  59.89  70.60      86.68  72.01  \n",
       "4       NaN       57.78       79.16    NaN    NaN        NaN  64.16  \n",
       "..      ...         ...         ...    ...    ...        ...    ...  \n",
       "269   21.63         NaN         NaN   0.83    NaN        NaN    NaN  \n",
       "270   20.15         NaN         NaN   0.00    NaN        NaN    NaN  \n",
       "271    8.13         NaN         NaN    NaN    NaN        NaN    NaN  \n",
       "272   12.57         NaN         NaN   3.18    NaN        NaN    NaN  \n",
       "273    9.43         NaN         NaN   0.00    NaN        NaN    NaN  \n",
       "\n",
       "[274 rows x 10 columns]"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Ifeval</th>\n",
       "      <th>Truthfulqa</th>\n",
       "      <th>Winogrande</th>\n",
       "      <th>Gsm8k</th>\n",
       "      <th>Mmlu</th>\n",
       "      <th>Hellaswag</th>\n",
       "      <th>Arc</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>HuggingFaceH4_mistral-7b-ift_v41.0</td>\n",
       "      <td>44.36</td>\n",
       "      <td>49.35</td>\n",
       "      <td>72.93</td>\n",
       "      <td>37.30</td>\n",
       "      <td>60.82</td>\n",
       "      <td>79.70</td>\n",
       "      <td>58.36</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>HuggingFaceH4_mistral-7b-ift_v41.1</td>\n",
       "      <td>47.32</td>\n",
       "      <td>47.89</td>\n",
       "      <td>72.69</td>\n",
       "      <td>36.32</td>\n",
       "      <td>60.34</td>\n",
       "      <td>79.57</td>\n",
       "      <td>57.51</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>HuggingFaceH4_mistral-7b-ift_v41.10</td>\n",
       "      <td>32.72</td>\n",
       "      <td>51.05</td>\n",
       "      <td>72.45</td>\n",
       "      <td>25.93</td>\n",
       "      <td>59.75</td>\n",
       "      <td>81.92</td>\n",
       "      <td>59.22</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>HuggingFaceH4_mistral-7b-ift_v41.11</td>\n",
       "      <td>37.89</td>\n",
       "      <td>51.05</td>\n",
       "      <td>64.56</td>\n",
       "      <td>17.59</td>\n",
       "      <td>57.60</td>\n",
       "      <td>77.65</td>\n",
       "      <td>55.89</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>HuggingFaceH4_mistral-7b-ift_v41.12</td>\n",
       "      <td>37.89</td>\n",
       "      <td>45.94</td>\n",
       "      <td>63.30</td>\n",
       "      <td>21.15</td>\n",
       "      <td>58.50</td>\n",
       "      <td>74.94</td>\n",
       "      <td>52.73</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>258</th>\n",
       "      <td>mistralai_Mistral-7B-Instruct-v0.2_main</td>\n",
       "      <td>53.97</td>\n",
       "      <td>70.68</td>\n",
       "      <td>68.82</td>\n",
       "      <td>38.13</td>\n",
       "      <td>59.43</td>\n",
       "      <td>83.45</td>\n",
       "      <td>65.70</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>259</th>\n",
       "      <td>mistralai_Mixtral-8x7B-Instruct-v0.1_main</td>\n",
       "      <td>55.08</td>\n",
       "      <td>70.79</td>\n",
       "      <td>73.56</td>\n",
       "      <td>59.89</td>\n",
       "      <td>70.60</td>\n",
       "      <td>86.68</td>\n",
       "      <td>72.01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>260</th>\n",
       "      <td>openchat_openchat-3.5-0106_main</td>\n",
       "      <td>54.71</td>\n",
       "      <td>57.55</td>\n",
       "      <td>72.53</td>\n",
       "      <td>66.19</td>\n",
       "      <td>63.72</td>\n",
       "      <td>80.10</td>\n",
       "      <td>61.01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>261</th>\n",
       "      <td>stabilityai_stablelm-zephyr-3b_main</td>\n",
       "      <td>34.75</td>\n",
       "      <td>46.19</td>\n",
       "      <td>58.41</td>\n",
       "      <td>40.18</td>\n",
       "      <td>45.18</td>\n",
       "      <td>71.57</td>\n",
       "      <td>45.82</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>262</th>\n",
       "      <td>teknium_OpenHermes-2.5-Mistral-7B_main</td>\n",
       "      <td>52.68</td>\n",
       "      <td>58.62</td>\n",
       "      <td>72.14</td>\n",
       "      <td>54.06</td>\n",
       "      <td>63.01</td>\n",
       "      <td>82.34</td>\n",
       "      <td>62.97</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>263 rows × 8 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                         Model  Ifeval  Truthfulqa  \\\n",
       "0           HuggingFaceH4_mistral-7b-ift_v41.0   44.36       49.35   \n",
       "1           HuggingFaceH4_mistral-7b-ift_v41.1   47.32       47.89   \n",
       "2          HuggingFaceH4_mistral-7b-ift_v41.10   32.72       51.05   \n",
       "3          HuggingFaceH4_mistral-7b-ift_v41.11   37.89       51.05   \n",
       "4          HuggingFaceH4_mistral-7b-ift_v41.12   37.89       45.94   \n",
       "..                                         ...     ...         ...   \n",
       "258    mistralai_Mistral-7B-Instruct-v0.2_main   53.97       70.68   \n",
       "259  mistralai_Mixtral-8x7B-Instruct-v0.1_main   55.08       70.79   \n",
       "260            openchat_openchat-3.5-0106_main   54.71       57.55   \n",
       "261        stabilityai_stablelm-zephyr-3b_main   34.75       46.19   \n",
       "262     teknium_OpenHermes-2.5-Mistral-7B_main   52.68       58.62   \n",
       "\n",
       "     Winogrande  Gsm8k   Mmlu  Hellaswag    Arc  \n",
       "0         72.93  37.30  60.82      79.70  58.36  \n",
       "1         72.69  36.32  60.34      79.57  57.51  \n",
       "2         72.45  25.93  59.75      81.92  59.22  \n",
       "3         64.56  17.59  57.60      77.65  55.89  \n",
       "4         63.30  21.15  58.50      74.94  52.73  \n",
       "..          ...    ...    ...        ...    ...  \n",
       "258       68.82  38.13  59.43      83.45  65.70  \n",
       "259       73.56  59.89  70.60      86.68  72.01  \n",
       "260       72.53  66.19  63.72      80.10  61.01  \n",
       "261       58.41  40.18  45.18      71.57  45.82  \n",
       "262       72.14  54.06  63.01      82.34  62.97  \n",
       "\n",
       "[263 rows x 8 columns]"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "new_df = df.drop([\"Date\", \"Average\"], axis=1).groupby(\"Model\").max().reset_index()\n",
    "new_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Date</th>\n",
       "      <th>Ifeval</th>\n",
       "      <th>Truthfulqa</th>\n",
       "      <th>Winogrande</th>\n",
       "      <th>Gsm8k</th>\n",
       "      <th>Mmlu</th>\n",
       "      <th>Hellaswag</th>\n",
       "      <th>Arc</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>NousResearch_Nous-Hermes-2-Yi-34B_main</td>\n",
       "      <td>2024-03-04</td>\n",
       "      <td>39.00</td>\n",
       "      <td>61.44</td>\n",
       "      <td>80.58</td>\n",
       "      <td>67.93</td>\n",
       "      <td>76.24</td>\n",
       "      <td>83.79</td>\n",
       "      <td>68.00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
       "      <td>2024-03-05</td>\n",
       "      <td>55.27</td>\n",
       "      <td>57.78</td>\n",
       "      <td>79.16</td>\n",
       "      <td>76.12</td>\n",
       "      <td>71.18</td>\n",
       "      <td>83.94</td>\n",
       "      <td>64.16</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main</td>\n",
       "      <td>2024-03-02</td>\n",
       "      <td>59.33</td>\n",
       "      <td>64.76</td>\n",
       "      <td>78.53</td>\n",
       "      <td>62.17</td>\n",
       "      <td>71.96</td>\n",
       "      <td>85.42</td>\n",
       "      <td>70.82</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>mistralai_Mixtral-8x7B-Instruct-v0.1_main</td>\n",
       "      <td>2024-03-02</td>\n",
       "      <td>55.08</td>\n",
       "      <td>70.79</td>\n",
       "      <td>73.56</td>\n",
       "      <td>59.89</td>\n",
       "      <td>70.60</td>\n",
       "      <td>86.68</td>\n",
       "      <td>72.01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>deepseek-ai_deepseek-llm-67b-chat_main</td>\n",
       "      <td>2024-03-04</td>\n",
       "      <td>55.27</td>\n",
       "      <td>57.78</td>\n",
       "      <td>79.16</td>\n",
       "      <td>76.12</td>\n",
       "      <td>71.18</td>\n",
       "      <td>83.94</td>\n",
       "      <td>64.16</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>269</th>\n",
       "      <td>HuggingFaceH4_starcoder2-15b-ift_v18.0</td>\n",
       "      <td>2024-03-10</td>\n",
       "      <td>21.63</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.83</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>270</th>\n",
       "      <td>HuggingFaceH4_mistral-7b-ift_v49.0</td>\n",
       "      <td>2024-03-07</td>\n",
       "      <td>20.15</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.00</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>271</th>\n",
       "      <td>HuggingFaceH4_starchat-beta_main</td>\n",
       "      <td>2024-03-12</td>\n",
       "      <td>8.13</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>272</th>\n",
       "      <td>HuggingFaceH4_starcoder2-15b-ift_v7.0</td>\n",
       "      <td>2024-03-10</td>\n",
       "      <td>12.57</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>3.18</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>273</th>\n",
       "      <td>HuggingFaceH4_zephyr-7b-beta-ift_v1.1</td>\n",
       "      <td>2024-03-13</td>\n",
       "      <td>9.43</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.00</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>274 rows × 9 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                Model        Date  Ifeval  \\\n",
       "0              NousResearch_Nous-Hermes-2-Yi-34B_main  2024-03-04   39.00   \n",
       "1              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-05   55.27   \n",
       "2    NousResearch_Nous-Hermes-2-Mixtral-8x7B-DPO_main  2024-03-02   59.33   \n",
       "3           mistralai_Mixtral-8x7B-Instruct-v0.1_main  2024-03-02   55.08   \n",
       "4              deepseek-ai_deepseek-llm-67b-chat_main  2024-03-04   55.27   \n",
       "..                                                ...         ...     ...   \n",
       "269            HuggingFaceH4_starcoder2-15b-ift_v18.0  2024-03-10   21.63   \n",
       "270                HuggingFaceH4_mistral-7b-ift_v49.0  2024-03-07   20.15   \n",
       "271                  HuggingFaceH4_starchat-beta_main  2024-03-12    8.13   \n",
       "272             HuggingFaceH4_starcoder2-15b-ift_v7.0  2024-03-10   12.57   \n",
       "273             HuggingFaceH4_zephyr-7b-beta-ift_v1.1  2024-03-13    9.43   \n",
       "\n",
       "     Truthfulqa  Winogrande  Gsm8k   Mmlu  Hellaswag    Arc  \n",
       "0         61.44       80.58  67.93  76.24      83.79  68.00  \n",
       "1         57.78       79.16  76.12  71.18      83.94  64.16  \n",
       "2         64.76       78.53  62.17  71.96      85.42  70.82  \n",
       "3         70.79       73.56  59.89  70.60      86.68  72.01  \n",
       "4         57.78       79.16  76.12  71.18      83.94  64.16  \n",
       "..          ...         ...    ...    ...        ...    ...  \n",
       "269         NaN         NaN   0.83    NaN        NaN    NaN  \n",
       "270         NaN         NaN   0.00    NaN        NaN    NaN  \n",
       "271         NaN         NaN    NaN    NaN        NaN    NaN  \n",
       "272         NaN         NaN   3.18    NaN        NaN    NaN  \n",
       "273         NaN         NaN   0.00    NaN        NaN    NaN  \n",
       "\n",
       "[274 rows x 9 columns]"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df[[\"Model\", \"Date\"]].merge(new_df, on=\"Model\", how=\"left\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "hf",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}