arpit-tiwari commited on 20 days ago

Commit

2d74c12

verified ·

1 Parent(s): 3ba4510

Upload folder using huggingface_hub

Browse files

Files changed (39) hide show

checkpoint-12500/config.json +43 -0
checkpoint-12500/model.safetensors +3 -0
checkpoint-12500/optimizer.pt +3 -0
checkpoint-12500/rng_state.pth +3 -0
checkpoint-12500/scheduler.pt +3 -0
checkpoint-12500/special_tokens_map.json +37 -0
checkpoint-12500/tokenizer.json +0 -0
checkpoint-12500/tokenizer_config.json +60 -0
checkpoint-12500/trainer_state.json +220 -0
checkpoint-12500/training_args.bin +3 -0
checkpoint-12500/vocab.txt +0 -0
checkpoint-25000/config.json +43 -0
checkpoint-25000/model.safetensors +3 -0
checkpoint-25000/optimizer.pt +3 -0
checkpoint-25000/rng_state.pth +3 -0
checkpoint-25000/scheduler.pt +3 -0
checkpoint-25000/special_tokens_map.json +37 -0
checkpoint-25000/tokenizer.json +0 -0
checkpoint-25000/tokenizer_config.json +60 -0
checkpoint-25000/trainer_state.json +407 -0
checkpoint-25000/training_args.bin +3 -0
checkpoint-25000/vocab.txt +0 -0
checkpoint-37500/config.json +43 -0
checkpoint-37500/model.safetensors +3 -0
checkpoint-37500/optimizer.pt +3 -0
checkpoint-37500/rng_state.pth +3 -0
checkpoint-37500/scheduler.pt +3 -0
checkpoint-37500/special_tokens_map.json +37 -0
checkpoint-37500/tokenizer.json +0 -0
checkpoint-37500/tokenizer_config.json +60 -0
checkpoint-37500/trainer_state.json +594 -0
checkpoint-37500/training_args.bin +3 -0
checkpoint-37500/vocab.txt +0 -0
config.json +3 -3
model.safetensors +2 -2
runs/Mar05_14-03-48_23e08165d1e9/events.out.tfevents.1741183436.23e08165d1e9.676.0 +3 -0
runs/Mar05_15-11-57_23e08165d1e9/events.out.tfevents.1741187522.23e08165d1e9.676.1 +3 -0
runs/Mar05_16-20-53_23e08165d1e9/events.out.tfevents.1741191660.23e08165d1e9.676.2 +3 -0
training_args.bin +3 -0

checkpoint-12500/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "./distilbert-finetuned-hindi-ner",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForTokenClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "O",
+    "1": "B-PER",
+    "2": "I-PER",
+    "3": "B-ORG",
+    "4": "I-ORG",
+    "5": "B-LOC",
+    "6": "I-LOC"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "B-LOC": 5,
+    "B-ORG": 3,
+    "B-PER": 1,
+    "I-LOC": 6,
+    "I-ORG": 4,
+    "I-PER": 2,
+    "O": 0
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 28996
+}

checkpoint-12500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06afc73e0c10d71a8f38034910b70becd6e5b8a1779c8259df4e84c746d3164e
+size 260797516

checkpoint-12500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b1639dd5070f5adf15a8ceb8fbf2d6f40719b90fa42b3470ef0416c6d9845b0
+size 521655866

checkpoint-12500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2512dc01224b93eb46eabddb9c6d457c486013bd0731e7aeb5838a96aaecc5a5
+size 14244

checkpoint-12500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd10644e8f9666cf40ad9e6edd064f6c87a35eacd0d161a739a838db73a1cb7f
+size 1064

checkpoint-12500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-12500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-12500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

checkpoint-12500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,220 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 12500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 3.339637279510498,
+      "learning_rate": 1.9733333333333336e-05,
+      "loss": 0.2685,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.5288997888565063,
+      "learning_rate": 1.9466666666666668e-05,
+      "loss": 0.2577,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 3.791400194168091,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.2659,
+      "step": 1500
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.789708137512207,
+      "learning_rate": 1.8933333333333334e-05,
+      "loss": 0.2651,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.8844208717346191,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.2641,
+      "step": 2500
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.7253724336624146,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 0.2652,
+      "step": 3000
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 2.3665554523468018,
+      "learning_rate": 1.8133333333333335e-05,
+      "loss": 0.259,
+      "step": 3500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.057013750076294,
+      "learning_rate": 1.7866666666666666e-05,
+      "loss": 0.2708,
+      "step": 4000
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.6073246002197266,
+      "learning_rate": 1.76e-05,
+      "loss": 0.2604,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.4323502779006958,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.2569,
+      "step": 5000
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 3.2226264476776123,
+      "learning_rate": 1.706666666666667e-05,
+      "loss": 0.274,
+      "step": 5500
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.6208560466766357,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.2622,
+      "step": 6000
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.4076180458068848,
+      "learning_rate": 1.6533333333333333e-05,
+      "loss": 0.2617,
+      "step": 6500
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.4872561693191528,
+      "learning_rate": 1.6266666666666668e-05,
+      "loss": 0.2739,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 3.3403637409210205,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.2665,
+      "step": 7500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.4236797094345093,
+      "learning_rate": 1.5733333333333334e-05,
+      "loss": 0.2617,
+      "step": 8000
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 4.096630096435547,
+      "learning_rate": 1.546666666666667e-05,
+      "loss": 0.2653,
+      "step": 8500
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.2297892570495605,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 0.2613,
+      "step": 9000
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 3.9957408905029297,
+      "learning_rate": 1.4933333333333335e-05,
+      "loss": 0.2692,
+      "step": 9500
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.196535587310791,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.2589,
+      "step": 10000
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.062105894088745,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 0.2583,
+      "step": 10500
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.5509839057922363,
+      "learning_rate": 1.4133333333333334e-05,
+      "loss": 0.2586,
+      "step": 11000
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.7661411762237549,
+      "learning_rate": 1.3866666666666669e-05,
+      "loss": 0.2602,
+      "step": 11500
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.222195625305176,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 0.2582,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6238605976104736,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.2627,
+      "step": 12500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9296648117962265,
+      "eval_f1": 0.5910249872514025,
+      "eval_loss": 0.20293937623500824,
+      "eval_precision": 0.5815353738083292,
+      "eval_recall": 0.60082944530845,
+      "eval_runtime": 3.8098,
+      "eval_samples_per_second": 227.573,
+      "eval_steps_per_second": 28.611,
+      "step": 12500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 37500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3237078235242192.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-12500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feda197231fffb20bb4da80d2a361dba76a244111fffd01def26b27559601916
+size 5368

checkpoint-12500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-25000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "./distilbert-finetuned-hindi-ner",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForTokenClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "O",
+    "1": "B-PER",
+    "2": "I-PER",
+    "3": "B-ORG",
+    "4": "I-ORG",
+    "5": "B-LOC",
+    "6": "I-LOC"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "B-LOC": 5,
+    "B-ORG": 3,
+    "B-PER": 1,
+    "I-LOC": 6,
+    "I-ORG": 4,
+    "I-PER": 2,
+    "O": 0
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 28996
+}

checkpoint-25000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92766038806bc58dbbd207f29a31d2f589d89b74c42c76eba8ec0dd8b2f86ea5
+size 260797516

checkpoint-25000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28b3e7941a864edd4866e5553447d6f615692ad15d544f333f53ac1463e2a7d5
+size 521655866

checkpoint-25000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21ca856cc873b9c686ae4364995aeb81e6ac86975f358b62a7b85c21d5d19da1
+size 14244

checkpoint-25000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba395418fec3faebf0a851318d7a35f897653a2fb22c748f68dc0be9c7f990d5
+size 1064

checkpoint-25000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-25000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-25000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

checkpoint-25000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,407 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 25000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 3.339637279510498,
+      "learning_rate": 1.9733333333333336e-05,
+      "loss": 0.2685,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.5288997888565063,
+      "learning_rate": 1.9466666666666668e-05,
+      "loss": 0.2577,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 3.791400194168091,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.2659,
+      "step": 1500
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.789708137512207,
+      "learning_rate": 1.8933333333333334e-05,
+      "loss": 0.2651,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.8844208717346191,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.2641,
+      "step": 2500
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.7253724336624146,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 0.2652,
+      "step": 3000
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 2.3665554523468018,
+      "learning_rate": 1.8133333333333335e-05,
+      "loss": 0.259,
+      "step": 3500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.057013750076294,
+      "learning_rate": 1.7866666666666666e-05,
+      "loss": 0.2708,
+      "step": 4000
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.6073246002197266,
+      "learning_rate": 1.76e-05,
+      "loss": 0.2604,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.4323502779006958,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.2569,
+      "step": 5000
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 3.2226264476776123,
+      "learning_rate": 1.706666666666667e-05,
+      "loss": 0.274,
+      "step": 5500
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.6208560466766357,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.2622,
+      "step": 6000
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.4076180458068848,
+      "learning_rate": 1.6533333333333333e-05,
+      "loss": 0.2617,
+      "step": 6500
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.4872561693191528,
+      "learning_rate": 1.6266666666666668e-05,
+      "loss": 0.2739,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 3.3403637409210205,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.2665,
+      "step": 7500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.4236797094345093,
+      "learning_rate": 1.5733333333333334e-05,
+      "loss": 0.2617,
+      "step": 8000
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 4.096630096435547,
+      "learning_rate": 1.546666666666667e-05,
+      "loss": 0.2653,
+      "step": 8500
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.2297892570495605,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 0.2613,
+      "step": 9000
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 3.9957408905029297,
+      "learning_rate": 1.4933333333333335e-05,
+      "loss": 0.2692,
+      "step": 9500
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.196535587310791,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.2589,
+      "step": 10000
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.062105894088745,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 0.2583,
+      "step": 10500
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.5509839057922363,
+      "learning_rate": 1.4133333333333334e-05,
+      "loss": 0.2586,
+      "step": 11000
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.7661411762237549,
+      "learning_rate": 1.3866666666666669e-05,
+      "loss": 0.2602,
+      "step": 11500
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.222195625305176,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 0.2582,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6238605976104736,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.2627,
+      "step": 12500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9296648117962265,
+      "eval_f1": 0.5910249872514025,
+      "eval_loss": 0.20293937623500824,
+      "eval_precision": 0.5815353738083292,
+      "eval_recall": 0.60082944530845,
+      "eval_runtime": 3.8098,
+      "eval_samples_per_second": 227.573,
+      "eval_steps_per_second": 28.611,
+      "step": 12500
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 5.0923686027526855,
+      "learning_rate": 1.3066666666666668e-05,
+      "loss": 0.2433,
+      "step": 13000
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 3.4041550159454346,
+      "learning_rate": 1.2800000000000001e-05,
+      "loss": 0.2257,
+      "step": 13500
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 1.6454646587371826,
+      "learning_rate": 1.2533333333333336e-05,
+      "loss": 0.2275,
+      "step": 14000
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 4.137843608856201,
+      "learning_rate": 1.2266666666666667e-05,
+      "loss": 0.2326,
+      "step": 14500
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.6698648929595947,
+      "learning_rate": 1.2e-05,
+      "loss": 0.2219,
+      "step": 15000
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 2.044994592666626,
+      "learning_rate": 1.1733333333333335e-05,
+      "loss": 0.2366,
+      "step": 15500
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 3.0846433639526367,
+      "learning_rate": 1.1466666666666668e-05,
+      "loss": 0.2296,
+      "step": 16000
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 2.076545238494873,
+      "learning_rate": 1.1200000000000001e-05,
+      "loss": 0.2315,
+      "step": 16500
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 2.738480567932129,
+      "learning_rate": 1.0933333333333334e-05,
+      "loss": 0.2311,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.7157602310180664,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.2336,
+      "step": 17500
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 2.5812087059020996,
+      "learning_rate": 1.04e-05,
+      "loss": 0.2447,
+      "step": 18000
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 2.6329290866851807,
+      "learning_rate": 1.0133333333333335e-05,
+      "loss": 0.2354,
+      "step": 18500
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 1.931725025177002,
+      "learning_rate": 9.866666666666668e-06,
+      "loss": 0.2317,
+      "step": 19000
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 4.6852126121521,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.2401,
+      "step": 19500
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.21334969997406,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.2307,
+      "step": 20000
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 2.32155704498291,
+      "learning_rate": 9.066666666666667e-06,
+      "loss": 0.2278,
+      "step": 20500
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 3.032379150390625,
+      "learning_rate": 8.8e-06,
+      "loss": 0.2315,
+      "step": 21000
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 5.9133524894714355,
+      "learning_rate": 8.533333333333335e-06,
+      "loss": 0.2412,
+      "step": 21500
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 5.587306976318359,
+      "learning_rate": 8.266666666666667e-06,
+      "loss": 0.2315,
+      "step": 22000
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 2.8017914295196533,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.2321,
+      "step": 22500
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 7.2547607421875,
+      "learning_rate": 7.733333333333334e-06,
+      "loss": 0.2369,
+      "step": 23000
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.4793908596038818,
+      "learning_rate": 7.4666666666666675e-06,
+      "loss": 0.237,
+      "step": 23500
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 2.481879949569702,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.2221,
+      "step": 24000
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.8497968316078186,
+      "learning_rate": 6.9333333333333344e-06,
+      "loss": 0.2282,
+      "step": 24500
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.056018590927124,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.2315,
+      "step": 25000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9270604987540517,
+      "eval_f1": 0.5862503147821707,
+      "eval_loss": 0.20907191932201385,
+      "eval_precision": 0.5700293829578844,
+      "eval_recall": 0.6034214618973561,
+      "eval_runtime": 3.7952,
+      "eval_samples_per_second": 228.446,
+      "eval_steps_per_second": 28.72,
+      "step": 25000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 37500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6475256914039056.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-25000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feda197231fffb20bb4da80d2a361dba76a244111fffd01def26b27559601916
+size 5368

checkpoint-25000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-37500/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "./distilbert-finetuned-hindi-ner",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForTokenClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "O",
+    "1": "B-PER",
+    "2": "I-PER",
+    "3": "B-ORG",
+    "4": "I-ORG",
+    "5": "B-LOC",
+    "6": "I-LOC"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "B-LOC": 5,
+    "B-ORG": 3,
+    "B-PER": 1,
+    "I-LOC": 6,
+    "I-ORG": 4,
+    "I-PER": 2,
+    "O": 0
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 28996
+}

checkpoint-37500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:842437e0defc7b49b9bd0e0bf94bb2db4e8462d7fe93d66d525499f72b75da1f
+size 260797516

checkpoint-37500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b857a2db0a265e0e3002db7adbddc00c6862fb8a05667c4fc2e6ab4a5913de94
+size 521655866

checkpoint-37500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d76677858d2fb183630a1acbe5944a91e1d19b54e2a27319e8d26364b22ea44
+size 14244

checkpoint-37500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afce7cbf6aab256e5ff40cfb3218b45cc289e5fd0f8e409e0b58cb42ef3e61f8
+size 1064

checkpoint-37500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-37500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-37500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

checkpoint-37500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,594 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 37500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 3.339637279510498,
+      "learning_rate": 1.9733333333333336e-05,
+      "loss": 0.2685,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.5288997888565063,
+      "learning_rate": 1.9466666666666668e-05,
+      "loss": 0.2577,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 3.791400194168091,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.2659,
+      "step": 1500
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.789708137512207,
+      "learning_rate": 1.8933333333333334e-05,
+      "loss": 0.2651,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.8844208717346191,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.2641,
+      "step": 2500
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.7253724336624146,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 0.2652,
+      "step": 3000
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 2.3665554523468018,
+      "learning_rate": 1.8133333333333335e-05,
+      "loss": 0.259,
+      "step": 3500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.057013750076294,
+      "learning_rate": 1.7866666666666666e-05,
+      "loss": 0.2708,
+      "step": 4000
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.6073246002197266,
+      "learning_rate": 1.76e-05,
+      "loss": 0.2604,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.4323502779006958,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.2569,
+      "step": 5000
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 3.2226264476776123,
+      "learning_rate": 1.706666666666667e-05,
+      "loss": 0.274,
+      "step": 5500
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.6208560466766357,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.2622,
+      "step": 6000
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.4076180458068848,
+      "learning_rate": 1.6533333333333333e-05,
+      "loss": 0.2617,
+      "step": 6500
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.4872561693191528,
+      "learning_rate": 1.6266666666666668e-05,
+      "loss": 0.2739,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 3.3403637409210205,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.2665,
+      "step": 7500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.4236797094345093,
+      "learning_rate": 1.5733333333333334e-05,
+      "loss": 0.2617,
+      "step": 8000
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 4.096630096435547,
+      "learning_rate": 1.546666666666667e-05,
+      "loss": 0.2653,
+      "step": 8500
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.2297892570495605,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 0.2613,
+      "step": 9000
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 3.9957408905029297,
+      "learning_rate": 1.4933333333333335e-05,
+      "loss": 0.2692,
+      "step": 9500
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.196535587310791,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.2589,
+      "step": 10000
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.062105894088745,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 0.2583,
+      "step": 10500
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.5509839057922363,
+      "learning_rate": 1.4133333333333334e-05,
+      "loss": 0.2586,
+      "step": 11000
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.7661411762237549,
+      "learning_rate": 1.3866666666666669e-05,
+      "loss": 0.2602,
+      "step": 11500
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.222195625305176,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 0.2582,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6238605976104736,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.2627,
+      "step": 12500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9296648117962265,
+      "eval_f1": 0.5910249872514025,
+      "eval_loss": 0.20293937623500824,
+      "eval_precision": 0.5815353738083292,
+      "eval_recall": 0.60082944530845,
+      "eval_runtime": 3.8098,
+      "eval_samples_per_second": 227.573,
+      "eval_steps_per_second": 28.611,
+      "step": 12500
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 5.0923686027526855,
+      "learning_rate": 1.3066666666666668e-05,
+      "loss": 0.2433,
+      "step": 13000
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 3.4041550159454346,
+      "learning_rate": 1.2800000000000001e-05,
+      "loss": 0.2257,
+      "step": 13500
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 1.6454646587371826,
+      "learning_rate": 1.2533333333333336e-05,
+      "loss": 0.2275,
+      "step": 14000
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 4.137843608856201,
+      "learning_rate": 1.2266666666666667e-05,
+      "loss": 0.2326,
+      "step": 14500
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.6698648929595947,
+      "learning_rate": 1.2e-05,
+      "loss": 0.2219,
+      "step": 15000
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 2.044994592666626,
+      "learning_rate": 1.1733333333333335e-05,
+      "loss": 0.2366,
+      "step": 15500
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 3.0846433639526367,
+      "learning_rate": 1.1466666666666668e-05,
+      "loss": 0.2296,
+      "step": 16000
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 2.076545238494873,
+      "learning_rate": 1.1200000000000001e-05,
+      "loss": 0.2315,
+      "step": 16500
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 2.738480567932129,
+      "learning_rate": 1.0933333333333334e-05,
+      "loss": 0.2311,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.7157602310180664,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.2336,
+      "step": 17500
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 2.5812087059020996,
+      "learning_rate": 1.04e-05,
+      "loss": 0.2447,
+      "step": 18000
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 2.6329290866851807,
+      "learning_rate": 1.0133333333333335e-05,
+      "loss": 0.2354,
+      "step": 18500
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 1.931725025177002,
+      "learning_rate": 9.866666666666668e-06,
+      "loss": 0.2317,
+      "step": 19000
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 4.6852126121521,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.2401,
+      "step": 19500
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.21334969997406,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.2307,
+      "step": 20000
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 2.32155704498291,
+      "learning_rate": 9.066666666666667e-06,
+      "loss": 0.2278,
+      "step": 20500
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 3.032379150390625,
+      "learning_rate": 8.8e-06,
+      "loss": 0.2315,
+      "step": 21000
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 5.9133524894714355,
+      "learning_rate": 8.533333333333335e-06,
+      "loss": 0.2412,
+      "step": 21500
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 5.587306976318359,
+      "learning_rate": 8.266666666666667e-06,
+      "loss": 0.2315,
+      "step": 22000
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 2.8017914295196533,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.2321,
+      "step": 22500
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 7.2547607421875,
+      "learning_rate": 7.733333333333334e-06,
+      "loss": 0.2369,
+      "step": 23000
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.4793908596038818,
+      "learning_rate": 7.4666666666666675e-06,
+      "loss": 0.237,
+      "step": 23500
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 2.481879949569702,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.2221,
+      "step": 24000
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.8497968316078186,
+      "learning_rate": 6.9333333333333344e-06,
+      "loss": 0.2282,
+      "step": 24500
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.056018590927124,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.2315,
+      "step": 25000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9270604987540517,
+      "eval_f1": 0.5862503147821707,
+      "eval_loss": 0.20907191932201385,
+      "eval_precision": 0.5700293829578844,
+      "eval_recall": 0.6034214618973561,
+      "eval_runtime": 3.7952,
+      "eval_samples_per_second": 228.446,
+      "eval_steps_per_second": 28.72,
+      "step": 25000
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 1.8908640146255493,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.2111,
+      "step": 25500
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 2.534010648727417,
+      "learning_rate": 6.133333333333334e-06,
+      "loss": 0.1973,
+      "step": 26000
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 1.7518447637557983,
+      "learning_rate": 5.8666666666666675e-06,
+      "loss": 0.2091,
+      "step": 26500
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 1.7830463647842407,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.2139,
+      "step": 27000
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 5.354440212249756,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.2143,
+      "step": 27500
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 2.237147569656372,
+      "learning_rate": 5.0666666666666676e-06,
+      "loss": 0.2104,
+      "step": 28000
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "grad_norm": 1.6922296285629272,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.1973,
+      "step": 28500
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 1.9520875215530396,
+      "learning_rate": 4.533333333333334e-06,
+      "loss": 0.2093,
+      "step": 29000
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 2.9851980209350586,
+      "learning_rate": 4.266666666666668e-06,
+      "loss": 0.2048,
+      "step": 29500
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 4.275035858154297,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.2078,
+      "step": 30000
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 8.405248641967773,
+      "learning_rate": 3.7333333333333337e-06,
+      "loss": 0.2044,
+      "step": 30500
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 1.7770625352859497,
+      "learning_rate": 3.4666666666666672e-06,
+      "loss": 0.2122,
+      "step": 31000
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 1.771949052810669,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.2054,
+      "step": 31500
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 3.629131317138672,
+      "learning_rate": 2.9333333333333338e-06,
+      "loss": 0.2158,
+      "step": 32000
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.4482274055480957,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.2101,
+      "step": 32500
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 3.019331693649292,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.1936,
+      "step": 33000
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 1.6766985654830933,
+      "learning_rate": 2.133333333333334e-06,
+      "loss": 0.2097,
+      "step": 33500
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "grad_norm": 2.99959397315979,
+      "learning_rate": 1.8666666666666669e-06,
+      "loss": 0.2073,
+      "step": 34000
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 3.5642282962799072,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.2131,
+      "step": 34500
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 2.3027596473693848,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.2054,
+      "step": 35000
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 2.8312253952026367,
+      "learning_rate": 1.066666666666667e-06,
+      "loss": 0.1987,
+      "step": 35500
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 1.6539475917816162,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.2131,
+      "step": 36000
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 2.7067487239837646,
+      "learning_rate": 5.333333333333335e-07,
+      "loss": 0.1959,
+      "step": 36500
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 2.1856722831726074,
+      "learning_rate": 2.666666666666667e-07,
+      "loss": 0.2147,
+      "step": 37000
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 4.923337459564209,
+      "learning_rate": 0.0,
+      "loss": 0.1981,
+      "step": 37500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9298334363816911,
+      "eval_f1": 0.596446046870976,
+      "eval_loss": 0.2079714834690094,
+      "eval_precision": 0.5926305015353122,
+      "eval_recall": 0.6003110419906688,
+      "eval_runtime": 3.8558,
+      "eval_samples_per_second": 224.855,
+      "eval_steps_per_second": 28.269,
+      "step": 37500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 37500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9710573214610224.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-37500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feda197231fffb20bb4da80d2a361dba76a244111fffd01def26b27559601916
+size 5368

checkpoint-37500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "_name_or_path": "distilbert-finetuned-hindi-ner",
   "activation": "gelu",
   "architectures": [
-    "DistilBertModel"
   ],
   "attention_dropout": 0.1,
   "dim": 768,
@@ -38,6 +38,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.49.0",
   "vocab_size": 28996
 }

 {
+  "_name_or_path": "./distilbert-finetuned-hindi-ner",
   "activation": "gelu",
   "architectures": [
+    "DistilBertForTokenClassification"
   ],
   "attention_dropout": 0.1,
   "dim": 768,
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
   "vocab_size": 28996
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1626a953845ddbbd78ab94ee2d9e90e19eea112cdaa22e3150d324aff395b9f1
-size 260774728

 version https://git-lfs.github.com/spec/v1
+oid sha256:842437e0defc7b49b9bd0e0bf94bb2db4e8462d7fe93d66d525499f72b75da1f
+size 260797516

runs/Mar05_14-03-48_23e08165d1e9/events.out.tfevents.1741183436.23e08165d1e9.676.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe4f8091f177fea64be6b7b631a5db4bb71236836920bdfe1495e65f4a2ee0df
+size 23110

runs/Mar05_15-11-57_23e08165d1e9/events.out.tfevents.1741187522.23e08165d1e9.676.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04094e8d971ec87a6f6d86922beab70ec3cabaec0f30483d7658bb20caf943ec
+size 23116

runs/Mar05_16-20-53_23e08165d1e9/events.out.tfevents.1741191660.23e08165d1e9.676.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be388e0c6d09ad98e1b2aa11cf3a09f6f89b05df0fc0eaaac6362a016bbd8fc0
+size 23116

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feda197231fffb20bb4da80d2a361dba76a244111fffd01def26b27559601916
+size 5368