MoE-UNC
/

gpt-generated-instruction-nomic-embeddings

+{
+    "debug": false,
+    "project_name": "chatgpt-instruction-nomic-embedding",
+    "name": "t0-v4",
+    "project_dir": "/home/pingzhi/phatgoose-cl/src_simple",
+    "data_dir": "/nas-hdd/prateek/data",
+    "output_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs",
+    "config_dir": "/home/pingzhi/phatgoose-cl/src_simple/configs",
+    "seed": 42,
+    "hf_write_token": null,
+    "origin_model": "google/t5-xl-lm-adapt",
+    "model_class": "seq2seq_lm",
+    "model_type": "encdec",
+    "peft_type": "lora",
+    "load_model_dtype": "float32",
+    "val_fraction": 0.2,
+    "dataset": [
+        "t0"
+    ],
+    "eval_dataset": null,
+    "eval_split": "val",
+    "num_steps": 1500,
+    "effective_train_batch_size": 128,
+    "patience": 3,
+    "verbose": false,
+    "do_test": false,
+    "eval_steps": 100,
+    "save_last": true,
+    "save_best": true,
+    "logging_steps": 5,
+    "gradient_checkpointing": false,
+    "moe_inference": false,
+    "inference_batch_size_scale": 1,
+    "checkpoint_dir_or_path": null,
+    "cl_checkpoint_path": null,
+    "load_checkpoint_dataset": null,
+    "ae_checkpoint_dir": null,
+    "init_datasets": [
+        "t0-cl-init1"
+    ],
+    "selected_expert_ids": null,
+    "merge_num_clusters": null,
+    "global_clustering": false,
+    "hierarchical_num_clusters": null,
+    "hierarchical_cluster_token_routing": false,
+    "save_router_state_dict": false,
+    "bias_router_embedding_path": null,
+    "bias_input_embedding_path": null,
+    "optimizer": "adamw",
+    "lr": 0.003,
+    "trainable_param_names": ".*lora.*",
+    "scheduler": "linear_decay_with_warmup",
+    "warmup_steps": null,
+    "warmup_ratio": 0.02,
+    "weight_decay": 0,
+    "scale_parameter": true,
+    "mix_precision": "bf16",
+    "gradient_clipping": 1.0,
+    "target_modules": "all-linear",
+    "lora_rank": 16,
+    "lora_alpha": 1,
+    "lora_dropout": 0.0,
+    "use_rslora": false,
+    "init_lora_weights": true,
+    "lora_bias": "none",
+    "moe_router_aux_loss_coef": 0.0,
+    "moe_top_k": 2,
+    "moe_top_p": 1.0,
+    "moe_reweight_output": true,
+    "bias_routing_scale": 0,
+    "bias_routing_dim": -1,
+    "lora_init_method": "usage-based",
+    "gate_init_method": "zero",
+    "zeroshot_tolerance": 0.05,
+    "upper_bound_tolerance": 0.05,
+    "single_lora_gate_train_steps": 200,
+    "molora_gate_train_samples": 1000,
+    "molora_gate_train_steps": 100,
+    "layer_norm_after_train_single_lora": true,
+    "cpu_cont": 96,
+    "run_output_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4",
+    "log_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4/logs",
+    "prediction_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4/prediction",
+    "checkpoint_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4/checkpoints"
+}

t0-v4/logs/log.txt ADDED Viewed

	@@ -0,0 +1,138 @@

+2024-09-11 14:17:11,625 - log.txt - [INFO] - Start experiment chatgpt-instruction-nomic-embedding/t0-v4
+2024-09-11 14:17:11,625 - log.txt - [INFO] - {
+    "debug": false,
+    "project_name": "chatgpt-instruction-nomic-embedding",
+    "name": "t0-v4",
+    "project_dir": "/home/pingzhi/phatgoose-cl/src_simple",
+    "data_dir": "/nas-hdd/prateek/data",
+    "output_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs",
+    "config_dir": "/home/pingzhi/phatgoose-cl/src_simple/configs",
+    "seed": 42,
+    "hf_write_token": null,
+    "origin_model": "google/t5-xl-lm-adapt",
+    "model_class": "seq2seq_lm",
+    "model_type": "encdec",
+    "peft_type": "lora",
+    "load_model_dtype": "float32",
+    "val_fraction": 0.2,
+    "dataset": [
+        "t0"
+    ],
+    "eval_dataset": null,
+    "eval_split": "val",
+    "num_steps": 1500,
+    "effective_train_batch_size": 128,
+    "patience": 3,
+    "verbose": false,
+    "do_test": false,
+    "eval_steps": 100,
+    "save_last": true,
+    "save_best": true,
+    "logging_steps": 5,
+    "gradient_checkpointing": false,
+    "moe_inference": false,
+    "inference_batch_size_scale": 1,
+    "checkpoint_dir_or_path": null,
+    "cl_checkpoint_path": null,
+    "load_checkpoint_dataset": null,
+    "ae_checkpoint_dir": null,
+    "init_datasets": [
+        "t0-cl-init1"
+    ],
+    "selected_expert_ids": null,
+    "merge_num_clusters": null,
+    "global_clustering": false,
+    "hierarchical_num_clusters": null,
+    "hierarchical_cluster_token_routing": false,
+    "save_router_state_dict": false,
+    "bias_router_embedding_path": null,
+    "bias_input_embedding_path": null,
+    "optimizer": "adamw",
+    "lr": 0.003,
+    "trainable_param_names": ".*lora.*",
+    "scheduler": "linear_decay_with_warmup",
+    "warmup_steps": null,
+    "warmup_ratio": 0.02,
+    "weight_decay": 0,
+    "scale_parameter": true,
+    "mix_precision": "bf16",
+    "gradient_clipping": 1.0,
+    "target_modules": "all-linear",
+    "lora_rank": 16,
+    "lora_alpha": 1,
+    "lora_dropout": 0.0,
+    "use_rslora": false,
+    "init_lora_weights": true,
+    "lora_bias": "none",
+    "moe_router_aux_loss_coef": 0.0,
+    "moe_top_k": 2,
+    "moe_top_p": 1.0,
+    "moe_reweight_output": true,
+    "bias_routing_scale": 0,
+    "bias_routing_dim": -1,
+    "lora_init_method": "usage-based",
+    "gate_init_method": "zero",
+    "zeroshot_tolerance": 0.05,
+    "upper_bound_tolerance": 0.05,
+    "single_lora_gate_train_steps": 200,
+    "molora_gate_train_samples": 1000,
+    "molora_gate_train_steps": 100,
+    "layer_norm_after_train_single_lora": true,
+    "cpu_cont": 96,
+    "run_output_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4",
+    "log_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4/logs",
+    "prediction_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4/prediction",
+    "checkpoint_dir": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4/checkpoints",
+    "finish_flag_file": "/home/pingzhi/phatgoose-cl/src_simple/saved_runs/chatgpt-instruction-nomic-embedding/t0-v4/exp_completed.txt"
+}
+2024-09-11 14:17:18,316 - log.txt - [INFO] - Tasks	['p3socialiqa', 'p3wiqa', 'p3cosmosqa', 'p3quail', 'p3quartz', 'p3qasc', 'p3commonsenseqa', 'p3quarel', 'p3dream', 'p3sciq', 'p3wikihop', 'p3ropes', 'p3adversarialqa', 'p3duorc', 'p3quoref', 'p3hotpotqa', 'p3wikiqa', 'p3amazonpolarity', 'p3appreviews', 'p3rottentomatoes', 'p3imdb', 'p3yelp', 'p3agnews', 'p3dbpedia14', 'p3trec', 'p3wikibio', 'p3commongen', 'p3cnndailymail', 'p3multinews', 'p3gigaword', 'p3samsum', 'p3xsum', 'p3paws', 'p3qqp', 'p3mrpc', 'p3hswag', 'p3copa', 'p3storycloze', 'p3cb', 'p3rte', 'p3anlir1', 'p3anlir2', 'p3anlir3', 'p3winogrande', 'p3wscfixed', 'p3wic']
+2024-09-11 14:17:19,935 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'social_i_qa']	Num Templates: 4	 Datasize 128
+2024-09-11 14:17:22,070 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'wiqa']	Num Templates: 2	 Datasize 128
+2024-09-11 14:17:24,069 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'cosmos_qa']	Num Templates: 10	 Datasize 128
+2024-09-11 14:17:26,907 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'quail']	Num Templates: 10	 Datasize 128
+2024-09-11 14:17:29,561 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'quartz']	Num Templates: 8	 Datasize 128
+2024-09-11 14:17:31,981 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'qasc']	Num Templates: 5	 Datasize 128
+2024-09-11 14:17:34,492 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'commonsense_qa']	Num Templates: 4	 Datasize 128
+2024-09-11 14:17:36,947 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'quarel']	Num Templates: 5	 Datasize 128
+2024-09-11 14:17:38,760 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'dream']	Num Templates: 2	 Datasize 128
+2024-09-11 14:17:41,104 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'sciq']	Num Templates: 4	 Datasize 128
+2024-09-11 14:17:42,704 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'MoE-UNC/wikihop']	Num Templates: 5	 Datasize 128
+2024-09-11 14:17:45,187 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'ropes']	Num Templates: 10	 Datasize 128
+2024-09-11 14:17:47,879 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'adversarial_qa', 'adversarialQA']	Num Templates: 4	 Datasize 128
+2024-09-11 14:17:52,220 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'duorc', 'ParaphraseRC']	Num Templates: 5	 Datasize 128
+2024-09-11 14:17:54,156 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'quoref']	Num Templates: 10	 Datasize 128
+2024-09-11 14:17:55,658 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'hotpot_qa', 'fullwiki']	Num Templates: 5	 Datasize 128
+2024-09-11 14:17:59,481 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'wiki_qa']	Num Templates: 5	 Datasize 128
+2024-09-11 14:18:03,108 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'amazon_polarity']	Num Templates: 9	 Datasize 128
+2024-09-11 14:18:05,068 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'app_reviews']	Num Templates: 1	 Datasize 128
+2024-09-11 14:18:06,970 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'rotten_tomatoes']	Num Templates: 10	 Datasize 128
+2024-09-11 14:18:09,884 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'imdb']	Num Templates: 10	 Datasize 128
+2024-09-11 14:18:12,193 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'yelp_review_full']	Num Templates: 7	 Datasize 128
+2024-09-11 14:18:14,277 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'ag_news']	Num Templates: 7	 Datasize 128
+2024-09-11 14:18:16,545 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'dbpedia_14']	Num Templates: 4	 Datasize 128
+2024-09-11 14:18:18,280 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'trec']	Num Templates: 1	 Datasize 100
+2024-09-11 14:18:21,112 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'wiki_bio']	Num Templates: 1	 Datasize 128
+2024-09-11 14:18:23,877 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'common_gen']	Num Templates: 6	 Datasize 128
+2024-09-11 14:18:27,213 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'cnn_dailymail', '3.0.0']	Num Templates: 7	 Datasize 128
+2024-09-11 14:18:29,546 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'multi_news']	Num Templates: 5	 Datasize 128
+2024-09-11 14:18:32,866 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'gigaword']	Num Templates: 7	 Datasize 128
+2024-09-11 14:18:35,238 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'samsum']	Num Templates: 6	 Datasize 128
+2024-09-11 14:18:37,088 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'xsum']	Num Templates: 10	 Datasize 128
+2024-09-11 14:18:40,582 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'paws', 'labeled_final']	Num Templates: 11	 Datasize 128
+2024-09-11 14:18:43,367 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'glue', 'qqp']	Num Templates: 5	 Datasize 128
+2024-09-11 14:18:45,352 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'glue', 'mrpc']	Num Templates: 5	 Datasize 128
+2024-09-11 14:18:47,112 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'hellaswag']	Num Templates: 4	 Datasize 128
+2024-09-11 14:18:48,387 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'super_glue', 'copa']	Num Templates: 8	 Datasize 128
+2024-09-11 14:18:49,854 - root - [WARNING] - Tried instantiating `DatasetTemplates` for MoE-UNC/story_cloze, but no prompts found. Please ignore this warning if you are creating new prompts for this dataset.
+2024-09-11 14:18:49,886 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'MoE-UNC/story_cloze']	Num Templates: 5	 Datasize 128
+2024-09-11 14:18:51,053 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'super_glue', 'cb']	Num Templates: 15	 Datasize 128
+2024-09-11 14:18:52,171 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'super_glue', 'rte']	Num Templates: 10	 Datasize 128
+2024-09-11 14:18:56,259 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'anli']	Num Templates: 15	 Datasize 128
+2024-09-11 14:18:59,502 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'anli']	Num Templates: 15	 Datasize 128
+2024-09-11 14:19:03,139 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'anli']	Num Templates: 15	 Datasize 128
+2024-09-11 14:19:04,440 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'winogrande', 'winogrande_xl']	Num Templates: 5	 Datasize 128
+2024-09-11 14:19:05,559 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'super_glue', 'wsc.fixed']	Num Templates: 10	 Datasize 128
+2024-09-11 14:19:06,690 - log.txt - [INFO] - Val	Dataset Path: ['huggingface', 'super_glue', 'wic']	Num Templates: 10	 Datasize 128
+2024-09-11 14:19:06,926 - sentence_transformers.SentenceTransformer - [INFO] - Use pytorch device_name: cuda
+2024-09-11 14:19:06,926 - sentence_transformers.SentenceTransformer - [INFO] - Load pretrained SentenceTransformer: nomic-ai/nomic-embed-text-v1.5
+2024-09-11 14:19:09,181 - transformers_modules.nomic-ai.nomic-bert-2048.4bb68f63016e88e53e48df904c6ab4e6f718e198.modeling_hf_nomic_bert - [WARNING] - <All keys matched successfully>