tangledgroup
/

tangled-alpha-0.9-core

Text Generation

Model card Files Files and versions

mtasic85 commited on Mar 10

Commit

b71ffb9

·

1 Parent(s): 63b45b9

config

Files changed (2) hide show

README.md +20 -0
config.json +3 -3

README.md CHANGED Viewed

@@ -76,6 +76,10 @@ Total number of tokens in the optimized dataset '../core-data-6-32769-65537-6553
 i=7, min_len=65537, max_len=131073, block_size=131073, chunk_size=16384125, len(dataset)=634, len(dataset) * block_size=83100282
 Total number of tokens in the optimized dataset '../core-data-7-65537-131073-131073-125' is 83100282
 ```
 ```bash
@@ -83,6 +87,22 @@ CUDA_VISIBLE_DEVICES=0 CUDA_LAUNCH_BLOCKING=0 PYTORCH_CUDA_ALLOC_CONF=expandable
 ```
 ```
 ```
 Backup `wandb`:

 i=7, min_len=65537, max_len=131073, block_size=131073, chunk_size=16384125, len(dataset)=634, len(dataset) * block_size=83100282
 Total number of tokens in the optimized dataset '../core-data-7-65537-131073-131073-125' is 83100282
+real    292m54.341s
+user    2118m1.154s
+sys     12m2.746s
 ```
 ```bash
 ```
 ```
+Seed set to 23
+Time to instantiate model: 0.44 seconds.
+Total parameters: 234,914,304
+Verifying settings ...
+Measured TFLOPs: 55520.94
+Epoch 1 | iter 64 step 1 | loss train: 11.977, val: n/a | iter time: 490.27 ms (step) remaining time: 6 days, 22:47:04
+Epoch 1 | iter 128 step 2 | loss train: 11.970, val: n/a | iter time: 351.11 ms (step) remaining time: 4 days, 16:53:01
+Epoch 1 | iter 192 step 3 | loss train: 11.971, val: n/a | iter time: 353.74 ms (step) remaining time: 3 days, 23:43:23
+Epoch 1 | iter 256 step 4 | loss train: 11.974, val: n/a | iter time: 355.03 ms (step) remaining time: 3 days, 14:41:57
+Epoch 1 | iter 320 step 5 | loss train: 11.964, val: n/a | iter time: 357.36 ms (step) remaining time: 3 days, 9:21:54
+Epoch 1 | iter 384 step 6 | loss train: 11.957, val: n/a | iter time: 362.27 ms (step) remaining time: 3 days, 5:53:20
+Epoch 1 | iter 448 step 7 | loss train: 11.948, val: n/a | iter time: 359.89 ms (step) remaining time: 3 days, 3:26:34
+Epoch 1 | iter 512 step 8 | loss train: 11.938, val: n/a | iter time: 363.84 ms (step) remaining time: 3 days, 1:37:54
+Epoch 1 | iter 576 step 9 | loss train: 11.920, val: n/a | iter time: 362.75 ms (step) remaining time: 3 days, 0:13:59
+Epoch 1 | iter 640 step 10 | loss train: 11.900, val: n/a | iter time: 363.46 ms (step) remaining time: 2 days, 23:07:06
+# ...
 ```
 Backup `wandb`:

config.json CHANGED Viewed

@@ -14,13 +14,13 @@
   "max_position_embeddings": 131072,
   "mlp_bias": false,
   "model_type": "llama",
-  "num_attention_heads": 4,
   "num_hidden_layers": 32,
-  "num_key_value_heads": 4,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": null,
-  "rope_theta": 10000.0,
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0.dev0",

   "max_position_embeddings": 131072,
   "mlp_bias": false,
   "model_type": "llama",
+  "num_attention_heads": 8,
   "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": null,
+  "rope_theta": 4300.0,
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0.dev0",