htlou commited on Feb 3

Commit

07865ff

verified ·

1 Parent(s): 1530c1c

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +4 -0
arguments.yaml +49 -0
config.json +0 -0
environ.txt +149 -0
preprocessor_config.json +28 -0
processor_config.json +5 -0
pytorch_model.bin +3 -0
script.sh +81 -0
slice_1200/arguments.yaml +49 -0
slice_1200/config.json +0 -0
slice_1200/environ.txt +149 -0
slice_1200/preprocessor_config.json +28 -0
slice_1200/processor_config.json +5 -0
slice_1200/pytorch_model.bin +3 -0
slice_1200/script.sh +81 -0
slice_1200/special_tokens_map.json +37 -0
slice_1200/tokenizer.json +0 -0
slice_1200/tokenizer_config.json +0 -0
slice_1200/wandb/debug-internal.log +21 -0
slice_1200/wandb/debug.log +33 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/config.yaml +96 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/output.log +195 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/requirements.txt +226 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/wandb-metadata.json +112 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/wandb-summary.json +1 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log +21 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log +33 -0
slice_1200/wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb +3 -0
slice_400/arguments.yaml +49 -0
slice_400/config.json +0 -0
slice_400/environ.txt +149 -0
slice_400/preprocessor_config.json +28 -0
slice_400/processor_config.json +5 -0
slice_400/pytorch_model.bin +3 -0
slice_400/script.sh +81 -0
slice_400/special_tokens_map.json +37 -0
slice_400/tokenizer.json +0 -0
slice_400/tokenizer_config.json +0 -0
slice_400/wandb/debug-internal.log +21 -0
slice_400/wandb/debug.log +33 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/files/config.yaml +96 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/files/output.log +195 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/files/requirements.txt +226 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/files/wandb-metadata.json +112 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/files/wandb-summary.json +1 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log +21 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log +33 -0
slice_400/wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb +3 -0
slice_800/arguments.yaml +49 -0
slice_800/config.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+slice_1200/wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb filter=lfs diff=lfs merge=lfs -text
+slice_400/wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb filter=lfs diff=lfs merge=lfs -text
+slice_800/wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb filter=lfs diff=lfs merge=lfs -text

arguments.yaml ADDED Viewed

	@@ -0,0 +1,49 @@

+data_cfgs:
+  eval_data_files: null
+  eval_datasets: null
+  eval_optional_args: []
+  eval_size: null
+  eval_split: null
+  eval_subset: null
+  eval_template: null
+  train_data_files: llf_ti2ti_13.5k_tokenized.pt
+  train_datasets: /data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs
+  train_optional_args: []
+  train_size: null
+  train_split: train
+  train_subset: null
+  train_template: AA_textfeedback
+logger_cfgs:
+  cache_dir: null
+  log_project: align-anything
+  log_run_name: sft
+  log_type: wandb
+  output_dir: ../outputs/sft_tf_cham_1111_13.5k_ti2ti
+  save_interval: 400.0
+model_cfgs:
+  model_max_length: 4096
+  model_name_or_path: /data/align-anything/hantao/models/0916_ti_to_ti_sft/
+  trust_remote_code: true
+special_tokens: null
+train_cfgs:
+  adam_betas:
+  - 0.9
+  - 0.95
+  adam_epsilon: 1.0e-08
+  bf16: true
+  ds_cfgs: ds_z3_config.json
+  epochs: 3.0
+  eval_interval: 1000
+  eval_strategy: steps
+  fp16: false
+  freeze_language_model: false
+  gradient_accumulation_steps: 2.0
+  gradient_checkpointing: true
+  learning_rate: 1.0e-06
+  lr_scheduler_type: cosine
+  lr_warmup_ratio: 0.03
+  max_grad_norm: 1.0
+  per_device_eval_batch_size: 4.0
+  per_device_train_batch_size: 4.0
+  seed: 42
+  weight_decay: 0.0

config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

environ.txt ADDED Viewed

	@@ -0,0 +1,149 @@

+ADDR2LINE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-addr2line
+AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ar
+AS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-as
+BROWSER=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/bin/helpers/browser.sh
+BUILD=x86_64-conda-linux-gnu
+CC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CC_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CMAKE_PREFIX_PATH=/data/align-anything/miniconda3/envs/jy-s:/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot/usr
+COLORTERM=truecolor
+CONDA_BACKUP_ADDR2LINE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-addr2line
+CONDA_BACKUP_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ar
+CONDA_BACKUP_AS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-as
+CONDA_BACKUP_BUILD=x86_64-conda-linux-gnu
+CONDA_BACKUP_CC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CONDA_BACKUP_CC_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CONDA_BACKUP_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CMAKE_PREFIX_PATH=/data/align-anything/miniconda3/envs/jy-s:/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot/usr
+CONDA_BACKUP_CONDA_BUILD_SYSROOT=/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot
+CONDA_BACKUP_CPP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cpp
+CONDA_BACKUP_CPPFLAGS=-DNDEBUG -D_FORTIFY_SOURCE=2 -O2 -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CONDA_BACKUP_CXXFILT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++filt
+CONDA_BACKUP_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CXX_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CONDA_BACKUP_DEBUG_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_DEBUG_CPPFLAGS=-D_DEBUG -D_FORTIFY_SOURCE=2 -Og -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_DEBUG_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_ELFEDIT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-elfedit
+CONDA_BACKUP_GCC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc
+CONDA_BACKUP_GCC_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ar
+CONDA_BACKUP_GCC_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-nm
+CONDA_BACKUP_GCC_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ranlib
+CONDA_BACKUP_GPROF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gprof
+CONDA_BACKUP_GXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-g++
+CONDA_BACKUP_HOST=x86_64-conda-linux-gnu
+CONDA_BACKUP_LD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld
+CONDA_BACKUP_LDFLAGS=-Wl,-O2 -Wl,--sort-common -Wl,--as-needed -Wl,-z,relro -Wl,-z,now -Wl,--disable-new-dtags -Wl,--gc-sections -Wl,-rpath,/data/align-anything/miniconda3/envs/jy-s/lib -Wl,-rpath-link,/data/align-anything/miniconda3/envs/jy-s/lib -L/data/align-anything/miniconda3/envs/jy-s/lib  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_LD_GOLD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld.gold
+CONDA_BACKUP_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-nm
+CONDA_BACKUP_OBJCOPY=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objcopy
+CONDA_BACKUP_OBJDUMP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objdump
+CONDA_BACKUP_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ranlib
+CONDA_BACKUP_READELF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-readelf
+CONDA_BACKUP_SIZE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-size
+CONDA_BACKUP_STRINGS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strings
+CONDA_BACKUP_STRIP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strip
+CONDA_BACKUP_build_alias=x86_64-conda-linux-gnu
+CONDA_BACKUP_host_alias=x86_64-conda-linux-gnu
+CONDA_BUILD_SYSROOT=/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot
+CONDA_DEFAULT_ENV=hantao_cham
+CONDA_EXE=/data/align-anything/miniconda3/bin/conda
+CONDA_PREFIX=/data/align-anything/miniconda3/envs/hantao_cham
+CONDA_PREFIX_1=/home/align-anything/miniconda3
+CONDA_PREFIX_2=/data/align-anything/miniconda3/envs/jy-s
+CONDA_PREFIX_3=/home/align-anything/miniconda3
+CONDA_PREFIX_4=/data/align-anything/miniconda3
+CONDA_PROMPT_MODIFIER=(hantao_cham)
+CONDA_PYTHON_EXE=/data/align-anything/miniconda3/bin/python
+CONDA_ROOT=/home/align-anything/miniconda3
+CONDA_SHLVL=5
+CPP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cpp
+CPPFLAGS=-DNDEBUG -D_FORTIFY_SOURCE=2 -O2 -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CROSS_RANK=0
+CROSS_SIZE=1
+CUDA_MODULE_LOADING=LAZY
+CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+CXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CXXFILT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++filt
+CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CXX_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/2000/bus
+DEBUG_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+DEBUG_CPPFLAGS=-D_DEBUG -D_FORTIFY_SOURCE=2 -Og -isystem /data/align-anything/miniconda3/envs/jy-s/include
+DEBUG_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+ELFEDIT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-elfedit
+GCC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc
+GCC_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ar
+GCC_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-nm
+GCC_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ranlib
+GIT_ASKPASS=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/extensions/git/dist/askpass.sh
+GPROF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gprof
+GXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-g++
+HOME=/home/align-anything
+HOST=x86_64-conda-linux-gnu
+LANG=en_US.UTF-8
+LD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld
+LDFLAGS=-Wl,-O2 -Wl,--sort-common -Wl,--as-needed -Wl,-z,relro -Wl,-z,now -Wl,--disable-new-dtags -Wl,--gc-sections -Wl,-rpath,/data/align-anything/miniconda3/envs/jy-s/lib -Wl,-rpath-link,/data/align-anything/miniconda3/envs/jy-s/lib -L/data/align-anything/miniconda3/envs/jy-s/lib  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+LD_GOLD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld.gold
+LD_LIBRARY_PATH=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/../../lib64:
+LESSCLOSE=/usr/bin/lesspipe %s %s
+LESSOPEN=| /usr/bin/lesspipe %s
+LOCAL_RANK=0
+LOCAL_SIZE=8
+LOGLEVEL=WARNING
+LOGNAME=align-anything
+LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.webp=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:
+MASTER_ADDR=127.0.0.1
+MASTER_PORT=19698
+MOTD_SHOWN=pam
+NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-nm
+NVCC_PREPEND_FLAGS= -ccbin=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+OBJCOPY=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objcopy
+OBJDUMP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objdump
+OLDPWD=/data/align-anything/hantao/align-anything/projects/text_image_to_text_image
+PATH=/data/align-anything/miniconda3/envs/hantao_cham/bin:/home/align-anything/miniconda3/bin:/home/align-anything/miniconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin
+PWD=/data/align-anything/hantao/align-anything/scripts
+PYGAME_HIDE_SUPPORT_PROMPT=1
+PYTHONHASHSEED=42
+PYTHONPATH=/data/align-anything/hantao/align-anything
+QT_QPA_FONTDIR=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/qt/fonts
+QT_QPA_PLATFORM_PLUGIN_PATH=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/qt/plugins
+RANK=0
+RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ranlib
+READELF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-readelf
+SHELL=/bin/bash
+SHLVL=3
+SIZE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-size
+SSH_CLIENT=203.93.11.8 7409 30800
+SSH_CONNECTION=111.205.230.212 11374 10.10.212.198 30800
+SSL_CERT_DIR=/usr/lib/ssl/certs
+SSL_CERT_FILE=/usr/lib/ssl/certs/ca-certificates.crt
+STRINGS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strings
+STRIP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strip
+TERM=screen
+TERM_PROGRAM=tmux
+TERM_PROGRAM_VERSION=3.2a
+TMUX=/tmp/tmux-2000/default,2557274,4
+TMUX_PANE=%4
+TRITON_CACHE_DIR=/home/align-anything/cache/triton
+USER=align-anything
+VSCODE_GIT_ASKPASS_EXTRA_ARGS=
+VSCODE_GIT_ASKPASS_MAIN=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/extensions/git/dist/askpass-main.js
+VSCODE_GIT_ASKPASS_NODE=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/node
+VSCODE_GIT_IPC_HANDLE=/run/user/2000/vscode-git-d8ae57dc60.sock
+VSCODE_IPC_HOOK_CLI=/run/user/2000/vscode-ipc-45219155-ac87-45dc-978b-d20ac490d167.sock
+WANDB_API_KEY=7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33
+WANDB_SERVICE=2-3212652-tcp-localhost-41187
+WORLD_SIZE=8
+XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop
+XDG_RUNTIME_DIR=/run/user/2000
+XDG_SESSION_CLASS=user
+XDG_SESSION_ID=446
+XDG_SESSION_TYPE=tty
+_=/data/align-anything/miniconda3/envs/hantao_cham/bin/deepspeed
+_CE_CONDA=
+_CE_M=
+build_alias=x86_64-conda-linux-gnu
+host_alias=x86_64-conda-linux-gnu

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "crop_size": {
+    "height": 512,
+    "width": 512
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    1.0,
+    1.0,
+    1.0
+  ],
+  "image_processor_type": "ChameleonImageProcessor",
+  "image_std": [
+    1.0,
+    1.0,
+    1.0
+  ],
+  "processor_class": "ChameleonProcessor",
+  "resample": 1,
+  "rescale_factor": 0.0078,
+  "size": {
+    "shortest_edge": 512
+  }
+}

processor_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "image_seq_length": 1024,
+  "image_token": "<image>",
+  "processor_class": "ChameleonProcessor"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89974fc34f54d06cc78aa835c56cc3529eb55161b7b6808142528fe532282d48
+size 14086364170

script.sh ADDED Viewed

	@@ -0,0 +1,81 @@

+#!/usr/bin/env bash
+#
+# Copyright 2024 PKU-Alignment Team. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+export TRITON_CACHE_DIR="/home/align-anything/cache/triton"
+# You can replace it with a local model path
+MODEL_NAME_OR_PATH="/data/align-anything/hantao/models/0916_ti_to_ti_sft/"
+# You can replace it with a local dataset path
+TRAIN_DATASETS="/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs"
+TRAIN_DATA_FILES="llf_ti2ti_13.5k_tokenized.pt"
+# You can replace it with a new path
+OUTPUT_DIR="../outputs/sft_tf_cham_1111_13.5k_ti2ti"
+# For wandb online logging
+export WANDB_API_KEY="7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33"
+# Source the setup script
+source ./setup.sh
+# sleep 30m
+# Execute deepspeed command
+deepspeed \
+	--master_port ${MASTER_PORT} \
+	--module align_anything.trainers.text_image_to_text_image.sft \
+	--model_name_or_path ${MODEL_NAME_OR_PATH} \
+	--train_datasets ${TRAIN_DATASETS} \
+	--train_data_files ${TRAIN_DATA_FILES} \
+	--output_dir ${OUTPUT_DIR} \
+	--train_template AA_textfeedback \
+	--train_split train \
+	--per_device_train_batch_size 4 \
+	--per_device_eval_batch_size 4 \
+	--gradient_accumulation_steps 2 \
+	--save_interval 400 \
+	--learning_rate 1e-6 \
+	--epochs 3 \
+	--lr_scheduler_type cosine
+export TRITON_CACHE_DIR="/home/align-anything/cache/triton"
+# You can replace it with a local model path
+MODEL_NAME_OR_PATH="/data/align-anything/hantao/models/0916_ti_to_ti_sft/"
+# You can replace it with a local dataset path
+TRAIN_DATASETS="/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs"
+TRAIN_DATA_FILES="llf_ti2ti_6.75k_tokenized.pt"
+# You can replace it with a new path
+OUTPUT_DIR="../outputs/sft_tf_cham_1111_6.75k_ti2ti"
+# For wandb online logging
+export WANDB_API_KEY="7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33"
+# Source the setup script
+source ./setup.sh
+# sleep 30m
+# Execute deepspeed command
+deepspeed \
+	--master_port ${MASTER_PORT} \
+	--module align_anything.trainers.text_image_to_text_image.sft \
+	--model_name_or_path ${MODEL_NAME_OR_PATH} \
+	--train_datasets ${TRAIN_DATASETS} \
+	--train_data_files ${TRAIN_DATA_FILES} \
+	--output_dir ${OUTPUT_DIR} \
+	--train_template AA_textfeedback \
+	--train_split train \
+	--per_device_train_batch_size 4 \
+	--per_device_eval_batch_size 4 \
+	--gradient_accumulation_steps 2 \
+	--save_interval 400 \
+	--learning_rate 1e-6 \
+	--epochs 3 \
+	--lr_scheduler_type cosine

slice_1200/arguments.yaml ADDED Viewed

	@@ -0,0 +1,49 @@

+data_cfgs:
+  eval_data_files: null
+  eval_datasets: null
+  eval_optional_args: []
+  eval_size: null
+  eval_split: null
+  eval_subset: null
+  eval_template: null
+  train_data_files: llf_ti2ti_13.5k_tokenized.pt
+  train_datasets: /data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs
+  train_optional_args: []
+  train_size: null
+  train_split: train
+  train_subset: null
+  train_template: AA_textfeedback
+logger_cfgs:
+  cache_dir: null
+  log_project: align-anything
+  log_run_name: sft
+  log_type: wandb
+  output_dir: ../outputs/sft_tf_cham_1111_13.5k_ti2ti
+  save_interval: 400.0
+model_cfgs:
+  model_max_length: 4096
+  model_name_or_path: /data/align-anything/hantao/models/0916_ti_to_ti_sft/
+  trust_remote_code: true
+special_tokens: null
+train_cfgs:
+  adam_betas:
+  - 0.9
+  - 0.95
+  adam_epsilon: 1.0e-08
+  bf16: true
+  ds_cfgs: ds_z3_config.json
+  epochs: 3.0
+  eval_interval: 1000
+  eval_strategy: steps
+  fp16: false
+  freeze_language_model: false
+  gradient_accumulation_steps: 2.0
+  gradient_checkpointing: true
+  learning_rate: 1.0e-06
+  lr_scheduler_type: cosine
+  lr_warmup_ratio: 0.03
+  max_grad_norm: 1.0
+  per_device_eval_batch_size: 4.0
+  per_device_train_batch_size: 4.0
+  seed: 42
+  weight_decay: 0.0

slice_1200/config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

slice_1200/environ.txt ADDED Viewed

	@@ -0,0 +1,149 @@

+ADDR2LINE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-addr2line
+AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ar
+AS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-as
+BROWSER=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/bin/helpers/browser.sh
+BUILD=x86_64-conda-linux-gnu
+CC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CC_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CMAKE_PREFIX_PATH=/data/align-anything/miniconda3/envs/jy-s:/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot/usr
+COLORTERM=truecolor
+CONDA_BACKUP_ADDR2LINE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-addr2line
+CONDA_BACKUP_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ar
+CONDA_BACKUP_AS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-as
+CONDA_BACKUP_BUILD=x86_64-conda-linux-gnu
+CONDA_BACKUP_CC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CONDA_BACKUP_CC_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CONDA_BACKUP_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CMAKE_PREFIX_PATH=/data/align-anything/miniconda3/envs/jy-s:/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot/usr
+CONDA_BACKUP_CONDA_BUILD_SYSROOT=/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot
+CONDA_BACKUP_CPP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cpp
+CONDA_BACKUP_CPPFLAGS=-DNDEBUG -D_FORTIFY_SOURCE=2 -O2 -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CONDA_BACKUP_CXXFILT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++filt
+CONDA_BACKUP_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CXX_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CONDA_BACKUP_DEBUG_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_DEBUG_CPPFLAGS=-D_DEBUG -D_FORTIFY_SOURCE=2 -Og -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_DEBUG_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_ELFEDIT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-elfedit
+CONDA_BACKUP_GCC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc
+CONDA_BACKUP_GCC_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ar
+CONDA_BACKUP_GCC_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-nm
+CONDA_BACKUP_GCC_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ranlib
+CONDA_BACKUP_GPROF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gprof
+CONDA_BACKUP_GXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-g++
+CONDA_BACKUP_HOST=x86_64-conda-linux-gnu
+CONDA_BACKUP_LD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld
+CONDA_BACKUP_LDFLAGS=-Wl,-O2 -Wl,--sort-common -Wl,--as-needed -Wl,-z,relro -Wl,-z,now -Wl,--disable-new-dtags -Wl,--gc-sections -Wl,-rpath,/data/align-anything/miniconda3/envs/jy-s/lib -Wl,-rpath-link,/data/align-anything/miniconda3/envs/jy-s/lib -L/data/align-anything/miniconda3/envs/jy-s/lib  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_LD_GOLD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld.gold
+CONDA_BACKUP_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-nm
+CONDA_BACKUP_OBJCOPY=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objcopy
+CONDA_BACKUP_OBJDUMP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objdump
+CONDA_BACKUP_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ranlib
+CONDA_BACKUP_READELF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-readelf
+CONDA_BACKUP_SIZE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-size
+CONDA_BACKUP_STRINGS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strings
+CONDA_BACKUP_STRIP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strip
+CONDA_BACKUP_build_alias=x86_64-conda-linux-gnu
+CONDA_BACKUP_host_alias=x86_64-conda-linux-gnu
+CONDA_BUILD_SYSROOT=/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot
+CONDA_DEFAULT_ENV=hantao_cham
+CONDA_EXE=/data/align-anything/miniconda3/bin/conda
+CONDA_PREFIX=/data/align-anything/miniconda3/envs/hantao_cham
+CONDA_PREFIX_1=/home/align-anything/miniconda3
+CONDA_PREFIX_2=/data/align-anything/miniconda3/envs/jy-s
+CONDA_PREFIX_3=/home/align-anything/miniconda3
+CONDA_PREFIX_4=/data/align-anything/miniconda3
+CONDA_PROMPT_MODIFIER=(hantao_cham)
+CONDA_PYTHON_EXE=/data/align-anything/miniconda3/bin/python
+CONDA_ROOT=/home/align-anything/miniconda3
+CONDA_SHLVL=5
+CPP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cpp
+CPPFLAGS=-DNDEBUG -D_FORTIFY_SOURCE=2 -O2 -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CROSS_RANK=0
+CROSS_SIZE=1
+CUDA_MODULE_LOADING=LAZY
+CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+CXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CXXFILT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++filt
+CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CXX_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/2000/bus
+DEBUG_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+DEBUG_CPPFLAGS=-D_DEBUG -D_FORTIFY_SOURCE=2 -Og -isystem /data/align-anything/miniconda3/envs/jy-s/include
+DEBUG_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+ELFEDIT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-elfedit
+GCC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc
+GCC_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ar
+GCC_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-nm
+GCC_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ranlib
+GIT_ASKPASS=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/extensions/git/dist/askpass.sh
+GPROF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gprof
+GXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-g++
+HOME=/home/align-anything
+HOST=x86_64-conda-linux-gnu
+LANG=en_US.UTF-8
+LD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld
+LDFLAGS=-Wl,-O2 -Wl,--sort-common -Wl,--as-needed -Wl,-z,relro -Wl,-z,now -Wl,--disable-new-dtags -Wl,--gc-sections -Wl,-rpath,/data/align-anything/miniconda3/envs/jy-s/lib -Wl,-rpath-link,/data/align-anything/miniconda3/envs/jy-s/lib -L/data/align-anything/miniconda3/envs/jy-s/lib  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+LD_GOLD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld.gold
+LD_LIBRARY_PATH=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/../../lib64:
+LESSCLOSE=/usr/bin/lesspipe %s %s
+LESSOPEN=| /usr/bin/lesspipe %s
+LOCAL_RANK=0
+LOCAL_SIZE=8
+LOGLEVEL=WARNING
+LOGNAME=align-anything
+LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.webp=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:
+MASTER_ADDR=127.0.0.1
+MASTER_PORT=19698
+MOTD_SHOWN=pam
+NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-nm
+NVCC_PREPEND_FLAGS= -ccbin=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+OBJCOPY=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objcopy
+OBJDUMP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objdump
+OLDPWD=/data/align-anything/hantao/align-anything/projects/text_image_to_text_image
+PATH=/data/align-anything/miniconda3/envs/hantao_cham/bin:/home/align-anything/miniconda3/bin:/home/align-anything/miniconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin
+PWD=/data/align-anything/hantao/align-anything/scripts
+PYGAME_HIDE_SUPPORT_PROMPT=1
+PYTHONHASHSEED=42
+PYTHONPATH=/data/align-anything/hantao/align-anything
+QT_QPA_FONTDIR=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/qt/fonts
+QT_QPA_PLATFORM_PLUGIN_PATH=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/qt/plugins
+RANK=0
+RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ranlib
+READELF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-readelf
+SHELL=/bin/bash
+SHLVL=3
+SIZE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-size
+SSH_CLIENT=203.93.11.8 7409 30800
+SSH_CONNECTION=111.205.230.212 11374 10.10.212.198 30800
+SSL_CERT_DIR=/usr/lib/ssl/certs
+SSL_CERT_FILE=/usr/lib/ssl/certs/ca-certificates.crt
+STRINGS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strings
+STRIP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strip
+TERM=screen
+TERM_PROGRAM=tmux
+TERM_PROGRAM_VERSION=3.2a
+TMUX=/tmp/tmux-2000/default,2557274,4
+TMUX_PANE=%4
+TRITON_CACHE_DIR=/home/align-anything/cache/triton
+USER=align-anything
+VSCODE_GIT_ASKPASS_EXTRA_ARGS=
+VSCODE_GIT_ASKPASS_MAIN=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/extensions/git/dist/askpass-main.js
+VSCODE_GIT_ASKPASS_NODE=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/node
+VSCODE_GIT_IPC_HANDLE=/run/user/2000/vscode-git-d8ae57dc60.sock
+VSCODE_IPC_HOOK_CLI=/run/user/2000/vscode-ipc-45219155-ac87-45dc-978b-d20ac490d167.sock
+WANDB_API_KEY=7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33
+WANDB_SERVICE=2-3212652-tcp-localhost-41187
+WORLD_SIZE=8
+XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop
+XDG_RUNTIME_DIR=/run/user/2000
+XDG_SESSION_CLASS=user
+XDG_SESSION_ID=446
+XDG_SESSION_TYPE=tty
+_=/data/align-anything/miniconda3/envs/hantao_cham/bin/deepspeed
+_CE_CONDA=
+_CE_M=
+build_alias=x86_64-conda-linux-gnu
+host_alias=x86_64-conda-linux-gnu

slice_1200/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "crop_size": {
+    "height": 512,
+    "width": 512
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    1.0,
+    1.0,
+    1.0
+  ],
+  "image_processor_type": "ChameleonImageProcessor",
+  "image_std": [
+    1.0,
+    1.0,
+    1.0
+  ],
+  "processor_class": "ChameleonProcessor",
+  "resample": 1,
+  "rescale_factor": 0.0078,
+  "size": {
+    "shortest_edge": 512
+  }
+}

slice_1200/processor_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "image_seq_length": 1024,
+  "image_token": "<image>",
+  "processor_class": "ChameleonProcessor"
+}

slice_1200/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ff0d39a7919fdd9e8cb64d7b6717ceef60f5ef14432e42c38ce344895fca353
+size 14086366930

slice_1200/script.sh ADDED Viewed

	@@ -0,0 +1,81 @@

+#!/usr/bin/env bash
+#
+# Copyright 2024 PKU-Alignment Team. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+export TRITON_CACHE_DIR="/home/align-anything/cache/triton"
+# You can replace it with a local model path
+MODEL_NAME_OR_PATH="/data/align-anything/hantao/models/0916_ti_to_ti_sft/"
+# You can replace it with a local dataset path
+TRAIN_DATASETS="/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs"
+TRAIN_DATA_FILES="llf_ti2ti_13.5k_tokenized.pt"
+# You can replace it with a new path
+OUTPUT_DIR="../outputs/sft_tf_cham_1111_13.5k_ti2ti"
+# For wandb online logging
+export WANDB_API_KEY="7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33"
+# Source the setup script
+source ./setup.sh
+# sleep 30m
+# Execute deepspeed command
+deepspeed \
+	--master_port ${MASTER_PORT} \
+	--module align_anything.trainers.text_image_to_text_image.sft \
+	--model_name_or_path ${MODEL_NAME_OR_PATH} \
+	--train_datasets ${TRAIN_DATASETS} \
+	--train_data_files ${TRAIN_DATA_FILES} \
+	--output_dir ${OUTPUT_DIR} \
+	--train_template AA_textfeedback \
+	--train_split train \
+	--per_device_train_batch_size 4 \
+	--per_device_eval_batch_size 4 \
+	--gradient_accumulation_steps 2 \
+	--save_interval 400 \
+	--learning_rate 1e-6 \
+	--epochs 3 \
+	--lr_scheduler_type cosine
+export TRITON_CACHE_DIR="/home/align-anything/cache/triton"
+# You can replace it with a local model path
+MODEL_NAME_OR_PATH="/data/align-anything/hantao/models/0916_ti_to_ti_sft/"
+# You can replace it with a local dataset path
+TRAIN_DATASETS="/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs"
+TRAIN_DATA_FILES="llf_ti2ti_6.75k_tokenized.pt"
+# You can replace it with a new path
+OUTPUT_DIR="../outputs/sft_tf_cham_1111_6.75k_ti2ti"
+# For wandb online logging
+export WANDB_API_KEY="7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33"
+# Source the setup script
+source ./setup.sh
+# sleep 30m
+# Execute deepspeed command
+deepspeed \
+	--master_port ${MASTER_PORT} \
+	--module align_anything.trainers.text_image_to_text_image.sft \
+	--model_name_or_path ${MODEL_NAME_OR_PATH} \
+	--train_datasets ${TRAIN_DATASETS} \
+	--train_data_files ${TRAIN_DATA_FILES} \
+	--output_dir ${OUTPUT_DIR} \
+	--train_template AA_textfeedback \
+	--train_split train \
+	--per_device_train_batch_size 4 \
+	--per_device_eval_batch_size 4 \
+	--gradient_accumulation_steps 2 \
+	--save_interval 400 \
+	--learning_rate 1e-6 \
+	--epochs 3 \
+	--lr_scheduler_type cosine

slice_1200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<reserved08706>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

slice_1200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

slice_1200/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

slice_1200/wandb/debug-internal.log ADDED Viewed

	@@ -0,0 +1,21 @@

+{"time":"2024-11-11T09:50:28.93257347Z","level":"INFO","msg":"using version","core version":"0.18.3"}
+{"time":"2024-11-11T09:50:28.932602745Z","level":"INFO","msg":"created symlink","path":"../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-core.log"}
+{"time":"2024-11-11T09:50:28.93714017Z","level":"ERROR","msg":"dialing: google: could not find default credentials. See https://cloud.google.com/docs/authentication/external/set-up-adc for more information"}
+{"time":"2024-11-11T09:50:28.968182627Z","level":"INFO","msg":"created new stream","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968263994Z","level":"INFO","msg":"stream: started","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968288809Z","level":"INFO","msg":"sender: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968279236Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968330962Z","level":"INFO","msg":"handler: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:34.632278843Z","level":"INFO","msg":"wandb-core","!BADKEY":null}
+{"time":"2024-11-11T09:50:34.636084019Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-11T11:20:45.19395353Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/htlou/align-anything/sq0dhwvm/file_stream\": dial tcp 35.186.228.49:443: connect: connection timed out"}
+{"time":"2024-11-11T11:45:29.821937086Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-11T11:45:29.846984762Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-11T11:45:30.253659937Z","level":"WARN","msg":"No program path found, not creating job artifact. See https://docs.wandb.ai/guides/launch/create-job"}
+{"time":"2024-11-11T11:45:30.253692046Z","level":"INFO","msg":"sender: sendDefer: no job artifact to save"}
+{"time":"2024-11-11T11:45:30.882510953Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-11T11:45:32.320976723Z","level":"INFO","msg":"stream: closing","id":"sq0dhwvm"}
+{"time":"2024-11-11T11:45:32.321006242Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321051996Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321127635Z","level":"INFO","msg":"sender: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.323850284Z","level":"INFO","msg":"stream: closed","id":"sq0dhwvm"}

slice_1200/wandb/debug.log ADDED Viewed

	@@ -0,0 +1,33 @@

+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Current SDK version is 0.18.3
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Configure stats pid to 3212652
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /home/align-anything/.config/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /data/align-anything/hantao/align-anything/scripts/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from environment variables: {'api_key': '***REDACTED***'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-11 09:50:28,918 WARNING MainThread:3212652 [wandb_setup.py:_flush():79] Could not find program at -m align_anything.trainers.text_image_to_text_image.sft
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': None, 'program': '-m align_anything.trainers.text_image_to_text_image.sft'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():532] Logging user logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():533] Logging internal logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():617] calling init triggers
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():624] wandb.init called with sweep_config: {}
+config: {'train_cfgs': {'ds_cfgs': 'ds_z3_config.json', 'epochs': 3.0, 'seed': 42, 'per_device_train_batch_size': 4.0, 'per_device_eval_batch_size': 4.0, 'gradient_accumulation_steps': 2.0, 'gradient_checkpointing': True, 'learning_rate': 1e-06, 'lr_scheduler_type': 'cosine', 'lr_warmup_ratio': 0.03, 'weight_decay': 0.0, 'adam_betas': [0.9, 0.95], 'adam_epsilon': 1e-08, 'bf16': True, 'fp16': False, 'eval_strategy': 'steps', 'eval_interval': 1000, 'freeze_language_model': False, 'max_grad_norm': 1.0}, 'data_cfgs': {'train_datasets': '/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs', 'train_template': 'AA_textfeedback', 'train_size': None, 'train_split': 'train', 'train_subset': None, 'train_data_files': 'llf_ti2ti_13.5k_tokenized.pt', 'train_optional_args': [], 'eval_datasets': None, 'eval_template': None, 'eval_size': None, 'eval_split': None, 'eval_subset': None, 'eval_data_files': None, 'eval_optional_args': []}, 'logger_cfgs': {'log_type': 'wandb', 'log_project': 'align-anything', 'log_run_name': 'sft', 'output_dir': '../outputs/sft_tf_cham_1111_13.5k_ti2ti', 'cache_dir': None, 'save_interval': 400.0}, 'model_cfgs': {'model_name_or_path': '/data/align-anything/hantao/models/0916_ti_to_ti_sft/', 'trust_remote_code': True, 'model_max_length': 4096}, 'special_tokens': None}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():667] starting backend
+2024-11-11 09:50:28,919 INFO    MainThread:3212652 [wandb_init.py:init():671] sending inform_init request
+2024-11-11 09:50:28,924 INFO    MainThread:3212652 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-11 09:50:28,925 INFO    MainThread:3212652 [wandb_init.py:init():684] backend started and connected
+2024-11-11 09:50:28,929 INFO    MainThread:3212652 [wandb_init.py:init():779] updated telemetry
+2024-11-11 09:50:28,983 INFO    MainThread:3212652 [wandb_init.py:init():812] communicating run to backend with 90.0 second timeout
+2024-11-11 09:50:34,620 INFO    MainThread:3212652 [wandb_init.py:init():863] starting run threads in backend
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_console_start():2465] atexit reg
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_redirect():2313] redirect: wrap_raw
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2378] Wrapping output streams.
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2403] Redirects installed.
+2024-11-11 09:50:35,184 INFO    MainThread:3212652 [wandb_init.py:init():907] run started, returning control to user process
+2024-11-11 11:45:29,778 INFO    MainThread:3212652 [wandb_run.py:_finish():2164] finishing run htlou/align-anything/sq0dhwvm
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_atexit_cleanup():2428] got exitcode: 0
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2410] restore
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2416] restore done
+2024-11-11 11:45:32,305 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4049] rendering history
+2024-11-11 11:45:32,307 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4081] rendering summary
+2024-11-11 11:45:32,318 INFO    MainThread:3212652 [wandb_run.py:_footer_sync_info():4008] logging synced files

slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/config.yaml ADDED Viewed

	@@ -0,0 +1,96 @@

+_wandb:
+    value:
+        cli_version: 0.18.3
+        m: []
+        python_version: 3.11.10
+        t:
+            "1":
+                - 1
+                - 11
+                - 41
+                - 49
+                - 51
+                - 55
+                - 71
+                - 83
+                - 98
+                - 105
+            "2":
+                - 1
+                - 11
+                - 41
+                - 49
+                - 51
+                - 55
+                - 71
+                - 83
+                - 98
+                - 105
+            "3":
+                - 2
+                - 13
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.11.10
+            "5": 0.18.3
+            "6": 4.46.0.dev0
+            "8":
+                - 5
+            "12": 0.18.3
+            "13": linux-x86_64
+data_cfgs:
+    value:
+        eval_data_files: null
+        eval_datasets: null
+        eval_optional_args: []
+        eval_size: null
+        eval_split: null
+        eval_subset: null
+        eval_template: null
+        train_data_files: llf_ti2ti_13.5k_tokenized.pt
+        train_datasets: /data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs
+        train_optional_args: []
+        train_size: null
+        train_split: train
+        train_subset: null
+        train_template: AA_textfeedback
+logger_cfgs:
+    value:
+        cache_dir: null
+        log_project: align-anything
+        log_run_name: sft
+        log_type: wandb
+        output_dir: ../outputs/sft_tf_cham_1111_13.5k_ti2ti
+        save_interval: 400
+model_cfgs:
+    value:
+        model_max_length: 4096
+        model_name_or_path: /data/align-anything/hantao/models/0916_ti_to_ti_sft/
+        trust_remote_code: true
+special_tokens:
+    value: null
+train_cfgs:
+    value:
+        adam_betas:
+            - 0.9
+            - 0.95
+        adam_epsilon: 1e-08
+        bf16: true
+        ds_cfgs: ds_z3_config.json
+        epochs: 3
+        eval_interval: 1000
+        eval_strategy: steps
+        fp16: false
+        freeze_language_model: false
+        gradient_accumulation_steps: 2
+        gradient_checkpointing: true
+        learning_rate: 1e-06
+        lr_scheduler_type: cosine
+        lr_warmup_ratio: 0.03
+        max_grad_norm: 1
+        per_device_eval_batch_size: 4
+        per_device_train_batch_size: 4
+        seed: 42
+        weight_decay: 0

slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/output.log ADDED Viewed

	@@ -0,0 +1,195 @@

+***** Running training *****
+Training 1/3.0 epoch:   0%|                                                                                                                                        | 0/1266.0 [00:00<?, ?it/s]`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
+Training 1/3.0 epoch (loss 0.6685):  25%|███████████████████████████▋                                                                                  | 319/1266.0 [28:07<1:20:30,  5.10s/it]
+[2024-11-11 09:52:24,616] [INFO] [logging.py:96:log_dist] [Rank 0] step=10, skipped=0, lr=[5.555555555555555e-07, 5.555555555555555e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:52:24,617] [INFO] [timer.py:264:stop] epoch=0/micro_step=20/global_step=10, RunningAvgSamplesPerSec=6.195061818187147, CurrSamplesPerSec=6.335947040765943, MemAllocated=14.07GB, MaxMemAllocated=25.28GB
+[2024-11-11 09:54:06,853] [INFO] [logging.py:96:log_dist] [Rank 0] step=20, skipped=0, lr=[9.999739056948805e-07, 9.999739056948805e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:54:06,854] [INFO] [timer.py:264:stop] epoch=0/micro_step=40/global_step=20, RunningAvgSamplesPerSec=6.316656927899698, CurrSamplesPerSec=6.164126358699434, MemAllocated=14.07GB, MaxMemAllocated=25.28GB
+[2024-11-11 09:55:53,507] [INFO] [logging.py:96:log_dist] [Rank 0] step=30, skipped=0, lr=[9.99060890967219e-07, 9.99060890967219e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:55:53,508] [INFO] [timer.py:264:stop] epoch=0/micro_step=60/global_step=30, RunningAvgSamplesPerSec=6.248466505115529, CurrSamplesPerSec=7.491092861751436, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 09:57:41,293] [INFO] [logging.py:96:log_dist] [Rank 0] step=40, skipped=0, lr=[9.968458833570276e-07, 9.968458833570276e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:57:41,294] [INFO] [timer.py:264:stop] epoch=0/micro_step=80/global_step=40, RunningAvgSamplesPerSec=6.196372346586397, CurrSamplesPerSec=6.409875261403376, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 09:59:23,446] [INFO] [logging.py:96:log_dist] [Rank 0] step=50, skipped=0, lr=[9.933346615662559e-07, 9.933346615662559e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:59:23,447] [INFO] [timer.py:264:stop] epoch=0/micro_step=100/global_step=50, RunningAvgSamplesPerSec=6.246806387061766, CurrSamplesPerSec=7.260616697354314, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:01:09,165] [INFO] [logging.py:96:log_dist] [Rank 0] step=60, skipped=0, lr=[9.885363859716496e-07, 9.885363859716496e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:01:09,166] [INFO] [timer.py:264:stop] epoch=0/micro_step=120/global_step=60, RunningAvgSamplesPerSec=6.2467760579358185, CurrSamplesPerSec=5.904287617244474, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:02:58,559] [INFO] [logging.py:96:log_dist] [Rank 0] step=70, skipped=0, lr=[9.824635747263753e-07, 9.824635747263753e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:02:58,560] [INFO] [timer.py:264:stop] epoch=0/micro_step=140/global_step=70, RunningAvgSamplesPerSec=6.205922498836564, CurrSamplesPerSec=7.320670588968733, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:04:44,012] [INFO] [logging.py:96:log_dist] [Rank 0] step=80, skipped=0, lr=[9.75132071101588e-07, 9.75132071101588e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:04:44,013] [INFO] [timer.py:264:stop] epoch=0/micro_step=160/global_step=80, RunningAvgSamplesPerSec=6.20796558015961, CurrSamplesPerSec=6.143883631130097, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:06:26,906] [INFO] [logging.py:96:log_dist] [Rank 0] step=90, skipped=0, lr=[9.665610021531446e-07, 9.665610021531446e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:06:26,907] [INFO] [timer.py:264:stop] epoch=0/micro_step=180/global_step=90, RunningAvgSamplesPerSec=6.223837975387682, CurrSamplesPerSec=7.466477040673676, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:08:15,344] [INFO] [logging.py:96:log_dist] [Rank 0] step=100, skipped=0, lr=[9.567727288213004e-07, 9.567727288213004e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:08:15,345] [INFO] [timer.py:264:stop] epoch=0/micro_step=200/global_step=100, RunningAvgSamplesPerSec=6.209057201170874, CurrSamplesPerSec=5.302689344409979, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:10:01,328] [INFO] [logging.py:96:log_dist] [Rank 0] step=110, skipped=0, lr=[9.457927875935681e-07, 9.457927875935681e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:10:01,329] [INFO] [timer.py:264:stop] epoch=0/micro_step=220/global_step=110, RunningAvgSamplesPerSec=6.208473867040452, CurrSamplesPerSec=7.698975362834649, MemAllocated=14.07GB, MaxMemAllocated=29.74GB
+[2024-11-11 10:11:47,804] [INFO] [logging.py:96:log_dist] [Rank 0] step=120, skipped=0, lr=[9.336498238829382e-07, 9.336498238829382e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:11:47,804] [INFO] [timer.py:264:stop] epoch=0/micro_step=240/global_step=120, RunningAvgSamplesPerSec=6.202644364760127, CurrSamplesPerSec=7.252698675359632, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:13:25,206] [INFO] [logging.py:96:log_dist] [Rank 0] step=130, skipped=0, lr=[9.203755172952665e-07, 9.203755172952665e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:13:25,207] [INFO] [timer.py:264:stop] epoch=0/micro_step=260/global_step=130, RunningAvgSamplesPerSec=6.240439626002477, CurrSamplesPerSec=6.299954067945365, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:15:07,236] [INFO] [logging.py:96:log_dist] [Rank 0] step=140, skipped=0, lr=[9.060044989808009e-07, 9.060044989808009e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:15:07,237] [INFO] [timer.py:264:stop] epoch=0/micro_step=280/global_step=140, RunningAvgSamplesPerSec=6.253829602651008, CurrSamplesPerSec=6.320296322752446, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:16:59,755] [INFO] [logging.py:96:log_dist] [Rank 0] step=150, skipped=0, lr=[8.905742612854626e-07, 8.905742612854626e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:16:59,756] [INFO] [timer.py:264:stop] epoch=0/micro_step=300/global_step=150, RunningAvgSamplesPerSec=6.220856964798348, CurrSamplesPerSec=6.140029977114886, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:18:48,289] [INFO] [logging.py:96:log_dist] [Rank 0] step=160, skipped=0, lr=[8.741250599375982e-07, 8.741250599375982e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:18:48,289] [INFO] [timer.py:264:stop] epoch=0/micro_step=320/global_step=160, RunningAvgSamplesPerSec=6.20887491385521, CurrSamplesPerSec=6.3240117862507015, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:20:33,500] [INFO] [logging.py:96:log_dist] [Rank 0] step=170, skipped=0, lr=[8.566998090253799e-07, 8.566998090253799e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:20:33,500] [INFO] [timer.py:264:stop] epoch=0/micro_step=340/global_step=170, RunningAvgSamplesPerSec=6.211329294057541, CurrSamplesPerSec=6.262193329135546, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:22:18,917] [INFO] [logging.py:96:log_dist] [Rank 0] step=180, skipped=0, lr=[8.38343969038849e-07, 8.38343969038849e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:22:18,917] [INFO] [timer.py:264:stop] epoch=0/micro_step=360/global_step=180, RunningAvgSamplesPerSec=6.211341226400399, CurrSamplesPerSec=6.3439491768216785, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:24:04,535] [INFO] [logging.py:96:log_dist] [Rank 0] step=190, skipped=0, lr=[8.191054282686891e-07, 8.191054282686891e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:24:04,536] [INFO] [timer.py:264:stop] epoch=0/micro_step=380/global_step=190, RunningAvgSamplesPerSec=6.210682927569051, CurrSamplesPerSec=6.298895458953062, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:25:42,250] [INFO] [logging.py:96:log_dist] [Rank 0] step=200, skipped=0, lr=[7.990343778711425e-07, 7.990343778711425e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:25:42,251] [INFO] [timer.py:264:stop] epoch=0/micro_step=400/global_step=200, RunningAvgSamplesPerSec=6.233484883515772, CurrSamplesPerSec=7.014839355184877, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving checkpoint at step 400 ...
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 10:25:51,218] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step200 is about to be saved!
+[2024-11-11 10:25:51,219] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin, tag: global_step200
+[2024-11-11 10:25:51,219] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin...
+[2024-11-11 10:26:14,887] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin.
+[2024-11-11 10:26:14,889] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step200 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 10:26:23,191] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step200 is about to be saved!
+[2024-11-11 10:26:23,192] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin, tag: global_step200
+[2024-11-11 10:26:23,193] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin...
+[2024-11-11 10:26:45,365] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin.
+[2024-11-11 10:26:45,366] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step200 is ready now!
+Model saved!
+Checkpoint saved.
+[2024-11-11 10:28:30,912] [INFO] [logging.py:96:log_dist] [Rank 0] step=210, skipped=0, lr=[7.78183180925015e-07, 7.78183180925015e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:28:30,912] [INFO] [timer.py:264:stop] epoch=0/micro_step=420/global_step=210, RunningAvgSamplesPerSec=6.231559886416094, CurrSamplesPerSec=7.658031726766873, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:30:17,140] [INFO] [logging.py:96:log_dist] [Rank 0] step=220, skipped=0, lr=[7.566062358223813e-07, 7.566062358223813e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:30:17,141] [INFO] [timer.py:264:stop] epoch=1/micro_step=18/global_step=220, RunningAvgSamplesPerSec=6.227392476536316, CurrSamplesPerSec=6.2512248951017435, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:31:58,864] [INFO] [logging.py:96:log_dist] [Rank 0] step=230, skipped=0, lr=[7.343598343493916e-07, 7.343598343493916e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:31:58,865] [INFO] [timer.py:264:stop] epoch=1/micro_step=38/global_step=230, RunningAvgSamplesPerSec=6.236228746087023, CurrSamplesPerSec=6.314374734308299, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:33:47,346] [INFO] [logging.py:96:log_dist] [Rank 0] step=240, skipped=0, lr=[7.115020148274293e-07, 7.115020148274293e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:33:47,347] [INFO] [timer.py:264:stop] epoch=1/micro_step=58/global_step=240, RunningAvgSamplesPerSec=6.227453579084282, CurrSamplesPerSec=4.989636440920279, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:35:34,343] [INFO] [logging.py:96:log_dist] [Rank 0] step=250, skipped=0, lr=[6.880924106977566e-07, 6.880924106977566e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:35:34,343] [INFO] [timer.py:264:stop] epoch=1/micro_step=78/global_step=250, RunningAvgSamplesPerSec=6.22403220340251, CurrSamplesPerSec=6.249119262604737, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:37:16,755] [INFO] [logging.py:96:log_dist] [Rank 0] step=260, skipped=0, lr=[6.641920949446755e-07, 6.641920949446755e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:37:16,755] [INFO] [timer.py:264:stop] epoch=1/micro_step=98/global_step=260, RunningAvgSamplesPerSec=6.229929565927251, CurrSamplesPerSec=6.314551641200963, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:39:00,686] [INFO] [logging.py:96:log_dist] [Rank 0] step=270, skipped=0, lr=[6.39863420763084e-07, 6.39863420763084e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:39:00,687] [INFO] [timer.py:264:stop] epoch=1/micro_step=118/global_step=270, RunningAvgSamplesPerSec=6.234223067872221, CurrSamplesPerSec=5.347220757882646, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:40:52,162] [INFO] [logging.py:96:log_dist] [Rank 0] step=280, skipped=0, lr=[6.151698588861116e-07, 6.151698588861116e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:40:52,163] [INFO] [timer.py:264:stop] epoch=1/micro_step=138/global_step=280, RunningAvgSamplesPerSec=6.22032747774778, CurrSamplesPerSec=5.386764780463646, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:42:36,292] [INFO] [logging.py:96:log_dist] [Rank 0] step=290, skipped=0, lr=[5.901758319972226e-07, 5.901758319972226e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:42:36,293] [INFO] [timer.py:264:stop] epoch=1/micro_step=158/global_step=290, RunningAvgSamplesPerSec=6.223707028785581, CurrSamplesPerSec=6.004583836826392, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:44:21,117] [INFO] [logging.py:96:log_dist] [Rank 0] step=300, skipped=0, lr=[5.649465466587902e-07, 5.649465466587902e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:44:21,117] [INFO] [timer.py:264:stop] epoch=1/micro_step=178/global_step=300, RunningAvgSamplesPerSec=6.22408930425845, CurrSamplesPerSec=6.223819151883097, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:46:05,125] [INFO] [logging.py:96:log_dist] [Rank 0] step=310, skipped=0, lr=[5.395478231956219e-07, 5.395478231956219e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:46:05,126] [INFO] [timer.py:264:stop] epoch=1/micro_step=198/global_step=310, RunningAvgSamplesPerSec=6.226128614306769, CurrSamplesPerSec=6.262398734901036, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:47:53,756] [INFO] [logging.py:96:log_dist] [Rank 0] step=320, skipped=0, lr=[5.140459239772456e-07, 5.140459239772456e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:47:53,757] [INFO] [timer.py:264:stop] epoch=1/micro_step=218/global_step=320, RunningAvgSamplesPerSec=6.219037182578649, CurrSamplesPerSec=5.474378062298524, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:49:39,475] [INFO] [logging.py:96:log_dist] [Rank 0] step=330, skipped=0, lr=[4.885073805469548e-07, 4.885073805469548e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:49:39,476] [INFO] [timer.py:264:stop] epoch=1/micro_step=238/global_step=330, RunningAvgSamplesPerSec=6.218320029955548, CurrSamplesPerSec=6.184670912366926, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:51:15,751] [INFO] [logging.py:96:log_dist] [Rank 0] step=340, skipped=0, lr=[4.629988200486073e-07, 4.629988200486073e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:51:15,751] [INFO] [timer.py:264:stop] epoch=1/micro_step=258/global_step=340, RunningAvgSamplesPerSec=6.234659527486788, CurrSamplesPerSec=6.166076513611049, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:52:57,448] [INFO] [logging.py:96:log_dist] [Rank 0] step=350, skipped=0, lr=[4.3758679140401534e-07, 4.3758679140401534e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:52:57,448] [INFO] [timer.py:264:stop] epoch=1/micro_step=278/global_step=350, RunningAvgSamplesPerSec=6.2408272898718575, CurrSamplesPerSec=5.479743497267358, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:54:49,320] [INFO] [logging.py:96:log_dist] [Rank 0] step=360, skipped=0, lr=[4.123375916944061e-07, 4.123375916944061e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:54:49,321] [INFO] [timer.py:264:stop] epoch=1/micro_step=298/global_step=360, RunningAvgSamplesPerSec=6.228467713430319, CurrSamplesPerSec=5.247047078296396, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:56:37,584] [INFO] [logging.py:96:log_dist] [Rank 0] step=370, skipped=0, lr=[3.8731709319890747e-07, 3.8731709319890747e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:56:37,585] [INFO] [timer.py:264:stop] epoch=1/micro_step=318/global_step=370, RunningAvgSamplesPerSec=6.223037095561094, CurrSamplesPerSec=6.317240925196704, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:58:22,183] [INFO] [logging.py:96:log_dist] [Rank 0] step=380, skipped=0, lr=[3.6259057154129225e-07, 3.6259057154129225e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:58:22,183] [INFO] [timer.py:264:stop] epoch=1/micro_step=338/global_step=380, RunningAvgSamplesPerSec=6.224228924255615, CurrSamplesPerSec=5.1994408858020025, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:00:07,320] [INFO] [logging.py:96:log_dist] [Rank 0] step=390, skipped=0, lr=[3.382225353933288e-07, 3.382225353933288e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:00:07,321] [INFO] [timer.py:264:stop] epoch=1/micro_step=358/global_step=390, RunningAvgSamplesPerSec=6.224158604390081, CurrSamplesPerSec=6.24098657587071, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:01:52,825] [INFO] [logging.py:96:log_dist] [Rank 0] step=400, skipped=0, lr=[3.142765581790224e-07, 3.142765581790224e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:01:52,826] [INFO] [timer.py:264:stop] epoch=1/micro_step=378/global_step=400, RunningAvgSamplesPerSec=6.224258305845644, CurrSamplesPerSec=5.508992960001429, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving checkpoint at step 800 ...
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 11:02:01,814] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step400 is about to be saved!
+[2024-11-11 11:02:01,815] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin, tag: global_step400
+[2024-11-11 11:02:01,815] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin...
+[2024-11-11 11:02:24,168] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin.
+[2024-11-11 11:02:24,170] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step400 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 11:02:32,111] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step400 is about to be saved!
+[2024-11-11 11:02:32,112] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin, tag: global_step400
+[2024-11-11 11:02:32,112] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin...
+[2024-11-11 11:02:53,588] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin.
+[2024-11-11 11:02:53,590] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step400 is ready now!
+Model saved!
+Checkpoint saved.
+[2024-11-11 11:04:32,610] [INFO] [logging.py:96:log_dist] [Rank 0] step=410, skipped=0, lr=[2.9081511221881027e-07, 2.9081511221881027e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:04:32,611] [INFO] [timer.py:264:stop] epoch=1/micro_step=398/global_step=410, RunningAvgSamplesPerSec=6.233501350397177, CurrSamplesPerSec=7.624818018964297, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:06:18,893] [INFO] [logging.py:96:log_dist] [Rank 0] step=420, skipped=0, lr=[2.67899405746411e-07, 2.67899405746411e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:06:18,894] [INFO] [timer.py:264:stop] epoch=1/micro_step=418/global_step=420, RunningAvgSamplesPerSec=6.2314715200711, CurrSamplesPerSec=5.346454162982587, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:08:03,330] [INFO] [logging.py:96:log_dist] [Rank 0] step=430, skipped=0, lr=[2.4558922322353115e-07, 2.4558922322353115e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:08:03,330] [INFO] [timer.py:264:stop] epoch=2/micro_step=16/global_step=430, RunningAvgSamplesPerSec=6.2324828606092995, CurrSamplesPerSec=5.855626964991123, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:09:45,387] [INFO] [logging.py:96:log_dist] [Rank 0] step=440, skipped=0, lr=[2.2394276936903022e-07, 2.2394276936903022e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:09:45,387] [INFO] [timer.py:264:stop] epoch=2/micro_step=36/global_step=440, RunningAvgSamplesPerSec=6.2365997777478235, CurrSamplesPerSec=7.074766361276321, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:11:31,116] [INFO] [logging.py:96:log_dist] [Rank 0] step=450, skipped=0, lr=[2.0301651730945623e-07, 2.0301651730945623e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:11:31,117] [INFO] [timer.py:264:stop] epoch=2/micro_step=56/global_step=450, RunningAvgSamplesPerSec=6.235535040398496, CurrSamplesPerSec=6.263325127446985, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:13:19,722] [INFO] [logging.py:96:log_dist] [Rank 0] step=460, skipped=0, lr=[1.8286506124710487e-07, 1.8286506124710487e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:13:19,723] [INFO] [timer.py:264:stop] epoch=2/micro_step=76/global_step=460, RunningAvgSamplesPerSec=6.230500323816332, CurrSamplesPerSec=6.036847858086253, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:15:02,353] [INFO] [logging.py:96:log_dist] [Rank 0] step=470, skipped=0, lr=[1.6354097402998124e-07, 1.6354097402998124e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:15:02,354] [INFO] [timer.py:264:stop] epoch=2/micro_step=96/global_step=470, RunningAvgSamplesPerSec=6.233932103977919, CurrSamplesPerSec=6.2977051152249395, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:16:42,997] [INFO] [logging.py:96:log_dist] [Rank 0] step=480, skipped=0, lr=[1.4509466999523984e-07, 1.4509466999523984e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:16:42,998] [INFO] [timer.py:264:stop] epoch=2/micro_step=116/global_step=480, RunningAvgSamplesPerSec=6.239483803482549, CurrSamplesPerSec=6.033187064976004, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:18:34,535] [INFO] [logging.py:96:log_dist] [Rank 0] step=490, skipped=0, lr=[1.2757427344393702e-07, 1.2757427344393702e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:18:34,535] [INFO] [timer.py:264:stop] epoch=2/micro_step=136/global_step=490, RunningAvgSamplesPerSec=6.231258151619256, CurrSamplesPerSec=5.3911203096440845, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:20:18,891] [INFO] [logging.py:96:log_dist] [Rank 0] step=500, skipped=0, lr=[1.1102549309022291e-07, 1.1102549309022291e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:20:18,892] [INFO] [timer.py:264:stop] epoch=2/micro_step=156/global_step=500, RunningAvgSamplesPerSec=6.231896275894786, CurrSamplesPerSec=5.431348295652274, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:22:03,897] [INFO] [logging.py:96:log_dist] [Rank 0] step=510, skipped=0, lr=[9.549150281252632e-08, 9.549150281252632e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:22:03,898] [INFO] [timer.py:264:stop] epoch=2/micro_step=176/global_step=510, RunningAvgSamplesPerSec=6.231784979733288, CurrSamplesPerSec=6.118001686313543, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:23:47,595] [INFO] [logging.py:96:log_dist] [Rank 0] step=520, skipped=0, lr=[8.101282901783457e-08, 8.101282901783457e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:23:47,596] [INFO] [timer.py:264:stop] epoch=2/micro_step=196/global_step=520, RunningAvgSamplesPerSec=6.233175716519829, CurrSamplesPerSec=6.4252008944871175, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:25:34,694] [INFO] [logging.py:96:log_dist] [Rank 0] step=530, skipped=0, lr=[6.762724491292555e-08, 6.762724491292555e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:25:34,694] [INFO] [timer.py:264:stop] epoch=2/micro_step=216/global_step=530, RunningAvgSamplesPerSec=6.230586016932243, CurrSamplesPerSec=6.31995020734794, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:27:21,825] [INFO] [logging.py:96:log_dist] [Rank 0] step=540, skipped=0, lr=[5.5369671958383326e-08, 5.5369671958383326e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:27:21,826] [INFO] [timer.py:264:stop] epoch=2/micro_step=236/global_step=540, RunningAvgSamplesPerSec=6.228137586678738, CurrSamplesPerSec=6.294527897652772, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:28:57,980] [INFO] [logging.py:96:log_dist] [Rank 0] step=550, skipped=0, lr=[4.4272088762495554e-08, 4.4272088762495554e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:28:57,981] [INFO] [timer.py:264:stop] epoch=2/micro_step=256/global_step=550, RunningAvgSamplesPerSec=6.237979411534363, CurrSamplesPerSec=7.440681418583277, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:30:37,963] [INFO] [logging.py:96:log_dist] [Rank 0] step=560, skipped=0, lr=[3.4363447652715425e-08, 3.4363447652715425e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:30:37,963] [INFO] [timer.py:264:stop] epoch=2/micro_step=276/global_step=560, RunningAvgSamplesPerSec=6.2432383070279265, CurrSamplesPerSec=6.325613791478562, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:32:29,640] [INFO] [logging.py:96:log_dist] [Rank 0] step=570, skipped=0, lr=[2.5669599142344954e-08, 2.5669599142344954e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:32:29,641] [INFO] [timer.py:264:stop] epoch=2/micro_step=296/global_step=570, RunningAvgSamplesPerSec=6.235729072836607, CurrSamplesPerSec=6.363454933868642, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:34:19,919] [INFO] [logging.py:96:log_dist] [Rank 0] step=580, skipped=0, lr=[1.8213224489497525e-08, 1.8213224489497525e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:34:19,920] [INFO] [timer.py:264:stop] epoch=2/micro_step=316/global_step=580, RunningAvgSamplesPerSec=6.229848630704788, CurrSamplesPerSec=5.9735175986720614, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:36:02,300] [INFO] [logging.py:96:log_dist] [Rank 0] step=590, skipped=0, lr=[1.2013776524284869e-08, 1.2013776524284869e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:36:02,300] [INFO] [timer.py:264:stop] epoch=2/micro_step=336/global_step=590, RunningAvgSamplesPerSec=6.232535497944164, CurrSamplesPerSec=7.393825768980957, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:37:49,415] [INFO] [logging.py:96:log_dist] [Rank 0] step=600, skipped=0, lr=[7.087428898604974e-09, 7.087428898604974e-09], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:37:49,415] [INFO] [timer.py:264:stop] epoch=2/micro_step=356/global_step=600, RunningAvgSamplesPerSec=6.230310889018549, CurrSamplesPerSec=7.70988597085285, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving checkpoint at step 1200 ...
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 11:37:58,346] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step600 is about to be saved!
+[2024-11-11 11:37:58,346] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin, tag: global_step600
+[2024-11-11 11:37:58,346] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin...
+[2024-11-11 11:38:17,278] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin.
+[2024-11-11 11:38:17,279] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step600 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 11:38:24,358] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step600 is about to be saved!
+[2024-11-11 11:38:24,359] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin, tag: global_step600
+[2024-11-11 11:38:24,359] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin...
+[2024-11-11 11:38:45,808] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin.
+[2024-11-11 11:38:45,809] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step600 is ready now!
+Model saved!
+Checkpoint saved.
+[2024-11-11 11:40:29,433] [INFO] [logging.py:96:log_dist] [Rank 0] step=610, skipped=0, lr=[3.4470338909303176e-09, 3.4470338909303176e-09], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:40:29,434] [INFO] [timer.py:264:stop] epoch=2/micro_step=376/global_step=610, RunningAvgSamplesPerSec=6.2316845073786, CurrSamplesPerSec=6.228612676006549, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:42:11,651] [INFO] [logging.py:96:log_dist] [Rank 0] step=620, skipped=0, lr=[1.1020888761813507e-09, 1.1020888761813507e-09], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:42:11,652] [INFO] [timer.py:264:stop] epoch=2/micro_step=396/global_step=620, RunningAvgSamplesPerSec=6.234524546765965, CurrSamplesPerSec=7.421455063273693, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:43:54,536] [INFO] [logging.py:96:log_dist] [Rank 0] step=630, skipped=0, lr=[5.87115481592293e-11, 5.87115481592293e-11], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:43:54,537] [INFO] [timer.py:264:stop] epoch=2/micro_step=416/global_step=630, RunningAvgSamplesPerSec=6.2363677298557585, CurrSamplesPerSec=5.864153736679168, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 11:44:37,766] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step633 is about to be saved!
+[2024-11-11 11:44:37,767] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin, tag: global_step633
+[2024-11-11 11:44:37,767] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin...
+[2024-11-11 11:44:57,052] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin.
+[2024-11-11 11:44:57,053] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step633 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 11:45:06,835] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step633 is about to be saved!
+[2024-11-11 11:45:06,836] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin, tag: global_step633
+[2024-11-11 11:45:06,836] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin...
+[2024-11-11 11:45:29,691] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin.
+[2024-11-11 11:45:29,692] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step633 is ready now!
+Model saved!

slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,226 @@

+align-anything==0.0.1.dev0
+uvloop==0.20.0
+absl-py==2.1.0
+distro==1.9.0
+bitsandbytes==0.44.1
+uvicorn==0.31.1
+safetensors==0.4.5
+gradio_client==1.4.0
+propcache==0.2.0
+GitPython==3.1.43
+pyzmq==26.2.0
+nvidia-nvtx-cu12==12.1.105
+einops==0.8.0
+nvidia-cusolver-cu12==11.4.5.107
+six==1.16.0
+smmap==5.0.1
+python-dotenv==1.0.1
+multiprocess==0.70.16
+pyarrow==17.0.0
+pytest==7.2.0
+lazy_loader==0.4
+contourpy==1.3.0
+aiofiles==23.2.1
+torchlibrosa==0.1.0
+protobuf==3.20.3
+nvidia-cuda-runtime-cu12==12.1.105
+pycparser==2.22
+PyYAML==6.0.2
+hjson==3.1.0
+xxhash==3.5.0
+platformdirs==4.3.6
+diskcache==5.6.3
+fairscale==0.4.13
+certifi==2024.8.30
+docker-pycreds==0.4.0
+braceexpand==0.1.7
+virtualenv==20.26.6
+tokenizers==0.20.1
+nvidia-cuda-nvrtc-cu12==12.1.105
+grpcio==1.66.2
+outlines==0.0.46
+yarl==1.15.0
+aiohttp==3.10.10
+referencing==0.35.1
+fsspec==2024.6.1
+nvidia-nccl-cu12==2.20.5
+Jinja2==3.1.4
+timm==0.6.13
+opencv-python==4.6.0.66
+tomlkit==0.12.0
+pandas==2.2.3
+wcwidth==0.2.13
+identify==2.6.1
+deepspeed==0.15.2
+datasets==3.0.1
+ray==2.37.0
+align-anything==0.0.1.dev0
+nvidia-cufft-cu12==11.0.2.54
+mistral_common==1.4.4
+httptools==0.6.1
+scipy==1.14.1
+mdurl==0.1.2
+clip==0.2.0
+cycler==0.12.1
+pyairports==2.1.1
+charset-normalizer==3.4.0
+torch==2.4.0
+mpmath==1.3.0
+tzdata==2024.2
+nest-asyncio==1.6.0
+sentencepiece==0.2.0
+aiohappyeyeballs==2.4.3
+ffmpy==0.4.0
+tiktoken==0.7.0
+nvidia-curand-cu12==10.3.2.106
+kiwisolver==1.4.7
+audioread==3.0.1
+cffi==1.17.1
+clint==0.5.1
+partial-json-parser==0.2.1.1.post4
+dill==0.3.8
+ninja==1.11.1.1
+tqdm==4.66.5
+gitdb==4.0.11
+regex==2024.9.11
+nvidia-cusparse-cu12==12.1.0.106
+aiosignal==1.3.1
+jsonschema-specifications==2024.10.1
+yt-dlp==2024.8.6
+triton==3.0.0
+pydub==0.25.1
+nodeenv==1.9.1
+pooch==1.8.2
+MarkupSafe==2.1.5
+fastapi==0.115.0
+setproctitle==1.3.3
+pycountry==24.6.1
+anyio==4.6.0
+matplotlib==3.9.2
+diffusers==0.30.3
+librosa==0.10.2.post1
+filelock==3.16.1
+jiter==0.6.1
+sentry-sdk==2.16.0
+starlette==0.38.6
+py-cpuinfo==9.0.0
+typer==0.12.5
+zipp==3.20.2
+args==0.1.0
+jsonschema==4.23.0
+llvmlite==0.43.0
+interegular==0.3.3
+wheel==0.44.0
+frechet-audio-distance==0.1.2
+pytz==2024.2
+pytorch-fid==0.3.0
+optree==0.13.0
+lark==1.2.2
+msgpack==1.1.0
+prometheus_client==0.21.0
+typing_extensions==4.12.2
+mutagen==1.47.0
+pycryptodomex==3.21.0
+fonttools==4.54.1
+ftfy==6.3.0
+orjson==3.10.7
+vllm==0.6.2
+watchfiles==0.24.0
+iniconfig==2.0.0
+idna==3.10
+proglog==0.1.10
+sniffio==1.3.1
+pyparsing==3.1.4
+h11==0.14.0
+networkx==3.4.1
+xformers==0.0.27.post2
+hpsv2==1.2.0
+pluggy==1.5.0
+gguf==0.10.0
+imageio==2.35.1
+importlib_metadata==8.5.0
+urllib3==2.2.3
+nvidia-nvjitlink-cu12==12.6.77
+semantic-version==2.10.0
+decorator==4.4.2
+attrs==24.2.0
+Brotli==1.1.0
+numpy==1.26.4
+soxr==0.5.0.post1
+requests==2.32.3
+pytest-split==0.8.0
+httpcore==1.0.6
+webdataset==0.2.100
+rpds-py==0.20.0
+shellingham==1.5.4
+annotated-types==0.7.0
+pillow==10.4.0
+nvidia-ml-py==12.560.30
+packaging==24.1
+peft==0.13.2
+imageio-ffmpeg==0.5.1
+setuptools==75.1.0
+pydantic==2.9.2
+Pygments==2.18.0
+cloudpickle==3.1.0
+torchvision==0.19.0
+threadpoolctl==3.5.0
+cfgv==3.4.0
+tensorboard==2.18.0
+moviepy==1.0.3
+nvidia-cuda-cupti-cu12==12.1.105
+msgspec==0.18.6
+Markdown==3.7
+huggingface-hub==0.25.2
+scikit-learn==1.5.2
+distlib==0.3.9
+shortuuid==1.0.13
+nvidia-cublas-cu12==12.1.3.1
+pip==24.2
+image-reward==1.5
+click==8.1.7
+lm-format-enforcer==0.10.6
+joblib==1.4.2
+torchaudio==2.4.0
+rich==13.9.2
+resampy==0.4.3
+numba==0.60.0
+gradio==5.0.2
+transformers==4.46.0.dev0
+tensorboard-data-server==0.7.2
+soundfile==0.12.1
+multidict==6.1.0
+wandb==0.18.3
+openai==1.51.2
+nvidia-cudnn-cu12==9.1.0.70
+python-dateutil==2.9.0.post0
+psutil==6.0.0
+frozenlist==1.4.1
+python-multipart==0.0.12
+Werkzeug==3.0.4
+markdown-it-py==3.0.0
+pydantic_core==2.23.4
+prometheus-fastapi-instrumentator==7.0.0
+sympy==1.13.3
+accelerate==1.0.1
+httpx==0.27.2
+ruff==0.6.9
+pre_commit==4.0.1
+websockets==12.0
+importlib_resources==6.4.0
+packaging==24.1
+typing_extensions==4.12.2
+wheel==0.43.0
+zipp==3.19.2
+jaraco.text==3.12.1
+inflect==7.3.1
+more-itertools==10.3.0
+autocommand==2.2.2
+platformdirs==4.2.2
+typeguard==4.3.0
+jaraco.functools==4.0.1
+jaraco.context==5.3.0
+tomli==2.0.1
+jaraco.collections==5.1.0
+importlib_metadata==8.0.0
+backports.tarfile==1.2.0

slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "os":  "Linux-5.15.0-124-generic-x86_64-with-glibc2.35",
+  "python":  "3.11.10",
+  "startedAt":  "2024-11-11T09:50:28.925585Z",
+  "args":  [
+    "--local_rank=0",
+    "--model_name_or_path",
+    "/data/align-anything/hantao/models/0916_ti_to_ti_sft/",
+    "--train_datasets",
+    "/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs",
+    "--train_data_files",
+    "llf_ti2ti_13.5k_tokenized.pt",
+    "--output_dir",
+    "../outputs/sft_tf_cham_1111_13.5k_ti2ti",
+    "--train_template",
+    "AA_textfeedback",
+    "--train_split",
+    "train",
+    "--per_device_train_batch_size",
+    "4",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "2",
+    "--save_interval",
+    "400",
+    "--learning_rate",
+    "1e-6",
+    "--epochs",
+    "3",
+    "--lr_scheduler_type",
+    "cosine"
+  ],
+  "program":  "-m align_anything.trainers.text_image_to_text_image.sft",
+  "git":  {
+    "remote":  "https://github.com/PKU-Alignment/align-anything.git",
+    "commit":  "6fde660afc9985323f147930eedf188a5699adc7"
+  },
+  "email":  "[email protected]",
+  "root":  "../outputs/sft_tf_cham_1111_13.5k_ti2ti",
+  "host":  "lyg0198",
+  "username":  "align-anything",
+  "executable":  "/data/align-anything/miniconda3/envs/hantao_cham/bin/python",
+  "cpu_count":  64,
+  "cpu_count_logical":  128,
+  "gpu":  "[NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB]",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "938421047296",
+      "used":  "460055379968"
+    }
+  },
+  "memory":  {
+    "total":  "540633423872"
+  },
+  "cpu":  {
+    "count":  64,
+    "countLogical":  128
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}

slice_1200/wandb/run-20241111_095028-sq0dhwvm/files/wandb-summary.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"_timestamp":1.731325467962379e+09,"_runtime":6900.89633248,"_step":1266,"train/step":1266,"train/loss":0.6548570990562439,"train/lr":0,"train/epoch":3,"_wandb":{"runtime":6900}}

slice_1200/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,21 @@

+{"time":"2024-11-11T09:50:28.93257347Z","level":"INFO","msg":"using version","core version":"0.18.3"}
+{"time":"2024-11-11T09:50:28.932602745Z","level":"INFO","msg":"created symlink","path":"../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-core.log"}
+{"time":"2024-11-11T09:50:28.93714017Z","level":"ERROR","msg":"dialing: google: could not find default credentials. See https://cloud.google.com/docs/authentication/external/set-up-adc for more information"}
+{"time":"2024-11-11T09:50:28.968182627Z","level":"INFO","msg":"created new stream","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968263994Z","level":"INFO","msg":"stream: started","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968288809Z","level":"INFO","msg":"sender: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968279236Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968330962Z","level":"INFO","msg":"handler: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:34.632278843Z","level":"INFO","msg":"wandb-core","!BADKEY":null}
+{"time":"2024-11-11T09:50:34.636084019Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-11T11:20:45.19395353Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/htlou/align-anything/sq0dhwvm/file_stream\": dial tcp 35.186.228.49:443: connect: connection timed out"}
+{"time":"2024-11-11T11:45:29.821937086Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-11T11:45:29.846984762Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-11T11:45:30.253659937Z","level":"WARN","msg":"No program path found, not creating job artifact. See https://docs.wandb.ai/guides/launch/create-job"}
+{"time":"2024-11-11T11:45:30.253692046Z","level":"INFO","msg":"sender: sendDefer: no job artifact to save"}
+{"time":"2024-11-11T11:45:30.882510953Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-11T11:45:32.320976723Z","level":"INFO","msg":"stream: closing","id":"sq0dhwvm"}
+{"time":"2024-11-11T11:45:32.321006242Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321051996Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321127635Z","level":"INFO","msg":"sender: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.323850284Z","level":"INFO","msg":"stream: closed","id":"sq0dhwvm"}

slice_1200/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log ADDED Viewed

	@@ -0,0 +1,33 @@

+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Current SDK version is 0.18.3
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Configure stats pid to 3212652
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /home/align-anything/.config/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /data/align-anything/hantao/align-anything/scripts/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from environment variables: {'api_key': '***REDACTED***'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-11 09:50:28,918 WARNING MainThread:3212652 [wandb_setup.py:_flush():79] Could not find program at -m align_anything.trainers.text_image_to_text_image.sft
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': None, 'program': '-m align_anything.trainers.text_image_to_text_image.sft'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():532] Logging user logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():533] Logging internal logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():617] calling init triggers
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():624] wandb.init called with sweep_config: {}
+config: {'train_cfgs': {'ds_cfgs': 'ds_z3_config.json', 'epochs': 3.0, 'seed': 42, 'per_device_train_batch_size': 4.0, 'per_device_eval_batch_size': 4.0, 'gradient_accumulation_steps': 2.0, 'gradient_checkpointing': True, 'learning_rate': 1e-06, 'lr_scheduler_type': 'cosine', 'lr_warmup_ratio': 0.03, 'weight_decay': 0.0, 'adam_betas': [0.9, 0.95], 'adam_epsilon': 1e-08, 'bf16': True, 'fp16': False, 'eval_strategy': 'steps', 'eval_interval': 1000, 'freeze_language_model': False, 'max_grad_norm': 1.0}, 'data_cfgs': {'train_datasets': '/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs', 'train_template': 'AA_textfeedback', 'train_size': None, 'train_split': 'train', 'train_subset': None, 'train_data_files': 'llf_ti2ti_13.5k_tokenized.pt', 'train_optional_args': [], 'eval_datasets': None, 'eval_template': None, 'eval_size': None, 'eval_split': None, 'eval_subset': None, 'eval_data_files': None, 'eval_optional_args': []}, 'logger_cfgs': {'log_type': 'wandb', 'log_project': 'align-anything', 'log_run_name': 'sft', 'output_dir': '../outputs/sft_tf_cham_1111_13.5k_ti2ti', 'cache_dir': None, 'save_interval': 400.0}, 'model_cfgs': {'model_name_or_path': '/data/align-anything/hantao/models/0916_ti_to_ti_sft/', 'trust_remote_code': True, 'model_max_length': 4096}, 'special_tokens': None}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():667] starting backend
+2024-11-11 09:50:28,919 INFO    MainThread:3212652 [wandb_init.py:init():671] sending inform_init request
+2024-11-11 09:50:28,924 INFO    MainThread:3212652 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-11 09:50:28,925 INFO    MainThread:3212652 [wandb_init.py:init():684] backend started and connected
+2024-11-11 09:50:28,929 INFO    MainThread:3212652 [wandb_init.py:init():779] updated telemetry
+2024-11-11 09:50:28,983 INFO    MainThread:3212652 [wandb_init.py:init():812] communicating run to backend with 90.0 second timeout
+2024-11-11 09:50:34,620 INFO    MainThread:3212652 [wandb_init.py:init():863] starting run threads in backend
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_console_start():2465] atexit reg
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_redirect():2313] redirect: wrap_raw
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2378] Wrapping output streams.
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2403] Redirects installed.
+2024-11-11 09:50:35,184 INFO    MainThread:3212652 [wandb_init.py:init():907] run started, returning control to user process
+2024-11-11 11:45:29,778 INFO    MainThread:3212652 [wandb_run.py:_finish():2164] finishing run htlou/align-anything/sq0dhwvm
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_atexit_cleanup():2428] got exitcode: 0
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2410] restore
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2416] restore done
+2024-11-11 11:45:32,305 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4049] rendering history
+2024-11-11 11:45:32,307 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4081] rendering summary
+2024-11-11 11:45:32,318 INFO    MainThread:3212652 [wandb_run.py:_footer_sync_info():4008] logging synced files

slice_1200/wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d94ac37632f72a3f8cd135073052c80433a6d2851df145837d3165fe8e647a8d
+size 6923036

slice_400/arguments.yaml ADDED Viewed

	@@ -0,0 +1,49 @@

+data_cfgs:
+  eval_data_files: null
+  eval_datasets: null
+  eval_optional_args: []
+  eval_size: null
+  eval_split: null
+  eval_subset: null
+  eval_template: null
+  train_data_files: llf_ti2ti_13.5k_tokenized.pt
+  train_datasets: /data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs
+  train_optional_args: []
+  train_size: null
+  train_split: train
+  train_subset: null
+  train_template: AA_textfeedback
+logger_cfgs:
+  cache_dir: null
+  log_project: align-anything
+  log_run_name: sft
+  log_type: wandb
+  output_dir: ../outputs/sft_tf_cham_1111_13.5k_ti2ti
+  save_interval: 400.0
+model_cfgs:
+  model_max_length: 4096
+  model_name_or_path: /data/align-anything/hantao/models/0916_ti_to_ti_sft/
+  trust_remote_code: true
+special_tokens: null
+train_cfgs:
+  adam_betas:
+  - 0.9
+  - 0.95
+  adam_epsilon: 1.0e-08
+  bf16: true
+  ds_cfgs: ds_z3_config.json
+  epochs: 3.0
+  eval_interval: 1000
+  eval_strategy: steps
+  fp16: false
+  freeze_language_model: false
+  gradient_accumulation_steps: 2.0
+  gradient_checkpointing: true
+  learning_rate: 1.0e-06
+  lr_scheduler_type: cosine
+  lr_warmup_ratio: 0.03
+  max_grad_norm: 1.0
+  per_device_eval_batch_size: 4.0
+  per_device_train_batch_size: 4.0
+  seed: 42
+  weight_decay: 0.0

slice_400/config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

slice_400/environ.txt ADDED Viewed

	@@ -0,0 +1,149 @@

+ADDR2LINE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-addr2line
+AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ar
+AS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-as
+BROWSER=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/bin/helpers/browser.sh
+BUILD=x86_64-conda-linux-gnu
+CC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CC_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CMAKE_PREFIX_PATH=/data/align-anything/miniconda3/envs/jy-s:/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot/usr
+COLORTERM=truecolor
+CONDA_BACKUP_ADDR2LINE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-addr2line
+CONDA_BACKUP_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ar
+CONDA_BACKUP_AS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-as
+CONDA_BACKUP_BUILD=x86_64-conda-linux-gnu
+CONDA_BACKUP_CC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CONDA_BACKUP_CC_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cc
+CONDA_BACKUP_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CMAKE_PREFIX_PATH=/data/align-anything/miniconda3/envs/jy-s:/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot/usr
+CONDA_BACKUP_CONDA_BUILD_SYSROOT=/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot
+CONDA_BACKUP_CPP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cpp
+CONDA_BACKUP_CPPFLAGS=-DNDEBUG -D_FORTIFY_SOURCE=2 -O2 -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CONDA_BACKUP_CXXFILT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++filt
+CONDA_BACKUP_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_CXX_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CONDA_BACKUP_DEBUG_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_DEBUG_CPPFLAGS=-D_DEBUG -D_FORTIFY_SOURCE=2 -Og -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_DEBUG_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+CONDA_BACKUP_ELFEDIT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-elfedit
+CONDA_BACKUP_GCC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc
+CONDA_BACKUP_GCC_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ar
+CONDA_BACKUP_GCC_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-nm
+CONDA_BACKUP_GCC_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ranlib
+CONDA_BACKUP_GPROF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gprof
+CONDA_BACKUP_GXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-g++
+CONDA_BACKUP_HOST=x86_64-conda-linux-gnu
+CONDA_BACKUP_LD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld
+CONDA_BACKUP_LDFLAGS=-Wl,-O2 -Wl,--sort-common -Wl,--as-needed -Wl,-z,relro -Wl,-z,now -Wl,--disable-new-dtags -Wl,--gc-sections -Wl,-rpath,/data/align-anything/miniconda3/envs/jy-s/lib -Wl,-rpath-link,/data/align-anything/miniconda3/envs/jy-s/lib -L/data/align-anything/miniconda3/envs/jy-s/lib  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CONDA_BACKUP_LD_GOLD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld.gold
+CONDA_BACKUP_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-nm
+CONDA_BACKUP_OBJCOPY=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objcopy
+CONDA_BACKUP_OBJDUMP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objdump
+CONDA_BACKUP_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ranlib
+CONDA_BACKUP_READELF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-readelf
+CONDA_BACKUP_SIZE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-size
+CONDA_BACKUP_STRINGS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strings
+CONDA_BACKUP_STRIP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strip
+CONDA_BACKUP_build_alias=x86_64-conda-linux-gnu
+CONDA_BACKUP_host_alias=x86_64-conda-linux-gnu
+CONDA_BUILD_SYSROOT=/data/align-anything/miniconda3/envs/jy-s/x86_64-conda-linux-gnu/sysroot
+CONDA_DEFAULT_ENV=hantao_cham
+CONDA_EXE=/data/align-anything/miniconda3/bin/conda
+CONDA_PREFIX=/data/align-anything/miniconda3/envs/hantao_cham
+CONDA_PREFIX_1=/home/align-anything/miniconda3
+CONDA_PREFIX_2=/data/align-anything/miniconda3/envs/jy-s
+CONDA_PREFIX_3=/home/align-anything/miniconda3
+CONDA_PREFIX_4=/data/align-anything/miniconda3
+CONDA_PROMPT_MODIFIER=(hantao_cham)
+CONDA_PYTHON_EXE=/data/align-anything/miniconda3/bin/python
+CONDA_ROOT=/home/align-anything/miniconda3
+CONDA_SHLVL=5
+CPP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-cpp
+CPPFLAGS=-DNDEBUG -D_FORTIFY_SOURCE=2 -O2 -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CROSS_RANK=0
+CROSS_SIZE=1
+CUDA_MODULE_LOADING=LAZY
+CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+CXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+CXXFILT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++filt
+CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include  -I/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/include  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+CXX_FOR_BUILD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/2000/bus
+DEBUG_CFLAGS=-march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+DEBUG_CPPFLAGS=-D_DEBUG -D_FORTIFY_SOURCE=2 -Og -isystem /data/align-anything/miniconda3/envs/jy-s/include
+DEBUG_CXXFLAGS=-fvisibility-inlines-hidden -std=c++17 -fmessage-length=0 -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-all -fno-plt -Og -g -Wall -Wextra -fvar-tracking-assignments -ffunction-sections -pipe -isystem /data/align-anything/miniconda3/envs/jy-s/include
+ELFEDIT=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-elfedit
+GCC=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc
+GCC_AR=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ar
+GCC_NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-nm
+GCC_RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gcc-ranlib
+GIT_ASKPASS=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/extensions/git/dist/askpass.sh
+GPROF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-gprof
+GXX=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-g++
+HOME=/home/align-anything
+HOST=x86_64-conda-linux-gnu
+LANG=en_US.UTF-8
+LD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld
+LDFLAGS=-Wl,-O2 -Wl,--sort-common -Wl,--as-needed -Wl,-z,relro -Wl,-z,now -Wl,--disable-new-dtags -Wl,--gc-sections -Wl,-rpath,/data/align-anything/miniconda3/envs/jy-s/lib -Wl,-rpath-link,/data/align-anything/miniconda3/envs/jy-s/lib -L/data/align-anything/miniconda3/envs/jy-s/lib  -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib -L/data/align-anything/miniconda3/envs/jy-s/targets/x86_64-linux/lib/stubs
+LD_GOLD=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ld.gold
+LD_LIBRARY_PATH=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/../../lib64:
+LESSCLOSE=/usr/bin/lesspipe %s %s
+LESSOPEN=| /usr/bin/lesspipe %s
+LOCAL_RANK=0
+LOCAL_SIZE=8
+LOGLEVEL=WARNING
+LOGNAME=align-anything
+LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.webp=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:
+MASTER_ADDR=127.0.0.1
+MASTER_PORT=19698
+MOTD_SHOWN=pam
+NM=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-nm
+NVCC_PREPEND_FLAGS= -ccbin=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-c++
+OBJCOPY=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objcopy
+OBJDUMP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-objdump
+OLDPWD=/data/align-anything/hantao/align-anything/projects/text_image_to_text_image
+PATH=/data/align-anything/miniconda3/envs/hantao_cham/bin:/home/align-anything/miniconda3/bin:/home/align-anything/miniconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin
+PWD=/data/align-anything/hantao/align-anything/scripts
+PYGAME_HIDE_SUPPORT_PROMPT=1
+PYTHONHASHSEED=42
+PYTHONPATH=/data/align-anything/hantao/align-anything
+QT_QPA_FONTDIR=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/qt/fonts
+QT_QPA_PLATFORM_PLUGIN_PATH=/data/align-anything/miniconda3/envs/hantao_cham/lib/python3.11/site-packages/cv2/qt/plugins
+RANK=0
+RANLIB=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-ranlib
+READELF=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-readelf
+SHELL=/bin/bash
+SHLVL=3
+SIZE=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-size
+SSH_CLIENT=203.93.11.8 7409 30800
+SSH_CONNECTION=111.205.230.212 11374 10.10.212.198 30800
+SSL_CERT_DIR=/usr/lib/ssl/certs
+SSL_CERT_FILE=/usr/lib/ssl/certs/ca-certificates.crt
+STRINGS=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strings
+STRIP=/data/align-anything/miniconda3/envs/jy-s/bin/x86_64-conda-linux-gnu-strip
+TERM=screen
+TERM_PROGRAM=tmux
+TERM_PROGRAM_VERSION=3.2a
+TMUX=/tmp/tmux-2000/default,2557274,4
+TMUX_PANE=%4
+TRITON_CACHE_DIR=/home/align-anything/cache/triton
+USER=align-anything
+VSCODE_GIT_ASKPASS_EXTRA_ARGS=
+VSCODE_GIT_ASKPASS_MAIN=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/extensions/git/dist/askpass-main.js
+VSCODE_GIT_ASKPASS_NODE=/home/align-anything/.cursor-server/cli/servers/Stable-b1e87884330fc271d5eb589e368c35f14e76dec0/server/node
+VSCODE_GIT_IPC_HANDLE=/run/user/2000/vscode-git-d8ae57dc60.sock
+VSCODE_IPC_HOOK_CLI=/run/user/2000/vscode-ipc-45219155-ac87-45dc-978b-d20ac490d167.sock
+WANDB_API_KEY=7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33
+WANDB_SERVICE=2-3212652-tcp-localhost-41187
+WORLD_SIZE=8
+XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop
+XDG_RUNTIME_DIR=/run/user/2000
+XDG_SESSION_CLASS=user
+XDG_SESSION_ID=446
+XDG_SESSION_TYPE=tty
+_=/data/align-anything/miniconda3/envs/hantao_cham/bin/deepspeed
+_CE_CONDA=
+_CE_M=
+build_alias=x86_64-conda-linux-gnu
+host_alias=x86_64-conda-linux-gnu

slice_400/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "crop_size": {
+    "height": 512,
+    "width": 512
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    1.0,
+    1.0,
+    1.0
+  ],
+  "image_processor_type": "ChameleonImageProcessor",
+  "image_std": [
+    1.0,
+    1.0,
+    1.0
+  ],
+  "processor_class": "ChameleonProcessor",
+  "resample": 1,
+  "rescale_factor": 0.0078,
+  "size": {
+    "shortest_edge": 512
+  }
+}

slice_400/processor_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "image_seq_length": 1024,
+  "image_token": "<image>",
+  "processor_class": "ChameleonProcessor"
+}

slice_400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea2bb6e36bc2e40d03fefac96e2a5f8abebc25924edf5d554f0333b803942dc0
+size 14086366378

slice_400/script.sh ADDED Viewed

	@@ -0,0 +1,81 @@

+#!/usr/bin/env bash
+#
+# Copyright 2024 PKU-Alignment Team. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+export TRITON_CACHE_DIR="/home/align-anything/cache/triton"
+# You can replace it with a local model path
+MODEL_NAME_OR_PATH="/data/align-anything/hantao/models/0916_ti_to_ti_sft/"
+# You can replace it with a local dataset path
+TRAIN_DATASETS="/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs"
+TRAIN_DATA_FILES="llf_ti2ti_13.5k_tokenized.pt"
+# You can replace it with a new path
+OUTPUT_DIR="../outputs/sft_tf_cham_1111_13.5k_ti2ti"
+# For wandb online logging
+export WANDB_API_KEY="7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33"
+# Source the setup script
+source ./setup.sh
+# sleep 30m
+# Execute deepspeed command
+deepspeed \
+	--master_port ${MASTER_PORT} \
+	--module align_anything.trainers.text_image_to_text_image.sft \
+	--model_name_or_path ${MODEL_NAME_OR_PATH} \
+	--train_datasets ${TRAIN_DATASETS} \
+	--train_data_files ${TRAIN_DATA_FILES} \
+	--output_dir ${OUTPUT_DIR} \
+	--train_template AA_textfeedback \
+	--train_split train \
+	--per_device_train_batch_size 4 \
+	--per_device_eval_batch_size 4 \
+	--gradient_accumulation_steps 2 \
+	--save_interval 400 \
+	--learning_rate 1e-6 \
+	--epochs 3 \
+	--lr_scheduler_type cosine
+export TRITON_CACHE_DIR="/home/align-anything/cache/triton"
+# You can replace it with a local model path
+MODEL_NAME_OR_PATH="/data/align-anything/hantao/models/0916_ti_to_ti_sft/"
+# You can replace it with a local dataset path
+TRAIN_DATASETS="/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs"
+TRAIN_DATA_FILES="llf_ti2ti_6.75k_tokenized.pt"
+# You can replace it with a new path
+OUTPUT_DIR="../outputs/sft_tf_cham_1111_6.75k_ti2ti"
+# For wandb online logging
+export WANDB_API_KEY="7e2dcc0c310ebcb7cdcafd5e9320d6be55cf1a33"
+# Source the setup script
+source ./setup.sh
+# sleep 30m
+# Execute deepspeed command
+deepspeed \
+	--master_port ${MASTER_PORT} \
+	--module align_anything.trainers.text_image_to_text_image.sft \
+	--model_name_or_path ${MODEL_NAME_OR_PATH} \
+	--train_datasets ${TRAIN_DATASETS} \
+	--train_data_files ${TRAIN_DATA_FILES} \
+	--output_dir ${OUTPUT_DIR} \
+	--train_template AA_textfeedback \
+	--train_split train \
+	--per_device_train_batch_size 4 \
+	--per_device_eval_batch_size 4 \
+	--gradient_accumulation_steps 2 \
+	--save_interval 400 \
+	--learning_rate 1e-6 \
+	--epochs 3 \
+	--lr_scheduler_type cosine

slice_400/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<reserved08706>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

slice_400/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

slice_400/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

slice_400/wandb/debug-internal.log ADDED Viewed

	@@ -0,0 +1,21 @@

+{"time":"2024-11-11T09:50:28.93257347Z","level":"INFO","msg":"using version","core version":"0.18.3"}
+{"time":"2024-11-11T09:50:28.932602745Z","level":"INFO","msg":"created symlink","path":"../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-core.log"}
+{"time":"2024-11-11T09:50:28.93714017Z","level":"ERROR","msg":"dialing: google: could not find default credentials. See https://cloud.google.com/docs/authentication/external/set-up-adc for more information"}
+{"time":"2024-11-11T09:50:28.968182627Z","level":"INFO","msg":"created new stream","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968263994Z","level":"INFO","msg":"stream: started","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968288809Z","level":"INFO","msg":"sender: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968279236Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968330962Z","level":"INFO","msg":"handler: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:34.632278843Z","level":"INFO","msg":"wandb-core","!BADKEY":null}
+{"time":"2024-11-11T09:50:34.636084019Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-11T11:20:45.19395353Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/htlou/align-anything/sq0dhwvm/file_stream\": dial tcp 35.186.228.49:443: connect: connection timed out"}
+{"time":"2024-11-11T11:45:29.821937086Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-11T11:45:29.846984762Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-11T11:45:30.253659937Z","level":"WARN","msg":"No program path found, not creating job artifact. See https://docs.wandb.ai/guides/launch/create-job"}
+{"time":"2024-11-11T11:45:30.253692046Z","level":"INFO","msg":"sender: sendDefer: no job artifact to save"}
+{"time":"2024-11-11T11:45:30.882510953Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-11T11:45:32.320976723Z","level":"INFO","msg":"stream: closing","id":"sq0dhwvm"}
+{"time":"2024-11-11T11:45:32.321006242Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321051996Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321127635Z","level":"INFO","msg":"sender: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.323850284Z","level":"INFO","msg":"stream: closed","id":"sq0dhwvm"}

slice_400/wandb/debug.log ADDED Viewed

	@@ -0,0 +1,33 @@

+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Current SDK version is 0.18.3
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Configure stats pid to 3212652
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /home/align-anything/.config/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /data/align-anything/hantao/align-anything/scripts/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from environment variables: {'api_key': '***REDACTED***'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-11 09:50:28,918 WARNING MainThread:3212652 [wandb_setup.py:_flush():79] Could not find program at -m align_anything.trainers.text_image_to_text_image.sft
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': None, 'program': '-m align_anything.trainers.text_image_to_text_image.sft'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():532] Logging user logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():533] Logging internal logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():617] calling init triggers
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():624] wandb.init called with sweep_config: {}
+config: {'train_cfgs': {'ds_cfgs': 'ds_z3_config.json', 'epochs': 3.0, 'seed': 42, 'per_device_train_batch_size': 4.0, 'per_device_eval_batch_size': 4.0, 'gradient_accumulation_steps': 2.0, 'gradient_checkpointing': True, 'learning_rate': 1e-06, 'lr_scheduler_type': 'cosine', 'lr_warmup_ratio': 0.03, 'weight_decay': 0.0, 'adam_betas': [0.9, 0.95], 'adam_epsilon': 1e-08, 'bf16': True, 'fp16': False, 'eval_strategy': 'steps', 'eval_interval': 1000, 'freeze_language_model': False, 'max_grad_norm': 1.0}, 'data_cfgs': {'train_datasets': '/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs', 'train_template': 'AA_textfeedback', 'train_size': None, 'train_split': 'train', 'train_subset': None, 'train_data_files': 'llf_ti2ti_13.5k_tokenized.pt', 'train_optional_args': [], 'eval_datasets': None, 'eval_template': None, 'eval_size': None, 'eval_split': None, 'eval_subset': None, 'eval_data_files': None, 'eval_optional_args': []}, 'logger_cfgs': {'log_type': 'wandb', 'log_project': 'align-anything', 'log_run_name': 'sft', 'output_dir': '../outputs/sft_tf_cham_1111_13.5k_ti2ti', 'cache_dir': None, 'save_interval': 400.0}, 'model_cfgs': {'model_name_or_path': '/data/align-anything/hantao/models/0916_ti_to_ti_sft/', 'trust_remote_code': True, 'model_max_length': 4096}, 'special_tokens': None}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():667] starting backend
+2024-11-11 09:50:28,919 INFO    MainThread:3212652 [wandb_init.py:init():671] sending inform_init request
+2024-11-11 09:50:28,924 INFO    MainThread:3212652 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-11 09:50:28,925 INFO    MainThread:3212652 [wandb_init.py:init():684] backend started and connected
+2024-11-11 09:50:28,929 INFO    MainThread:3212652 [wandb_init.py:init():779] updated telemetry
+2024-11-11 09:50:28,983 INFO    MainThread:3212652 [wandb_init.py:init():812] communicating run to backend with 90.0 second timeout
+2024-11-11 09:50:34,620 INFO    MainThread:3212652 [wandb_init.py:init():863] starting run threads in backend
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_console_start():2465] atexit reg
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_redirect():2313] redirect: wrap_raw
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2378] Wrapping output streams.
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2403] Redirects installed.
+2024-11-11 09:50:35,184 INFO    MainThread:3212652 [wandb_init.py:init():907] run started, returning control to user process
+2024-11-11 11:45:29,778 INFO    MainThread:3212652 [wandb_run.py:_finish():2164] finishing run htlou/align-anything/sq0dhwvm
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_atexit_cleanup():2428] got exitcode: 0
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2410] restore
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2416] restore done
+2024-11-11 11:45:32,305 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4049] rendering history
+2024-11-11 11:45:32,307 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4081] rendering summary
+2024-11-11 11:45:32,318 INFO    MainThread:3212652 [wandb_run.py:_footer_sync_info():4008] logging synced files

slice_400/wandb/run-20241111_095028-sq0dhwvm/files/config.yaml ADDED Viewed

	@@ -0,0 +1,96 @@

+_wandb:
+    value:
+        cli_version: 0.18.3
+        m: []
+        python_version: 3.11.10
+        t:
+            "1":
+                - 1
+                - 11
+                - 41
+                - 49
+                - 51
+                - 55
+                - 71
+                - 83
+                - 98
+                - 105
+            "2":
+                - 1
+                - 11
+                - 41
+                - 49
+                - 51
+                - 55
+                - 71
+                - 83
+                - 98
+                - 105
+            "3":
+                - 2
+                - 13
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.11.10
+            "5": 0.18.3
+            "6": 4.46.0.dev0
+            "8":
+                - 5
+            "12": 0.18.3
+            "13": linux-x86_64
+data_cfgs:
+    value:
+        eval_data_files: null
+        eval_datasets: null
+        eval_optional_args: []
+        eval_size: null
+        eval_split: null
+        eval_subset: null
+        eval_template: null
+        train_data_files: llf_ti2ti_13.5k_tokenized.pt
+        train_datasets: /data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs
+        train_optional_args: []
+        train_size: null
+        train_split: train
+        train_subset: null
+        train_template: AA_textfeedback
+logger_cfgs:
+    value:
+        cache_dir: null
+        log_project: align-anything
+        log_run_name: sft
+        log_type: wandb
+        output_dir: ../outputs/sft_tf_cham_1111_13.5k_ti2ti
+        save_interval: 400
+model_cfgs:
+    value:
+        model_max_length: 4096
+        model_name_or_path: /data/align-anything/hantao/models/0916_ti_to_ti_sft/
+        trust_remote_code: true
+special_tokens:
+    value: null
+train_cfgs:
+    value:
+        adam_betas:
+            - 0.9
+            - 0.95
+        adam_epsilon: 1e-08
+        bf16: true
+        ds_cfgs: ds_z3_config.json
+        epochs: 3
+        eval_interval: 1000
+        eval_strategy: steps
+        fp16: false
+        freeze_language_model: false
+        gradient_accumulation_steps: 2
+        gradient_checkpointing: true
+        learning_rate: 1e-06
+        lr_scheduler_type: cosine
+        lr_warmup_ratio: 0.03
+        max_grad_norm: 1
+        per_device_eval_batch_size: 4
+        per_device_train_batch_size: 4
+        seed: 42
+        weight_decay: 0

slice_400/wandb/run-20241111_095028-sq0dhwvm/files/output.log ADDED Viewed

	@@ -0,0 +1,195 @@

+***** Running training *****
+Training 1/3.0 epoch:   0%|                                                                                                                                        | 0/1266.0 [00:00<?, ?it/s]`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
+Training 1/3.0 epoch (loss 0.6685):  25%|███████████████████████████▋                                                                                  | 319/1266.0 [28:07<1:20:30,  5.10s/it]
+[2024-11-11 09:52:24,616] [INFO] [logging.py:96:log_dist] [Rank 0] step=10, skipped=0, lr=[5.555555555555555e-07, 5.555555555555555e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:52:24,617] [INFO] [timer.py:264:stop] epoch=0/micro_step=20/global_step=10, RunningAvgSamplesPerSec=6.195061818187147, CurrSamplesPerSec=6.335947040765943, MemAllocated=14.07GB, MaxMemAllocated=25.28GB
+[2024-11-11 09:54:06,853] [INFO] [logging.py:96:log_dist] [Rank 0] step=20, skipped=0, lr=[9.999739056948805e-07, 9.999739056948805e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:54:06,854] [INFO] [timer.py:264:stop] epoch=0/micro_step=40/global_step=20, RunningAvgSamplesPerSec=6.316656927899698, CurrSamplesPerSec=6.164126358699434, MemAllocated=14.07GB, MaxMemAllocated=25.28GB
+[2024-11-11 09:55:53,507] [INFO] [logging.py:96:log_dist] [Rank 0] step=30, skipped=0, lr=[9.99060890967219e-07, 9.99060890967219e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:55:53,508] [INFO] [timer.py:264:stop] epoch=0/micro_step=60/global_step=30, RunningAvgSamplesPerSec=6.248466505115529, CurrSamplesPerSec=7.491092861751436, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 09:57:41,293] [INFO] [logging.py:96:log_dist] [Rank 0] step=40, skipped=0, lr=[9.968458833570276e-07, 9.968458833570276e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:57:41,294] [INFO] [timer.py:264:stop] epoch=0/micro_step=80/global_step=40, RunningAvgSamplesPerSec=6.196372346586397, CurrSamplesPerSec=6.409875261403376, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 09:59:23,446] [INFO] [logging.py:96:log_dist] [Rank 0] step=50, skipped=0, lr=[9.933346615662559e-07, 9.933346615662559e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 09:59:23,447] [INFO] [timer.py:264:stop] epoch=0/micro_step=100/global_step=50, RunningAvgSamplesPerSec=6.246806387061766, CurrSamplesPerSec=7.260616697354314, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:01:09,165] [INFO] [logging.py:96:log_dist] [Rank 0] step=60, skipped=0, lr=[9.885363859716496e-07, 9.885363859716496e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:01:09,166] [INFO] [timer.py:264:stop] epoch=0/micro_step=120/global_step=60, RunningAvgSamplesPerSec=6.2467760579358185, CurrSamplesPerSec=5.904287617244474, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:02:58,559] [INFO] [logging.py:96:log_dist] [Rank 0] step=70, skipped=0, lr=[9.824635747263753e-07, 9.824635747263753e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:02:58,560] [INFO] [timer.py:264:stop] epoch=0/micro_step=140/global_step=70, RunningAvgSamplesPerSec=6.205922498836564, CurrSamplesPerSec=7.320670588968733, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:04:44,012] [INFO] [logging.py:96:log_dist] [Rank 0] step=80, skipped=0, lr=[9.75132071101588e-07, 9.75132071101588e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:04:44,013] [INFO] [timer.py:264:stop] epoch=0/micro_step=160/global_step=80, RunningAvgSamplesPerSec=6.20796558015961, CurrSamplesPerSec=6.143883631130097, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:06:26,906] [INFO] [logging.py:96:log_dist] [Rank 0] step=90, skipped=0, lr=[9.665610021531446e-07, 9.665610021531446e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:06:26,907] [INFO] [timer.py:264:stop] epoch=0/micro_step=180/global_step=90, RunningAvgSamplesPerSec=6.223837975387682, CurrSamplesPerSec=7.466477040673676, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:08:15,344] [INFO] [logging.py:96:log_dist] [Rank 0] step=100, skipped=0, lr=[9.567727288213004e-07, 9.567727288213004e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:08:15,345] [INFO] [timer.py:264:stop] epoch=0/micro_step=200/global_step=100, RunningAvgSamplesPerSec=6.209057201170874, CurrSamplesPerSec=5.302689344409979, MemAllocated=14.07GB, MaxMemAllocated=29.07GB
+[2024-11-11 10:10:01,328] [INFO] [logging.py:96:log_dist] [Rank 0] step=110, skipped=0, lr=[9.457927875935681e-07, 9.457927875935681e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:10:01,329] [INFO] [timer.py:264:stop] epoch=0/micro_step=220/global_step=110, RunningAvgSamplesPerSec=6.208473867040452, CurrSamplesPerSec=7.698975362834649, MemAllocated=14.07GB, MaxMemAllocated=29.74GB
+[2024-11-11 10:11:47,804] [INFO] [logging.py:96:log_dist] [Rank 0] step=120, skipped=0, lr=[9.336498238829382e-07, 9.336498238829382e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:11:47,804] [INFO] [timer.py:264:stop] epoch=0/micro_step=240/global_step=120, RunningAvgSamplesPerSec=6.202644364760127, CurrSamplesPerSec=7.252698675359632, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:13:25,206] [INFO] [logging.py:96:log_dist] [Rank 0] step=130, skipped=0, lr=[9.203755172952665e-07, 9.203755172952665e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:13:25,207] [INFO] [timer.py:264:stop] epoch=0/micro_step=260/global_step=130, RunningAvgSamplesPerSec=6.240439626002477, CurrSamplesPerSec=6.299954067945365, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:15:07,236] [INFO] [logging.py:96:log_dist] [Rank 0] step=140, skipped=0, lr=[9.060044989808009e-07, 9.060044989808009e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:15:07,237] [INFO] [timer.py:264:stop] epoch=0/micro_step=280/global_step=140, RunningAvgSamplesPerSec=6.253829602651008, CurrSamplesPerSec=6.320296322752446, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:16:59,755] [INFO] [logging.py:96:log_dist] [Rank 0] step=150, skipped=0, lr=[8.905742612854626e-07, 8.905742612854626e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:16:59,756] [INFO] [timer.py:264:stop] epoch=0/micro_step=300/global_step=150, RunningAvgSamplesPerSec=6.220856964798348, CurrSamplesPerSec=6.140029977114886, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:18:48,289] [INFO] [logging.py:96:log_dist] [Rank 0] step=160, skipped=0, lr=[8.741250599375982e-07, 8.741250599375982e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:18:48,289] [INFO] [timer.py:264:stop] epoch=0/micro_step=320/global_step=160, RunningAvgSamplesPerSec=6.20887491385521, CurrSamplesPerSec=6.3240117862507015, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:20:33,500] [INFO] [logging.py:96:log_dist] [Rank 0] step=170, skipped=0, lr=[8.566998090253799e-07, 8.566998090253799e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:20:33,500] [INFO] [timer.py:264:stop] epoch=0/micro_step=340/global_step=170, RunningAvgSamplesPerSec=6.211329294057541, CurrSamplesPerSec=6.262193329135546, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:22:18,917] [INFO] [logging.py:96:log_dist] [Rank 0] step=180, skipped=0, lr=[8.38343969038849e-07, 8.38343969038849e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:22:18,917] [INFO] [timer.py:264:stop] epoch=0/micro_step=360/global_step=180, RunningAvgSamplesPerSec=6.211341226400399, CurrSamplesPerSec=6.3439491768216785, MemAllocated=14.07GB, MaxMemAllocated=30.02GB
+[2024-11-11 10:24:04,535] [INFO] [logging.py:96:log_dist] [Rank 0] step=190, skipped=0, lr=[8.191054282686891e-07, 8.191054282686891e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:24:04,536] [INFO] [timer.py:264:stop] epoch=0/micro_step=380/global_step=190, RunningAvgSamplesPerSec=6.210682927569051, CurrSamplesPerSec=6.298895458953062, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:25:42,250] [INFO] [logging.py:96:log_dist] [Rank 0] step=200, skipped=0, lr=[7.990343778711425e-07, 7.990343778711425e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:25:42,251] [INFO] [timer.py:264:stop] epoch=0/micro_step=400/global_step=200, RunningAvgSamplesPerSec=6.233484883515772, CurrSamplesPerSec=7.014839355184877, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving checkpoint at step 400 ...
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 10:25:51,218] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step200 is about to be saved!
+[2024-11-11 10:25:51,219] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin, tag: global_step200
+[2024-11-11 10:25:51,219] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin...
+[2024-11-11 10:26:14,887] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin.
+[2024-11-11 10:26:14,889] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step200 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 10:26:23,191] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step200 is about to be saved!
+[2024-11-11 10:26:23,192] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin, tag: global_step200
+[2024-11-11 10:26:23,193] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin...
+[2024-11-11 10:26:45,365] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_400.bin.
+[2024-11-11 10:26:45,366] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step200 is ready now!
+Model saved!
+Checkpoint saved.
+[2024-11-11 10:28:30,912] [INFO] [logging.py:96:log_dist] [Rank 0] step=210, skipped=0, lr=[7.78183180925015e-07, 7.78183180925015e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:28:30,912] [INFO] [timer.py:264:stop] epoch=0/micro_step=420/global_step=210, RunningAvgSamplesPerSec=6.231559886416094, CurrSamplesPerSec=7.658031726766873, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:30:17,140] [INFO] [logging.py:96:log_dist] [Rank 0] step=220, skipped=0, lr=[7.566062358223813e-07, 7.566062358223813e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:30:17,141] [INFO] [timer.py:264:stop] epoch=1/micro_step=18/global_step=220, RunningAvgSamplesPerSec=6.227392476536316, CurrSamplesPerSec=6.2512248951017435, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:31:58,864] [INFO] [logging.py:96:log_dist] [Rank 0] step=230, skipped=0, lr=[7.343598343493916e-07, 7.343598343493916e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:31:58,865] [INFO] [timer.py:264:stop] epoch=1/micro_step=38/global_step=230, RunningAvgSamplesPerSec=6.236228746087023, CurrSamplesPerSec=6.314374734308299, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:33:47,346] [INFO] [logging.py:96:log_dist] [Rank 0] step=240, skipped=0, lr=[7.115020148274293e-07, 7.115020148274293e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:33:47,347] [INFO] [timer.py:264:stop] epoch=1/micro_step=58/global_step=240, RunningAvgSamplesPerSec=6.227453579084282, CurrSamplesPerSec=4.989636440920279, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:35:34,343] [INFO] [logging.py:96:log_dist] [Rank 0] step=250, skipped=0, lr=[6.880924106977566e-07, 6.880924106977566e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:35:34,343] [INFO] [timer.py:264:stop] epoch=1/micro_step=78/global_step=250, RunningAvgSamplesPerSec=6.22403220340251, CurrSamplesPerSec=6.249119262604737, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:37:16,755] [INFO] [logging.py:96:log_dist] [Rank 0] step=260, skipped=0, lr=[6.641920949446755e-07, 6.641920949446755e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:37:16,755] [INFO] [timer.py:264:stop] epoch=1/micro_step=98/global_step=260, RunningAvgSamplesPerSec=6.229929565927251, CurrSamplesPerSec=6.314551641200963, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:39:00,686] [INFO] [logging.py:96:log_dist] [Rank 0] step=270, skipped=0, lr=[6.39863420763084e-07, 6.39863420763084e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:39:00,687] [INFO] [timer.py:264:stop] epoch=1/micro_step=118/global_step=270, RunningAvgSamplesPerSec=6.234223067872221, CurrSamplesPerSec=5.347220757882646, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:40:52,162] [INFO] [logging.py:96:log_dist] [Rank 0] step=280, skipped=0, lr=[6.151698588861116e-07, 6.151698588861116e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:40:52,163] [INFO] [timer.py:264:stop] epoch=1/micro_step=138/global_step=280, RunningAvgSamplesPerSec=6.22032747774778, CurrSamplesPerSec=5.386764780463646, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:42:36,292] [INFO] [logging.py:96:log_dist] [Rank 0] step=290, skipped=0, lr=[5.901758319972226e-07, 5.901758319972226e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:42:36,293] [INFO] [timer.py:264:stop] epoch=1/micro_step=158/global_step=290, RunningAvgSamplesPerSec=6.223707028785581, CurrSamplesPerSec=6.004583836826392, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:44:21,117] [INFO] [logging.py:96:log_dist] [Rank 0] step=300, skipped=0, lr=[5.649465466587902e-07, 5.649465466587902e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:44:21,117] [INFO] [timer.py:264:stop] epoch=1/micro_step=178/global_step=300, RunningAvgSamplesPerSec=6.22408930425845, CurrSamplesPerSec=6.223819151883097, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:46:05,125] [INFO] [logging.py:96:log_dist] [Rank 0] step=310, skipped=0, lr=[5.395478231956219e-07, 5.395478231956219e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:46:05,126] [INFO] [timer.py:264:stop] epoch=1/micro_step=198/global_step=310, RunningAvgSamplesPerSec=6.226128614306769, CurrSamplesPerSec=6.262398734901036, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:47:53,756] [INFO] [logging.py:96:log_dist] [Rank 0] step=320, skipped=0, lr=[5.140459239772456e-07, 5.140459239772456e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:47:53,757] [INFO] [timer.py:264:stop] epoch=1/micro_step=218/global_step=320, RunningAvgSamplesPerSec=6.219037182578649, CurrSamplesPerSec=5.474378062298524, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:49:39,475] [INFO] [logging.py:96:log_dist] [Rank 0] step=330, skipped=0, lr=[4.885073805469548e-07, 4.885073805469548e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:49:39,476] [INFO] [timer.py:264:stop] epoch=1/micro_step=238/global_step=330, RunningAvgSamplesPerSec=6.218320029955548, CurrSamplesPerSec=6.184670912366926, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:51:15,751] [INFO] [logging.py:96:log_dist] [Rank 0] step=340, skipped=0, lr=[4.629988200486073e-07, 4.629988200486073e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:51:15,751] [INFO] [timer.py:264:stop] epoch=1/micro_step=258/global_step=340, RunningAvgSamplesPerSec=6.234659527486788, CurrSamplesPerSec=6.166076513611049, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:52:57,448] [INFO] [logging.py:96:log_dist] [Rank 0] step=350, skipped=0, lr=[4.3758679140401534e-07, 4.3758679140401534e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:52:57,448] [INFO] [timer.py:264:stop] epoch=1/micro_step=278/global_step=350, RunningAvgSamplesPerSec=6.2408272898718575, CurrSamplesPerSec=5.479743497267358, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:54:49,320] [INFO] [logging.py:96:log_dist] [Rank 0] step=360, skipped=0, lr=[4.123375916944061e-07, 4.123375916944061e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:54:49,321] [INFO] [timer.py:264:stop] epoch=1/micro_step=298/global_step=360, RunningAvgSamplesPerSec=6.228467713430319, CurrSamplesPerSec=5.247047078296396, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:56:37,584] [INFO] [logging.py:96:log_dist] [Rank 0] step=370, skipped=0, lr=[3.8731709319890747e-07, 3.8731709319890747e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:56:37,585] [INFO] [timer.py:264:stop] epoch=1/micro_step=318/global_step=370, RunningAvgSamplesPerSec=6.223037095561094, CurrSamplesPerSec=6.317240925196704, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 10:58:22,183] [INFO] [logging.py:96:log_dist] [Rank 0] step=380, skipped=0, lr=[3.6259057154129225e-07, 3.6259057154129225e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 10:58:22,183] [INFO] [timer.py:264:stop] epoch=1/micro_step=338/global_step=380, RunningAvgSamplesPerSec=6.224228924255615, CurrSamplesPerSec=5.1994408858020025, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:00:07,320] [INFO] [logging.py:96:log_dist] [Rank 0] step=390, skipped=0, lr=[3.382225353933288e-07, 3.382225353933288e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:00:07,321] [INFO] [timer.py:264:stop] epoch=1/micro_step=358/global_step=390, RunningAvgSamplesPerSec=6.224158604390081, CurrSamplesPerSec=6.24098657587071, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:01:52,825] [INFO] [logging.py:96:log_dist] [Rank 0] step=400, skipped=0, lr=[3.142765581790224e-07, 3.142765581790224e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:01:52,826] [INFO] [timer.py:264:stop] epoch=1/micro_step=378/global_step=400, RunningAvgSamplesPerSec=6.224258305845644, CurrSamplesPerSec=5.508992960001429, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving checkpoint at step 800 ...
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 11:02:01,814] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step400 is about to be saved!
+[2024-11-11 11:02:01,815] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin, tag: global_step400
+[2024-11-11 11:02:01,815] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin...
+[2024-11-11 11:02:24,168] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin.
+[2024-11-11 11:02:24,170] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step400 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 11:02:32,111] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step400 is about to be saved!
+[2024-11-11 11:02:32,112] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin, tag: global_step400
+[2024-11-11 11:02:32,112] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin...
+[2024-11-11 11:02:53,588] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_800.bin.
+[2024-11-11 11:02:53,590] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step400 is ready now!
+Model saved!
+Checkpoint saved.
+[2024-11-11 11:04:32,610] [INFO] [logging.py:96:log_dist] [Rank 0] step=410, skipped=0, lr=[2.9081511221881027e-07, 2.9081511221881027e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:04:32,611] [INFO] [timer.py:264:stop] epoch=1/micro_step=398/global_step=410, RunningAvgSamplesPerSec=6.233501350397177, CurrSamplesPerSec=7.624818018964297, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:06:18,893] [INFO] [logging.py:96:log_dist] [Rank 0] step=420, skipped=0, lr=[2.67899405746411e-07, 2.67899405746411e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:06:18,894] [INFO] [timer.py:264:stop] epoch=1/micro_step=418/global_step=420, RunningAvgSamplesPerSec=6.2314715200711, CurrSamplesPerSec=5.346454162982587, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:08:03,330] [INFO] [logging.py:96:log_dist] [Rank 0] step=430, skipped=0, lr=[2.4558922322353115e-07, 2.4558922322353115e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:08:03,330] [INFO] [timer.py:264:stop] epoch=2/micro_step=16/global_step=430, RunningAvgSamplesPerSec=6.2324828606092995, CurrSamplesPerSec=5.855626964991123, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:09:45,387] [INFO] [logging.py:96:log_dist] [Rank 0] step=440, skipped=0, lr=[2.2394276936903022e-07, 2.2394276936903022e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:09:45,387] [INFO] [timer.py:264:stop] epoch=2/micro_step=36/global_step=440, RunningAvgSamplesPerSec=6.2365997777478235, CurrSamplesPerSec=7.074766361276321, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:11:31,116] [INFO] [logging.py:96:log_dist] [Rank 0] step=450, skipped=0, lr=[2.0301651730945623e-07, 2.0301651730945623e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:11:31,117] [INFO] [timer.py:264:stop] epoch=2/micro_step=56/global_step=450, RunningAvgSamplesPerSec=6.235535040398496, CurrSamplesPerSec=6.263325127446985, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:13:19,722] [INFO] [logging.py:96:log_dist] [Rank 0] step=460, skipped=0, lr=[1.8286506124710487e-07, 1.8286506124710487e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:13:19,723] [INFO] [timer.py:264:stop] epoch=2/micro_step=76/global_step=460, RunningAvgSamplesPerSec=6.230500323816332, CurrSamplesPerSec=6.036847858086253, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:15:02,353] [INFO] [logging.py:96:log_dist] [Rank 0] step=470, skipped=0, lr=[1.6354097402998124e-07, 1.6354097402998124e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:15:02,354] [INFO] [timer.py:264:stop] epoch=2/micro_step=96/global_step=470, RunningAvgSamplesPerSec=6.233932103977919, CurrSamplesPerSec=6.2977051152249395, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:16:42,997] [INFO] [logging.py:96:log_dist] [Rank 0] step=480, skipped=0, lr=[1.4509466999523984e-07, 1.4509466999523984e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:16:42,998] [INFO] [timer.py:264:stop] epoch=2/micro_step=116/global_step=480, RunningAvgSamplesPerSec=6.239483803482549, CurrSamplesPerSec=6.033187064976004, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:18:34,535] [INFO] [logging.py:96:log_dist] [Rank 0] step=490, skipped=0, lr=[1.2757427344393702e-07, 1.2757427344393702e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:18:34,535] [INFO] [timer.py:264:stop] epoch=2/micro_step=136/global_step=490, RunningAvgSamplesPerSec=6.231258151619256, CurrSamplesPerSec=5.3911203096440845, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:20:18,891] [INFO] [logging.py:96:log_dist] [Rank 0] step=500, skipped=0, lr=[1.1102549309022291e-07, 1.1102549309022291e-07], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:20:18,892] [INFO] [timer.py:264:stop] epoch=2/micro_step=156/global_step=500, RunningAvgSamplesPerSec=6.231896275894786, CurrSamplesPerSec=5.431348295652274, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:22:03,897] [INFO] [logging.py:96:log_dist] [Rank 0] step=510, skipped=0, lr=[9.549150281252632e-08, 9.549150281252632e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:22:03,898] [INFO] [timer.py:264:stop] epoch=2/micro_step=176/global_step=510, RunningAvgSamplesPerSec=6.231784979733288, CurrSamplesPerSec=6.118001686313543, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:23:47,595] [INFO] [logging.py:96:log_dist] [Rank 0] step=520, skipped=0, lr=[8.101282901783457e-08, 8.101282901783457e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:23:47,596] [INFO] [timer.py:264:stop] epoch=2/micro_step=196/global_step=520, RunningAvgSamplesPerSec=6.233175716519829, CurrSamplesPerSec=6.4252008944871175, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:25:34,694] [INFO] [logging.py:96:log_dist] [Rank 0] step=530, skipped=0, lr=[6.762724491292555e-08, 6.762724491292555e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:25:34,694] [INFO] [timer.py:264:stop] epoch=2/micro_step=216/global_step=530, RunningAvgSamplesPerSec=6.230586016932243, CurrSamplesPerSec=6.31995020734794, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:27:21,825] [INFO] [logging.py:96:log_dist] [Rank 0] step=540, skipped=0, lr=[5.5369671958383326e-08, 5.5369671958383326e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:27:21,826] [INFO] [timer.py:264:stop] epoch=2/micro_step=236/global_step=540, RunningAvgSamplesPerSec=6.228137586678738, CurrSamplesPerSec=6.294527897652772, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:28:57,980] [INFO] [logging.py:96:log_dist] [Rank 0] step=550, skipped=0, lr=[4.4272088762495554e-08, 4.4272088762495554e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:28:57,981] [INFO] [timer.py:264:stop] epoch=2/micro_step=256/global_step=550, RunningAvgSamplesPerSec=6.237979411534363, CurrSamplesPerSec=7.440681418583277, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:30:37,963] [INFO] [logging.py:96:log_dist] [Rank 0] step=560, skipped=0, lr=[3.4363447652715425e-08, 3.4363447652715425e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:30:37,963] [INFO] [timer.py:264:stop] epoch=2/micro_step=276/global_step=560, RunningAvgSamplesPerSec=6.2432383070279265, CurrSamplesPerSec=6.325613791478562, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:32:29,640] [INFO] [logging.py:96:log_dist] [Rank 0] step=570, skipped=0, lr=[2.5669599142344954e-08, 2.5669599142344954e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:32:29,641] [INFO] [timer.py:264:stop] epoch=2/micro_step=296/global_step=570, RunningAvgSamplesPerSec=6.235729072836607, CurrSamplesPerSec=6.363454933868642, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:34:19,919] [INFO] [logging.py:96:log_dist] [Rank 0] step=580, skipped=0, lr=[1.8213224489497525e-08, 1.8213224489497525e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:34:19,920] [INFO] [timer.py:264:stop] epoch=2/micro_step=316/global_step=580, RunningAvgSamplesPerSec=6.229848630704788, CurrSamplesPerSec=5.9735175986720614, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:36:02,300] [INFO] [logging.py:96:log_dist] [Rank 0] step=590, skipped=0, lr=[1.2013776524284869e-08, 1.2013776524284869e-08], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:36:02,300] [INFO] [timer.py:264:stop] epoch=2/micro_step=336/global_step=590, RunningAvgSamplesPerSec=6.232535497944164, CurrSamplesPerSec=7.393825768980957, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:37:49,415] [INFO] [logging.py:96:log_dist] [Rank 0] step=600, skipped=0, lr=[7.087428898604974e-09, 7.087428898604974e-09], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:37:49,415] [INFO] [timer.py:264:stop] epoch=2/micro_step=356/global_step=600, RunningAvgSamplesPerSec=6.230310889018549, CurrSamplesPerSec=7.70988597085285, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving checkpoint at step 1200 ...
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 11:37:58,346] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step600 is about to be saved!
+[2024-11-11 11:37:58,346] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin, tag: global_step600
+[2024-11-11 11:37:58,346] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin...
+[2024-11-11 11:38:17,278] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin.
+[2024-11-11 11:38:17,279] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step600 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 11:38:24,358] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step600 is about to be saved!
+[2024-11-11 11:38:24,359] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin, tag: global_step600
+[2024-11-11 11:38:24,359] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin...
+[2024-11-11 11:38:45,808] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model_1200.bin.
+[2024-11-11 11:38:45,809] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step600 is ready now!
+Model saved!
+Checkpoint saved.
+[2024-11-11 11:40:29,433] [INFO] [logging.py:96:log_dist] [Rank 0] step=610, skipped=0, lr=[3.4470338909303176e-09, 3.4470338909303176e-09], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:40:29,434] [INFO] [timer.py:264:stop] epoch=2/micro_step=376/global_step=610, RunningAvgSamplesPerSec=6.2316845073786, CurrSamplesPerSec=6.228612676006549, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:42:11,651] [INFO] [logging.py:96:log_dist] [Rank 0] step=620, skipped=0, lr=[1.1020888761813507e-09, 1.1020888761813507e-09], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:42:11,652] [INFO] [timer.py:264:stop] epoch=2/micro_step=396/global_step=620, RunningAvgSamplesPerSec=6.234524546765965, CurrSamplesPerSec=7.421455063273693, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+[2024-11-11 11:43:54,536] [INFO] [logging.py:96:log_dist] [Rank 0] step=630, skipped=0, lr=[5.87115481592293e-11, 5.87115481592293e-11], mom=[[0.9, 0.95], [0.9, 0.95]]
+[2024-11-11 11:43:54,537] [INFO] [timer.py:264:stop] epoch=2/micro_step=416/global_step=630, RunningAvgSamplesPerSec=6.2363677298557585, CurrSamplesPerSec=5.864153736679168, MemAllocated=14.07GB, MaxMemAllocated=30.44GB
+Saving model to "../outputs/sft_tf_cham_1111_13.5k_ti2ti" ...
+Saving 16-bit model...
+[2024-11-11 11:44:37,766] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step633 is about to be saved!
+[2024-11-11 11:44:37,767] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin, tag: global_step633
+[2024-11-11 11:44:37,767] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin...
+[2024-11-11 11:44:57,052] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin.
+[2024-11-11 11:44:57,053] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step633 is ready now!
+Model saved!
+Saving 16-bit model...
+[2024-11-11 11:45:06,835] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step633 is about to be saved!
+[2024-11-11 11:45:06,836] [INFO] [engine.py:3649:save_16bit_model] Saving model weights to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin, tag: global_step633
+[2024-11-11 11:45:06,836] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin...
+[2024-11-11 11:45:29,691] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved ../outputs/sft_tf_cham_1111_13.5k_ti2ti/pytorch_model.bin.
+[2024-11-11 11:45:29,692] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step633 is ready now!
+Model saved!

slice_400/wandb/run-20241111_095028-sq0dhwvm/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,226 @@

+align-anything==0.0.1.dev0
+uvloop==0.20.0
+absl-py==2.1.0
+distro==1.9.0
+bitsandbytes==0.44.1
+uvicorn==0.31.1
+safetensors==0.4.5
+gradio_client==1.4.0
+propcache==0.2.0
+GitPython==3.1.43
+pyzmq==26.2.0
+nvidia-nvtx-cu12==12.1.105
+einops==0.8.0
+nvidia-cusolver-cu12==11.4.5.107
+six==1.16.0
+smmap==5.0.1
+python-dotenv==1.0.1
+multiprocess==0.70.16
+pyarrow==17.0.0
+pytest==7.2.0
+lazy_loader==0.4
+contourpy==1.3.0
+aiofiles==23.2.1
+torchlibrosa==0.1.0
+protobuf==3.20.3
+nvidia-cuda-runtime-cu12==12.1.105
+pycparser==2.22
+PyYAML==6.0.2
+hjson==3.1.0
+xxhash==3.5.0
+platformdirs==4.3.6
+diskcache==5.6.3
+fairscale==0.4.13
+certifi==2024.8.30
+docker-pycreds==0.4.0
+braceexpand==0.1.7
+virtualenv==20.26.6
+tokenizers==0.20.1
+nvidia-cuda-nvrtc-cu12==12.1.105
+grpcio==1.66.2
+outlines==0.0.46
+yarl==1.15.0
+aiohttp==3.10.10
+referencing==0.35.1
+fsspec==2024.6.1
+nvidia-nccl-cu12==2.20.5
+Jinja2==3.1.4
+timm==0.6.13
+opencv-python==4.6.0.66
+tomlkit==0.12.0
+pandas==2.2.3
+wcwidth==0.2.13
+identify==2.6.1
+deepspeed==0.15.2
+datasets==3.0.1
+ray==2.37.0
+align-anything==0.0.1.dev0
+nvidia-cufft-cu12==11.0.2.54
+mistral_common==1.4.4
+httptools==0.6.1
+scipy==1.14.1
+mdurl==0.1.2
+clip==0.2.0
+cycler==0.12.1
+pyairports==2.1.1
+charset-normalizer==3.4.0
+torch==2.4.0
+mpmath==1.3.0
+tzdata==2024.2
+nest-asyncio==1.6.0
+sentencepiece==0.2.0
+aiohappyeyeballs==2.4.3
+ffmpy==0.4.0
+tiktoken==0.7.0
+nvidia-curand-cu12==10.3.2.106
+kiwisolver==1.4.7
+audioread==3.0.1
+cffi==1.17.1
+clint==0.5.1
+partial-json-parser==0.2.1.1.post4
+dill==0.3.8
+ninja==1.11.1.1
+tqdm==4.66.5
+gitdb==4.0.11
+regex==2024.9.11
+nvidia-cusparse-cu12==12.1.0.106
+aiosignal==1.3.1
+jsonschema-specifications==2024.10.1
+yt-dlp==2024.8.6
+triton==3.0.0
+pydub==0.25.1
+nodeenv==1.9.1
+pooch==1.8.2
+MarkupSafe==2.1.5
+fastapi==0.115.0
+setproctitle==1.3.3
+pycountry==24.6.1
+anyio==4.6.0
+matplotlib==3.9.2
+diffusers==0.30.3
+librosa==0.10.2.post1
+filelock==3.16.1
+jiter==0.6.1
+sentry-sdk==2.16.0
+starlette==0.38.6
+py-cpuinfo==9.0.0
+typer==0.12.5
+zipp==3.20.2
+args==0.1.0
+jsonschema==4.23.0
+llvmlite==0.43.0
+interegular==0.3.3
+wheel==0.44.0
+frechet-audio-distance==0.1.2
+pytz==2024.2
+pytorch-fid==0.3.0
+optree==0.13.0
+lark==1.2.2
+msgpack==1.1.0
+prometheus_client==0.21.0
+typing_extensions==4.12.2
+mutagen==1.47.0
+pycryptodomex==3.21.0
+fonttools==4.54.1
+ftfy==6.3.0
+orjson==3.10.7
+vllm==0.6.2
+watchfiles==0.24.0
+iniconfig==2.0.0
+idna==3.10
+proglog==0.1.10
+sniffio==1.3.1
+pyparsing==3.1.4
+h11==0.14.0
+networkx==3.4.1
+xformers==0.0.27.post2
+hpsv2==1.2.0
+pluggy==1.5.0
+gguf==0.10.0
+imageio==2.35.1
+importlib_metadata==8.5.0
+urllib3==2.2.3
+nvidia-nvjitlink-cu12==12.6.77
+semantic-version==2.10.0
+decorator==4.4.2
+attrs==24.2.0
+Brotli==1.1.0
+numpy==1.26.4
+soxr==0.5.0.post1
+requests==2.32.3
+pytest-split==0.8.0
+httpcore==1.0.6
+webdataset==0.2.100
+rpds-py==0.20.0
+shellingham==1.5.4
+annotated-types==0.7.0
+pillow==10.4.0
+nvidia-ml-py==12.560.30
+packaging==24.1
+peft==0.13.2
+imageio-ffmpeg==0.5.1
+setuptools==75.1.0
+pydantic==2.9.2
+Pygments==2.18.0
+cloudpickle==3.1.0
+torchvision==0.19.0
+threadpoolctl==3.5.0
+cfgv==3.4.0
+tensorboard==2.18.0
+moviepy==1.0.3
+nvidia-cuda-cupti-cu12==12.1.105
+msgspec==0.18.6
+Markdown==3.7
+huggingface-hub==0.25.2
+scikit-learn==1.5.2
+distlib==0.3.9
+shortuuid==1.0.13
+nvidia-cublas-cu12==12.1.3.1
+pip==24.2
+image-reward==1.5
+click==8.1.7
+lm-format-enforcer==0.10.6
+joblib==1.4.2
+torchaudio==2.4.0
+rich==13.9.2
+resampy==0.4.3
+numba==0.60.0
+gradio==5.0.2
+transformers==4.46.0.dev0
+tensorboard-data-server==0.7.2
+soundfile==0.12.1
+multidict==6.1.0
+wandb==0.18.3
+openai==1.51.2
+nvidia-cudnn-cu12==9.1.0.70
+python-dateutil==2.9.0.post0
+psutil==6.0.0
+frozenlist==1.4.1
+python-multipart==0.0.12
+Werkzeug==3.0.4
+markdown-it-py==3.0.0
+pydantic_core==2.23.4
+prometheus-fastapi-instrumentator==7.0.0
+sympy==1.13.3
+accelerate==1.0.1
+httpx==0.27.2
+ruff==0.6.9
+pre_commit==4.0.1
+websockets==12.0
+importlib_resources==6.4.0
+packaging==24.1
+typing_extensions==4.12.2
+wheel==0.43.0
+zipp==3.19.2
+jaraco.text==3.12.1
+inflect==7.3.1
+more-itertools==10.3.0
+autocommand==2.2.2
+platformdirs==4.2.2
+typeguard==4.3.0
+jaraco.functools==4.0.1
+jaraco.context==5.3.0
+tomli==2.0.1
+jaraco.collections==5.1.0
+importlib_metadata==8.0.0
+backports.tarfile==1.2.0

slice_400/wandb/run-20241111_095028-sq0dhwvm/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "os":  "Linux-5.15.0-124-generic-x86_64-with-glibc2.35",
+  "python":  "3.11.10",
+  "startedAt":  "2024-11-11T09:50:28.925585Z",
+  "args":  [
+    "--local_rank=0",
+    "--model_name_or_path",
+    "/data/align-anything/hantao/models/0916_ti_to_ti_sft/",
+    "--train_datasets",
+    "/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs",
+    "--train_data_files",
+    "llf_ti2ti_13.5k_tokenized.pt",
+    "--output_dir",
+    "../outputs/sft_tf_cham_1111_13.5k_ti2ti",
+    "--train_template",
+    "AA_textfeedback",
+    "--train_split",
+    "train",
+    "--per_device_train_batch_size",
+    "4",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "2",
+    "--save_interval",
+    "400",
+    "--learning_rate",
+    "1e-6",
+    "--epochs",
+    "3",
+    "--lr_scheduler_type",
+    "cosine"
+  ],
+  "program":  "-m align_anything.trainers.text_image_to_text_image.sft",
+  "git":  {
+    "remote":  "https://github.com/PKU-Alignment/align-anything.git",
+    "commit":  "6fde660afc9985323f147930eedf188a5699adc7"
+  },
+  "email":  "[email protected]",
+  "root":  "../outputs/sft_tf_cham_1111_13.5k_ti2ti",
+  "host":  "lyg0198",
+  "username":  "align-anything",
+  "executable":  "/data/align-anything/miniconda3/envs/hantao_cham/bin/python",
+  "cpu_count":  64,
+  "cpu_count_logical":  128,
+  "gpu":  "[NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB, NVIDIA A100-SXM4-80GB]",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "938421047296",
+      "used":  "460055379968"
+    }
+  },
+  "memory":  {
+    "total":  "540633423872"
+  },
+  "cpu":  {
+    "count":  64,
+    "countLogical":  128
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA A100-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "12.4"
+}

slice_400/wandb/run-20241111_095028-sq0dhwvm/files/wandb-summary.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"_timestamp":1.731325467962379e+09,"_runtime":6900.89633248,"_step":1266,"train/step":1266,"train/loss":0.6548570990562439,"train/lr":0,"train/epoch":3,"_wandb":{"runtime":6900}}

slice_400/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,21 @@

+{"time":"2024-11-11T09:50:28.93257347Z","level":"INFO","msg":"using version","core version":"0.18.3"}
+{"time":"2024-11-11T09:50:28.932602745Z","level":"INFO","msg":"created symlink","path":"../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-core.log"}
+{"time":"2024-11-11T09:50:28.93714017Z","level":"ERROR","msg":"dialing: google: could not find default credentials. See https://cloud.google.com/docs/authentication/external/set-up-adc for more information"}
+{"time":"2024-11-11T09:50:28.968182627Z","level":"INFO","msg":"created new stream","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968263994Z","level":"INFO","msg":"stream: started","id":"sq0dhwvm"}
+{"time":"2024-11-11T09:50:28.968288809Z","level":"INFO","msg":"sender: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968279236Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:28.968330962Z","level":"INFO","msg":"handler: started","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T09:50:34.632278843Z","level":"INFO","msg":"wandb-core","!BADKEY":null}
+{"time":"2024-11-11T09:50:34.636084019Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-11T11:20:45.19395353Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/htlou/align-anything/sq0dhwvm/file_stream\": dial tcp 35.186.228.49:443: connect: connection timed out"}
+{"time":"2024-11-11T11:45:29.821937086Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-11T11:45:29.846984762Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-11T11:45:30.253659937Z","level":"WARN","msg":"No program path found, not creating job artifact. See https://docs.wandb.ai/guides/launch/create-job"}
+{"time":"2024-11-11T11:45:30.253692046Z","level":"INFO","msg":"sender: sendDefer: no job artifact to save"}
+{"time":"2024-11-11T11:45:30.882510953Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-11T11:45:32.320976723Z","level":"INFO","msg":"stream: closing","id":"sq0dhwvm"}
+{"time":"2024-11-11T11:45:32.321006242Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321051996Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.321127635Z","level":"INFO","msg":"sender: closed","stream_id":{"value":"sq0dhwvm"}}
+{"time":"2024-11-11T11:45:32.323850284Z","level":"INFO","msg":"stream: closed","id":"sq0dhwvm"}

slice_400/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log ADDED Viewed

	@@ -0,0 +1,33 @@

+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Current SDK version is 0.18.3
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Configure stats pid to 3212652
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /home/align-anything/.config/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from /data/align-anything/hantao/align-anything/scripts/wandb/settings
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Loading settings from environment variables: {'api_key': '***REDACTED***'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-11 09:50:28,918 WARNING MainThread:3212652 [wandb_setup.py:_flush():79] Could not find program at -m align_anything.trainers.text_image_to_text_image.sft
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': None, 'program': '-m align_anything.trainers.text_image_to_text_image.sft'}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():532] Logging user logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:_log_setup():533] Logging internal logs to ../outputs/sft_tf_cham_1111_13.5k_ti2ti/wandb/run-20241111_095028-sq0dhwvm/logs/debug-internal.log
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():617] calling init triggers
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():624] wandb.init called with sweep_config: {}
+config: {'train_cfgs': {'ds_cfgs': 'ds_z3_config.json', 'epochs': 3.0, 'seed': 42, 'per_device_train_batch_size': 4.0, 'per_device_eval_batch_size': 4.0, 'gradient_accumulation_steps': 2.0, 'gradient_checkpointing': True, 'learning_rate': 1e-06, 'lr_scheduler_type': 'cosine', 'lr_warmup_ratio': 0.03, 'weight_decay': 0.0, 'adam_betas': [0.9, 0.95], 'adam_epsilon': 1e-08, 'bf16': True, 'fp16': False, 'eval_strategy': 'steps', 'eval_interval': 1000, 'freeze_language_model': False, 'max_grad_norm': 1.0}, 'data_cfgs': {'train_datasets': '/data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs', 'train_template': 'AA_textfeedback', 'train_size': None, 'train_split': 'train', 'train_subset': None, 'train_data_files': 'llf_ti2ti_13.5k_tokenized.pt', 'train_optional_args': [], 'eval_datasets': None, 'eval_template': None, 'eval_size': None, 'eval_split': None, 'eval_subset': None, 'eval_data_files': None, 'eval_optional_args': []}, 'logger_cfgs': {'log_type': 'wandb', 'log_project': 'align-anything', 'log_run_name': 'sft', 'output_dir': '../outputs/sft_tf_cham_1111_13.5k_ti2ti', 'cache_dir': None, 'save_interval': 400.0}, 'model_cfgs': {'model_name_or_path': '/data/align-anything/hantao/models/0916_ti_to_ti_sft/', 'trust_remote_code': True, 'model_max_length': 4096}, 'special_tokens': None}
+2024-11-11 09:50:28,918 INFO    MainThread:3212652 [wandb_init.py:init():667] starting backend
+2024-11-11 09:50:28,919 INFO    MainThread:3212652 [wandb_init.py:init():671] sending inform_init request
+2024-11-11 09:50:28,924 INFO    MainThread:3212652 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-11 09:50:28,925 INFO    MainThread:3212652 [wandb_init.py:init():684] backend started and connected
+2024-11-11 09:50:28,929 INFO    MainThread:3212652 [wandb_init.py:init():779] updated telemetry
+2024-11-11 09:50:28,983 INFO    MainThread:3212652 [wandb_init.py:init():812] communicating run to backend with 90.0 second timeout
+2024-11-11 09:50:34,620 INFO    MainThread:3212652 [wandb_init.py:init():863] starting run threads in backend
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_console_start():2465] atexit reg
+2024-11-11 09:50:35,177 INFO    MainThread:3212652 [wandb_run.py:_redirect():2313] redirect: wrap_raw
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2378] Wrapping output streams.
+2024-11-11 09:50:35,178 INFO    MainThread:3212652 [wandb_run.py:_redirect():2403] Redirects installed.
+2024-11-11 09:50:35,184 INFO    MainThread:3212652 [wandb_init.py:init():907] run started, returning control to user process
+2024-11-11 11:45:29,778 INFO    MainThread:3212652 [wandb_run.py:_finish():2164] finishing run htlou/align-anything/sq0dhwvm
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_atexit_cleanup():2428] got exitcode: 0
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2410] restore
+2024-11-11 11:45:29,779 INFO    MainThread:3212652 [wandb_run.py:_restore():2416] restore done
+2024-11-11 11:45:32,305 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4049] rendering history
+2024-11-11 11:45:32,307 INFO    MainThread:3212652 [wandb_run.py:_footer_history_summary_info():4081] rendering summary
+2024-11-11 11:45:32,318 INFO    MainThread:3212652 [wandb_run.py:_footer_sync_info():4008] logging synced files

slice_400/wandb/run-20241111_095028-sq0dhwvm/run-sq0dhwvm.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d94ac37632f72a3f8cd135073052c80433a6d2851df145837d3165fe8e647a8d
+size 6923036

slice_800/arguments.yaml ADDED Viewed

	@@ -0,0 +1,49 @@

+data_cfgs:
+  eval_data_files: null
+  eval_datasets: null
+  eval_optional_args: []
+  eval_size: null
+  eval_split: null
+  eval_subset: null
+  eval_template: null
+  train_data_files: llf_ti2ti_13.5k_tokenized.pt
+  train_datasets: /data/align-anything/hantao/align-anything/projects/text_image_to_text_image/outputs
+  train_optional_args: []
+  train_size: null
+  train_split: train
+  train_subset: null
+  train_template: AA_textfeedback
+logger_cfgs:
+  cache_dir: null
+  log_project: align-anything
+  log_run_name: sft
+  log_type: wandb
+  output_dir: ../outputs/sft_tf_cham_1111_13.5k_ti2ti
+  save_interval: 400.0
+model_cfgs:
+  model_max_length: 4096
+  model_name_or_path: /data/align-anything/hantao/models/0916_ti_to_ti_sft/
+  trust_remote_code: true
+special_tokens: null
+train_cfgs:
+  adam_betas:
+  - 0.9
+  - 0.95
+  adam_epsilon: 1.0e-08
+  bf16: true
+  ds_cfgs: ds_z3_config.json
+  epochs: 3.0
+  eval_interval: 1000
+  eval_strategy: steps
+  fp16: false
+  freeze_language_model: false
+  gradient_accumulation_steps: 2.0
+  gradient_checkpointing: true
+  learning_rate: 1.0e-06
+  lr_scheduler_type: cosine
+  lr_warmup_ratio: 0.03
+  max_grad_norm: 1.0
+  per_device_eval_batch_size: 4.0
+  per_device_train_batch_size: 4.0
+  seed: 42
+  weight_decay: 0.0

slice_800/config.json ADDED Viewed

The diff for this file is too large to render. See raw diff