Neleac
/

SpaceTimeGPT

Video-Text-to-Text

vision-encoder-decoder

image-text-to-text

video-captioning

Inference Endpoints

Model card Files Files and versions Community

Neleac commited on Mar 21, 2024

Commit

ef82ea7

·

verified ·

1 Parent(s): fea3cb1

Update README.md

Files changed (1) hide show

README.md +3 -1

README.md CHANGED Viewed

@@ -12,7 +12,9 @@ inference: false
 tags:
 - video-captioning
 ---
-# TimeSformer-GPT2 Video Captioning
 Vision Encoder Model: [timesformer-base-finetuned-k600](https://huggingface.co/facebook/timesformer-base-finetuned-k600) \
 Text Decoder Model: [gpt2](https://huggingface.co/gpt2)

 tags:
 - video-captioning
 ---
+# SpaceTimeGPT - A Spatiotemporal Video Captioning Model
+<img src="https://raw.githubusercontent.com/Neleac/SpaceTimeGPT/main/model.JPG" width="35%">
 Vision Encoder Model: [timesformer-base-finetuned-k600](https://huggingface.co/facebook/timesformer-base-finetuned-k600) \
 Text Decoder Model: [gpt2](https://huggingface.co/gpt2)