benchang1110 commited on
Commit
f2dbe79
·
verified ·
1 Parent(s): bf249d1

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -9
README.md CHANGED
@@ -135,9 +135,10 @@ print(outputs)
135
  * TaiVisionLM-base-v1:
136
  卡通插圖描繪掛在家門口的標誌,上下方以卡通插圖的方式呈現。
137
  * TaiVisionLM-base-v2:
138
- 這張圖描繪了一個單詞「SMILE」經典的卡通字體。該字表面是黑白的主要色彩調色板。詞以貫穿其身體的光滑線條字體書寫。該字具有模糊的質感,與單詞形成平滑而簡約的視覺效果。
139
- 字母「「SMILE」」自豪地表示。顯眼的文字是圖片的焦點,吸引觀眾的注意力到其具有簡潔性的方式。該字在白色背景上顯眼地展示,與黑色字體形成鮮明對比。
140
- 圖片中沒有其他物品或文字。字和底部的文字並沒有提供有關詞「「SMILE」具體含義的任何其他背景信息。然而,詞「「SMILE」」的整體設計使其成為這張影像中的焦點,吸引了注意力到其獨特形狀。圖片中沒有其他物品或文字。
 
141
 
142
 
143
  - **Example 2**
@@ -145,10 +146,9 @@ print(outputs)
145
  * TaiVisionLM-base-v1:
146
  這是一幅攝影作品,展示了巴黎的鐵塔被水景所環繞
147
  * TaiVisionLM-base-v2:
148
- 這張照片捕捉了巴黎,法國標誌性的塔樓和人行道景觀的令人驚嘆的景象。塔樓高聳在清澈的藍天沿著舊有大路的背景之上。它是一座高聳入雲的圓頂金屬圖案,高度被分數精確錯量。塔樓由金屬和石頭結構組成,其統一的形狀證明了其歷史意義。
149
- 塔樓東面延伸的人行道向遠處延伸,邀請路人探索它所有的美麗。這條人行道上排列著樹木,它們翠綠的葉片與藍天形成鮮明的對比。它們的存在為場景增添了一抹綠意,為都市景觀增添了一抹自然元素。
150
- 背景中可以看到巴黎城市景觀。各種大小和設計的建築物可以看到,它們矗立在背景中,它們的建築藝術被塔樓和人行道的視野所突顯。天空是一個清澈的藍色,它延伸到遠方,沒有任何雲彩的陰影。
151
- 這張照片是巴黎豐富歷史和現代性的一個見證。塔樓和人行道標誌著這座經典都市的地標,高聳主權人偶的高度及其證據這座城市獨特的信仰。橫跨整張照片的人行道禮貌地介紹了城市的繁忙路線。
152
  ### Training Procedure
153
 
154
  Since we don't have enough resources to train the model on the whole dataset, we only use 250k image-text pairs for training. The following training hyperparameters are used in feature alignment and task specific training stages respectively:
@@ -158,7 +158,7 @@ Since we don't have enough resources to train the model on the whole dataset, we
158
 
159
  | Data size | Global Batch Size | Learning Rate | Epochs | Max Length | Weight Decay |
160
  |--------------|-------------------|---------------|--------|------------|--------------|
161
- | 250k | 2 | 5e-5 | 1 | 2048 | 1e-5 |
162
 
163
  We use full-parameter finetuning for the projector and apply LoRA to the language model.
164
 
@@ -166,4 +166,4 @@ We will update the training procedure once we have more resources to train the m
166
  ![metric](metrics.png)
167
  ### Compute Infrastructure
168
  - **Feature Alignment**
169
- 1xV100(32GB), took approximately 12 GPU hours.
 
135
  * TaiVisionLM-base-v1:
136
  卡通插圖描繪掛在家門口的標誌,上下方以卡通插圖的方式呈現。
137
  * TaiVisionLM-base-v2:
138
+ 這張圖片呈現了發人深省的對比。圖片中央,白色文字中的「Smile」以粗體黑色字母書寫。文字略微有些傾斜,為原本靜止的圖片增添了動感。背景是一個鮮明的白色,突顯文字並確立其在圖片中的重要性。
139
+ 背景並非僅僅是白色的;它與黑色文字形成鮮明對比,創造出引人注目的視覺效果。文字、背景和形狀和諧合作,每個元素都互相襯托,形成和諧的構圖。
140
+ 圖片底部右角有微妙的脊狀邊緣。脊狀的輪廓為圖片增添了一種深度,吸引觀眾的注意力,探索圖片的整體背景。脊狀邊緣與圖片整體的設計相輔相成,增強了節奏和能量氛圍。
141
+ 整體而言,這張圖片是一個色彩和形狀的和諧結合,每個元素都經過精心放置,創造出視覺上令人愉悅的構圖。使用黑色、粗體字和微妙的脊狀邊緣增添了神秘感,將其印象擴展到更深層,既引人入勝又引人思考。
142
 
143
 
144
  - **Example 2**
 
146
  * TaiVisionLM-base-v1:
147
  這是一幅攝影作品,展示了巴黎的鐵塔被水景所環繞
148
  * TaiVisionLM-base-v2:
149
+ 這幅圖片捕捉到法國著名地標艾菲爾鐵塔的令人驚嘆的景觀。天空呈現明亮的藍色,與周圍的綠意交織,形成令人驚嘆的構圖。這座高聳的拱門塗上淺棕色的艾菲爾鐵塔,自豪地矗立在畫面右側。它旁邊是河流,它的平靜水域反射著上方的藍天。
150
+ 在遠處,其他著名地標的蹤影可見,包括一座標誌性的橋樑和一座城堡般的摩天大樓,為場景增添深度和尺度。前景中的樹木增添了一抹綠意,為鐵塔的淺褐色和藍天的色彩提供了清新的對比。
151
+ 這張圖片是從水面上觀看艾菲爾鐵塔的角度拍攝的,提供了對整個景觀的鳥瞰視角。這個視角可以全面地觀察到艾菲爾鐵塔及其周圍環境,展現了它的壯麗以及位於其中的生命。這張圖片中沒有任何虛構的內容,所有描述都是基於圖片中可見的元素。</s>
 
152
  ### Training Procedure
153
 
154
  Since we don't have enough resources to train the model on the whole dataset, we only use 250k image-text pairs for training. The following training hyperparameters are used in feature alignment and task specific training stages respectively:
 
158
 
159
  | Data size | Global Batch Size | Learning Rate | Epochs | Max Length | Weight Decay |
160
  |--------------|-------------------|---------------|--------|------------|--------------|
161
+ | 1.35M | 4 | 5e-3 | 1 | 1024 | 0 |
162
 
163
  We use full-parameter finetuning for the projector and apply LoRA to the language model.
164
 
 
166
  ![metric](metrics.png)
167
  ### Compute Infrastructure
168
  - **Feature Alignment**
169
+ 1xV100(32GB), took approximately 45 GPU hours.