多模態(tài)大模型
多模態(tài)大模訓(xùn)練
當(dāng)你把一張照片丟給豆包,它能準(zhǔn)確描述畫面內(nèi)容;在通義千問里上傳一張草圖,它能識別你畫的是什么;Kimi 分析 PDF 里的圖表時(shí),甚至能讀出表格中的數(shù)據(jù)。
事實(shí)上,大模型的多模態(tài)能力已經(jīng)成為標(biāo)配。從 Qwen-VL 到 GLM-4V,幾乎所有主流模型都支持圖像輸入。
可大模型的核心——Transformer——本質(zhì)上只是一個(gè)"字接字"的預(yù)測器,它只認(rèn)識 Token,不認(rèn)識像素。
把像素變成語言:三步架一座"橋"
核心問題只有一句話:如何讓一個(gè)只懂文本的系統(tǒng),理解非文本的信息?
答案分三步:
第一步:把圖片切成小塊
模型沒有人類的全局直覺,它需要把一張完整的圖像拆解成無數(shù)個(gè)小方塊。
這個(gè)操作叫Patch Embedding。一張常見的 224×224 像素的圖片,被切成固定大小的"小塊"(通常是 16×16 像素),總共約 196 個(gè)小塊。每個(gè)小塊通過視覺編碼器(通常是 ViT 或 CNN)轉(zhuǎn)換成一個(gè)視覺向量——這個(gè)小塊的"數(shù)字簽名"。

第二步:編上位置號
模型不僅要知道每個(gè)小塊里有什么,還要知道它在圖中的位置——左上還是右下?每個(gè)小塊加上位置編碼,作用和文本位置編碼是一樣的。
第三步:把視覺向量"翻譯"成模型能懂的 Token
視覺向量的維度和文本向量的維度不同,無法直接輸入語言模型。這里需要一個(gè)投影層,把視覺向量的維度映射到語言模型熟悉的文本向量維度上——相當(dāng)于把"圖片語"翻譯成了"模型語"。
經(jīng)過這三步,模型終于能"看到"這張圖了——雖然它看到的不是像素,而是一串串?dāng)?shù)值構(gòu)成的"影子"。
對齊:讓視覺和語言在同一個(gè)世界里對話
問題還沒結(jié)束:模型怎么知道視覺向量對應(yīng)的文字是什么?
一張貓的圖片經(jīng)過編碼變成 [0.12, -0.45, 0.78, ...],而"貓"這個(gè)字的 Token 編碼是 [0.89, 0.33, -0.12, ...]——兩個(gè)數(shù)字空間不相通。
要讓"看到"和"說到"對應(yīng)起來,就需要對齊(Alignment):喂大量圖文配對數(shù)據(jù),讓"這張圖的向量"和"描述這張圖的文字向量"在高維空間中相互靠近。
訓(xùn)練時(shí)同時(shí)給模型看一張夕陽照片和文字"夕陽下的海灘",模型會不斷調(diào)整參數(shù),讓這兩個(gè)向量之間的數(shù)學(xué)距離越來越小。這個(gè)對齊過程需要數(shù)億對圖文數(shù)據(jù)。國內(nèi)公開的圖文數(shù)據(jù)集也包含數(shù)億對高質(zhì)量的圖文數(shù)據(jù)。

兩種主流架構(gòu)
目前的多模態(tài)大模型分為兩大流派:
流派一:獨(dú)立視覺編碼器 + 大模型(Qwen-VL / GLM-4V)
保留一個(gè)完整的 ViT 處理圖像,再通過"連接器"把視覺信息注入語言模型。連接器可以是簡單的線性映射,也可以是復(fù)雜的 Q-Former。優(yōu)點(diǎn)是視覺能力強(qiáng),缺點(diǎn)是參數(shù)多、推理慢。通義千問的 Qwen2.5-VL 就屬這一派,它用動(dòng)態(tài)分辨率方案——圖片越清晰,切成的 Patch 越多,細(xì)節(jié)越豐富。
流派二:原生多模態(tài)訓(xùn)練方案
不保留獨(dú)立視覺編碼器,從零訓(xùn)練一個(gè)能同時(shí)理解文本、圖像、音頻的統(tǒng)一模型。文本 Token 和視覺 Token 直接交互,沒有中間翻譯層。優(yōu)勢是跨模態(tài)理解更自然,缺點(diǎn)是從頭訓(xùn)練的費(fèi)時(shí)費(fèi)力。
國內(nèi)兩種路線都有玩家:DeepSeek-VL2 采用類似 Qwen-VL 的架構(gòu),在文檔解析上表現(xiàn)優(yōu)秀;智譜 GLM-4V 在中文場景的視覺識別上做過大量優(yōu)化。
從圖片到視頻:難度指數(shù)級上升
一張圖 = 約 200 個(gè) Token。一段 1 分鐘的視頻,按每秒 24 幀算 = 1440 張圖 = 近 30 萬個(gè) Token。
這不僅讓顯存扛不住,更棘手的是時(shí)序理解——"先拿起杯子,然后喝水"——模型需要理解幀與幀之間的時(shí)間關(guān)系。
主流做法是 幀采樣:每秒抽幾幀關(guān)鍵幀,同時(shí)引入時(shí)序編碼讓模型知道幀的先后順序。即便如此,一段 10 分鐘的視頻仍需處理幾千幀,計(jì)算消耗仍然巨大。

用一個(gè)詞描述多模態(tài)大模型的現(xiàn)狀:"剛剛夠用"。
它看得懂日常照片、能識別圖表、能理解視頻中的動(dòng)作——但遇到模糊物體、復(fù)雜場景推理、或者需要精確空間關(guān)系(比如"桌面上第三個(gè)物品是什么")時(shí),仍然容易出錯(cuò)。
行業(yè)正在關(guān)注:動(dòng)態(tài)分辨率(給關(guān)鍵區(qū)域分配更多 Patch)、原生多模態(tài)訓(xùn)練、多模態(tài)思維鏈、實(shí)時(shí)視頻理解。
多模態(tài)不只是給大模型裝了一雙眼睛。它改變的是模型理解世界的方式——從"只讀"到"可觀",從"聽說"到"眼見"。
但這距離真正的"視覺理解"還有距離。今天的多模態(tài)模型看到一張圖,更多是在做"匹配"——把像素特征和它見過的文字描述做關(guān)聯(lián)。它看一張貓圖,知道這是貓,但它不懂貓為什么在笑、畫面里有什么情緒。那才是人類意義上的"看懂"。
不過這條路的盡頭很清晰:一個(gè)既能"看見"又能"理解"的模型。到那時(shí),再回頭看"大模型只認(rèn)識文字"這句話,恐怕沒人會信了。
相關(guān)產(chǎn)品
免責(zé)聲明
- 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
手機(jī)版
化工儀器網(wǎng)手機(jī)版
化工儀器網(wǎng)小程序
官方微信
公眾號:chem17
掃碼關(guān)注視頻號















采購中心