進(jìn)入展臺在線留言

歡迎聯(lián)系我

有什么可以幫您？在線咨詢

多模態(tài)大模型

來源：浙江以象科技有限公司 2026年06月24日 11:00

多模態(tài)大模訓(xùn)練

當(dāng)你把一張照片丟給豆包，它能準(zhǔn)確描述畫面內(nèi)容；在通義千問里上傳一張草圖，它能識別你畫的是什么；Kimi 分析 PDF 里的圖表時(shí)，甚至能讀出表格中的數(shù)據(jù)。

事實(shí)上，大模型的多模態(tài)能力已經(jīng)成為標(biāo)配。從 Qwen-VL 到 GLM-4V，幾乎所有主流模型都支持圖像輸入。

可大模型的核心——Transformer——本質(zhì)上只是一個(gè)"字接字"的預(yù)測器，它只認(rèn)識 Token，不認(rèn)識像素。

把像素變成語言：三步架一座"橋"

核心問題只有一句話：如何讓一個(gè)只懂文本的系統(tǒng)，理解非文本的信息？

答案分三步：

第一步：把圖片切成小塊

模型沒有人類的全局直覺，它需要把一張完整的圖像拆解成無數(shù)個(gè)小方塊。

這個(gè)操作叫Patch Embedding。一張常見的 224×224 像素的圖片，被切成固定大小的"小塊"（通常是 16×16 像素），總共約 196 個(gè)小塊。每個(gè)小塊通過視覺編碼器（通常是 ViT 或 CNN）轉(zhuǎn)換成一個(gè)視覺向量——這個(gè)小塊的"數(shù)字簽名"。

多模態(tài)大模型

第二步：編上位置號

模型不僅要知道每個(gè)小塊里有什么，還要知道它在圖中的位置——左上還是右下？每個(gè)小塊加上位置編碼，作用和文本位置編碼是一樣的。

第三步：把視覺向量"翻譯"成模型能懂的 Token

視覺向量的維度和文本向量的維度不同，無法直接輸入語言模型。這里需要一個(gè)投影層，把視覺向量的維度映射到語言模型熟悉的文本向量維度上——相當(dāng)于把"圖片語"翻譯成了"模型語"。

經(jīng)過這三步，模型終于能"看到"這張圖了——雖然它看到的不是像素，而是一串串?dāng)?shù)值構(gòu)成的"影子"。

對齊：讓視覺和語言在同一個(gè)世界里對話

問題還沒結(jié)束：模型怎么知道視覺向量對應(yīng)的文字是什么？

一張貓的圖片經(jīng)過編碼變成 [0.12, -0.45, 0.78, ...]，而"貓"這個(gè)字的 Token 編碼是 [0.89, 0.33, -0.12, ...]——兩個(gè)數(shù)字空間不相通。

要讓"看到"和"說到"對應(yīng)起來，就需要對齊（Alignment）：喂大量圖文配對數(shù)據(jù)，讓"這張圖的向量"和"描述這張圖的文字向量"在高維空間中相互靠近。

訓(xùn)練時(shí)同時(shí)給模型看一張夕陽照片和文字"夕陽下的海灘"，模型會不斷調(diào)整參數(shù)，讓這兩個(gè)向量之間的數(shù)學(xué)距離越來越小。這個(gè)對齊過程需要數(shù)億對圖文數(shù)據(jù)。國內(nèi)公開的圖文數(shù)據(jù)集也包含數(shù)億對高質(zhì)量的圖文數(shù)據(jù)。

多模態(tài)大模型

兩種主流架構(gòu)

目前的多模態(tài)大模型分為兩大流派：

流派一：獨(dú)立視覺編碼器 + 大模型（Qwen-VL / GLM-4V）

保留一個(gè)完整的 ViT 處理圖像，再通過"連接器"把視覺信息注入語言模型。連接器可以是簡單的線性映射，也可以是復(fù)雜的 Q-Former。優(yōu)點(diǎn)是視覺能力強(qiáng)，缺點(diǎn)是參數(shù)多、推理慢。通義千問的 Qwen2.5-VL 就屬這一派，它用動(dòng)態(tài)分辨率方案——圖片越清晰，切成的 Patch 越多，細(xì)節(jié)越豐富。

流派二：原生多模態(tài)訓(xùn)練方案

不保留獨(dú)立視覺編碼器，從零訓(xùn)練一個(gè)能同時(shí)理解文本、圖像、音頻的統(tǒng)一模型。文本 Token 和視覺 Token 直接交互，沒有中間翻譯層。優(yōu)勢是跨模態(tài)理解更自然，缺點(diǎn)是從頭訓(xùn)練的費(fèi)時(shí)費(fèi)力。

國內(nèi)兩種路線都有玩家：DeepSeek-VL2 采用類似 Qwen-VL 的架構(gòu)，在文檔解析上表現(xiàn)優(yōu)秀；智譜 GLM-4V 在中文場景的視覺識別上做過大量優(yōu)化。

從圖片到視頻：難度指數(shù)級上升

一張圖 = 約 200 個(gè) Token。一段 1 分鐘的視頻，按每秒 24 幀算 = 1440 張圖 = 近 30 萬個(gè) Token。

這不僅讓顯存扛不住，更棘手的是時(shí)序理解——"先拿起杯子，然后喝水"——模型需要理解幀與幀之間的時(shí)間關(guān)系。

主流做法是幀采樣：每秒抽幾幀關(guān)鍵幀，同時(shí)引入時(shí)序編碼讓模型知道幀的先后順序。即便如此，一段 10 分鐘的視頻仍需處理幾千幀，計(jì)算消耗仍然巨大。

多模態(tài)大模型

用一個(gè)詞描述多模態(tài)大模型的現(xiàn)狀："剛剛夠用"。

它看得懂日常照片、能識別圖表、能理解視頻中的動(dòng)作——但遇到模糊物體、復(fù)雜場景推理、或者需要精確空間關(guān)系（比如"桌面上第三個(gè)物品是什么"）時(shí)，仍然容易出錯(cuò)。

行業(yè)正在關(guān)注：動(dòng)態(tài)分辨率（給關(guān)鍵區(qū)域分配更多 Patch）、原生多模態(tài)訓(xùn)練、多模態(tài)思維鏈、實(shí)時(shí)視頻理解。

多模態(tài)不只是給大模型裝了一雙眼睛。它改變的是模型理解世界的方式——從"只讀"到"可觀"，從"聽說"到"眼見"。

但這距離真正的"視覺理解"還有距離。今天的多模態(tài)模型看到一張圖，更多是在做"匹配"——把像素特征和它見過的文字描述做關(guān)聯(lián)。它看一張貓圖，知道這是貓，但它不懂貓為什么在笑、畫面里有什么情緒。那才是人類意義上的"看懂"。

不過這條路的盡頭很清晰：一個(gè)既能"看見"又能"理解"的模型。到那時(shí)，再回頭看"大模型只認(rèn)識文字"這句話，恐怕沒人會信了。

相關(guān)產(chǎn)品

免責(zé)聲明

凡本網(wǎng)注明“來源：化工儀器網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：化工儀器網(wǎng)”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其他來源（非化工儀器網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí)，必須保留本網(wǎng)注明的作品第一來源，并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題，請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。

中文字幕少妇熟女,成人av一区二区在线,日本不卡在线视频播放,久久狠色av噜噜系列,老熟女六十路丰满,久久久久九九久久久久久久999,欧美亚洲另类在线日韩,亚洲日本高清一二三区,久久99人妻一区

多模態(tài)大模型

多模態(tài)大模訓(xùn)練

把像素變成語言：三步架一座"橋"

對齊：讓視覺和語言在同一個(gè)世界里對話

兩種主流架構(gòu)

從圖片到視頻：難度指數(shù)級上升

免責(zé)聲明

聯(lián)系我們

關(guān)注我們