亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看

登錄
首頁 > 車市科技 > 智譜運(yùn)氣是差一點(diǎn)點(diǎn),視覺Token研究又和DeepSeek撞車了

智譜運(yùn)氣是差一點(diǎn)點(diǎn),視覺Token研究又和DeepSeek撞車了

發(fā)布時(shí)間:2025-10-24 15:59:34

這不巧了嗎……智譜和DeepSeek,又雙叒撞車了。

太卷了,DeepSeek-OCR剛發(fā)布不到一天,智譜就開源了自家的視覺Token方案——Glyph

既然是同臺(tái)對(duì)壘,那自然得請(qǐng)這兩天瘋狂點(diǎn)贊DeepSeek的卡帕西來鑒賞一下:

或許你也會(huì)對(duì)我們的工作感興趣。

發(fā)論文就發(fā)論文,怎么還爭上寵了。(doge)

網(wǎng)友調(diào)侃be like:AI界也有自己的霸總愛情片。

智譜也做視覺壓縮

是的,與DeepSeek-OCR一樣,智譜這篇論文的目標(biāo)同樣也是通過視覺的方式,破解當(dāng)下LLM上下文冗長的難題。

激增的上下文

隨著LLM能力一路狂飆,用戶和廠商對(duì)于長上下文的需求也越來越迫切。

畢竟,不論是長文檔分析、代碼審查,還是多輪對(duì)話,模型可不能像金魚那樣看過就忘。要讓它們真正靠譜地執(zhí)行任務(wù),就得有足夠穩(wěn)定的「工作記憶」。

但擴(kuò)充上下文可是個(gè)相當(dāng)吃力不討好的工作。

舉個(gè)例子:如果把上下文從50K擴(kuò)到100K,算力的消耗大約會(huì)變成原來的四倍。

原因在于,更多的Token,就意味著模型需要記住更多的激活值、緩存、注意力權(quán)重,這些東西在訓(xùn)練和推理階段都是靠真金白銀堆出來的。

如果能實(shí)實(shí)在在地提升性能,多花點(diǎn)錢也認(rèn)了。

可最讓人心痛的是,砸了重金擴(kuò)上下文,模型還不一定更聰明

IBM的研究就指出,光靠“多塞 Token”并不能保證模型表現(xiàn)線性提升。

相反,當(dāng)輸入太長、信息太雜時(shí),模型反而可能陷入噪聲干擾和信息過載,越看越糊涂。

關(guān)于這類問題,目前大概有三種比較主流的解決方案:

第一類,是擴(kuò)展位置編碼。

在Transformer結(jié)構(gòu)里,模型并不知道輸入的先后順序,因此要給每個(gè)Token加上“位置編碼”,告訴模型這是誰先誰后。

而擴(kuò)展位置編碼的做法,就是把原有的位置編碼區(qū)間直接向外延伸。

比如,把0~32K的位置區(qū)間“插值”到0~100K,這樣,模型就能在工作時(shí)接受更長的輸入,而不必重新訓(xùn)練。

雖然如此,這并沒有解決推理成本的問題,模型在推理階段依舊要遍歷所有上下文。

而且,模型雖然能繼續(xù)讀下去,但由于它在訓(xùn)練中從未見過如此長的上下文,現(xiàn)在逼著人家讀肯定表現(xiàn)不會(huì)好。

第二類,是改造注意力機(jī)制。

既然上下文變長了,那就讓模型「讀」快一點(diǎn),比如用稀疏注意力、線性注意力等技巧,提高每個(gè)Token的處理效率。

但再怎么快,賬還是那本賬,Token的總量沒有減少,如果上下文都到了幾十萬,多高的效率也頂不住。

第三類,是檢索增強(qiáng)RAG路線。

它通過外部檢索先挑重點(diǎn)、再喂給模型,輸入變短了,推理輕快了。

但大家也知道,RAG的輸出結(jié)果肯定不如模型基于訓(xùn)練數(shù)據(jù)的回答,而且還會(huì)因多出來的檢索步驟拖慢整體響應(yīng)。

踏破鐵鞋無覓處,上下文真是個(gè)令人頭疼的問題。

看「圖」說話

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種新范式——Glyph

大道至簡:既然純文本的信息密度不夠,那就把它放進(jìn)圖片里。

普通LLM處理文本時(shí),是把句子拆成一個(gè)個(gè)獨(dú)立的Token依次輸入,效率很低。

比如,如果一句話能分成1000個(gè)Token,模型就得老老實(shí)實(shí)算1000個(gè)向量,還要在它們之間做注意力計(jì)算。

相比之下,Glyph不會(huì)逐字閱讀,而是先把整段文字排版成圖像式的視覺Token,再把這張「截圖」交給VLM去處理。

之所以要這么做,是因?yàn)閳D像能承載的信息密度遠(yuǎn)高出純文本,僅需一個(gè)視覺Token就能容納原先需要好幾個(gè)文本Token的內(nèi)容。

借助這種方式,即便是一個(gè)上下文固定的VLM,無需借助稀疏注意力、RAG等工具,也能輕松吃下足以「撐死」LLM的超長文本。

舉個(gè)例子:小說《簡·愛》大約有240K的文本Token,對(duì)一臺(tái)上下文窗口只有128K的傳統(tǒng)LLM來說,只能塞進(jìn)去一半。

這種情況下,如果你想問一些涉及到故事跨度比較大的問題,傳統(tǒng)模型多半答不上來。

比如:女主離開桑菲爾德后,誰在她陷入困境時(shí)幫助了她?

但如果使用Glyph,把整本書渲染成緊湊的圖像,大約只需要80K視覺Token。

這樣一來,同樣是128K上下文的VLM就能輕松看完整部《簡·愛》,對(duì)故事脈絡(luò)心中有數(shù),也能從更大的全局視角來回答問題。

這么立竿見影的效果,是怎么實(shí)現(xiàn)的呢?

Glyph的訓(xùn)練流程主要分為三個(gè)階段:

第一階段:持續(xù)預(yù)訓(xùn)練(Continual Pre-training)

這一階段的目標(biāo),是讓模型把自己的長上下文理解能力從文字世界遷移到視覺世界。

具體而言,研究團(tuán)隊(duì)先盡可能多地將海量長文本渲染成不同風(fēng)格的圖像,把VLM扔在各式各樣排版、字體、布局中“讀圖識(shí)文”,以便訓(xùn)練出更強(qiáng)的泛化能力。

在這個(gè)過程中,模型會(huì)不斷學(xué)習(xí)如何把圖像中的文字信息,與原始文本語義對(duì)齊。

第二階段:LLM驅(qū)動(dòng)的渲染搜索(LLM-driven Rendering Search)

雖然多樣化的渲染方式能提升模型的泛化能力,但在實(shí)際應(yīng)用中,效率和精度必須兼顧。

文字如何轉(zhuǎn)成圖,決定了壓縮率可讀性之間的微妙平衡。

字體太大、排版太松固然不好,這樣做信息密度太低,有悖于視覺Token的初衷。

不過,過于追求信息密度也不是好事。

字體小、布局緊,雖然壓縮率高,卻可能讓模型“看不清”,理解出現(xiàn)偏差。

為此,研究團(tuán)隊(duì)引入由LLM驅(qū)動(dòng)的遺傳搜索算法,讓模型自動(dòng)探索最優(yōu)的渲染參數(shù)——比如字體大小、頁面布局、圖像分辨率等——力求在盡可能壓縮的同時(shí)不丟語義。

第三階段:后訓(xùn)練(Post-training)

在找到最優(yōu)的渲染方案后,研究團(tuán)隊(duì)又動(dòng)手做了兩件事:有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),旨讓模型在“看圖讀文”這件事上更聰明、更穩(wěn)。

此外,他們還在SFT和RL階段都加上了輔助OCR對(duì)齊任務(wù),教模型學(xué)會(huì)從圖像里準(zhǔn)確還原文字細(xì)節(jié),讓視覺和文本兩種能力真正融為一體。

最終,Glyph一舉練成兩大神功:

1、看懂長文,推理穩(wěn)準(zhǔn)狠。

2、認(rèn)清細(xì)節(jié),讀圖不傷腦。

靠著這套組合拳,Glyph在高壓縮的視覺上下文任務(wù)里依然能游刃有余。

狂砍75%上下文

讀懂了原理,接下來讓我們看看Glyph的實(shí)際表現(xiàn)如何。

事實(shí)證明,Glyph的確有助于大幅削減Token數(shù)。

實(shí)驗(yàn)結(jié)果顯示,Glyph在多項(xiàng)長上下文基準(zhǔn)測試中實(shí)現(xiàn)了3–4倍的Token壓縮率,同時(shí)依然保持與主流模型(如Qwen3-8B)相當(dāng)?shù)臏?zhǔn)確度。

這種壓縮不僅減輕了算力負(fù)擔(dān),還帶來了約4倍的prefill與解碼速度提升,以及約2倍的SFT訓(xùn)練加速。

更令人驚喜的是,在極端壓縮的情況下,一個(gè)上下文窗口僅128K的VLM,依然能夠應(yīng)對(duì)相當(dāng)于百萬Token級(jí)的文本任務(wù),并絲毫不落下風(fēng)。

此外,雖然Glyph的訓(xùn)練數(shù)據(jù)主要來自渲染后的文本圖像,但它在多模態(tài)任務(wù)上同樣表現(xiàn)出色,證明了其強(qiáng)大的泛化潛力。

綜上所述,這篇論文提出了一種名為Glyph的長上下文建模框架。

核心思路是把長文本“畫”成圖,再讓VLM去看圖讀文,做到一目十行,從而能實(shí)現(xiàn)高效的上下文擴(kuò)展。

論文作者

這么厲害的成果,都是誰做出來的?

論文的一作是Jiale Cheng,他是清華大學(xué)的博士生,主要研究方向包括自然語言生成、對(duì)話系統(tǒng)和相關(guān)的人工智能交互技術(shù)。

目前,Jiale已發(fā)布了多篇論文,并在谷歌學(xué)術(shù)上有不錯(cuò)的影響力。

此外,論文還有三位主要貢獻(xiàn)者:Yusen Liu、Xinyu Zhang、Yulin Fei。

遺憾的是,都沒有太多公開資料。

擔(dān)任本文通訊作者的是黃民烈教授

黃教授本科與博士均畢業(yè)于清華大學(xué),目前是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長聘教授,同時(shí)兼任智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室副主任、清華大學(xué)基礎(chǔ)模型中心副主任。

此外,他還是北京聆心智能科技有限公司的創(chuàng)始人兼首席科學(xué)家。

黃教授的研究方向主要集中在人工智能、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí),自然語言處理等。

像素或成最終Token

繼MoE名聲鵲起后,DeepSeek-OCR的出現(xiàn)再次在AI領(lǐng)域掀起了一波技術(shù)革命。

截至10月22日,抱抱臉上最受歡迎的前四個(gè)模型,全部都支持OCR。

一方面,自然是視覺Token本身的巨大潛力。

在上下文建模方面,視覺Token的表現(xiàn)堪稱驚艷——

DeepSeek-OCR僅用100個(gè)視覺Token,就能在原本需要800個(gè)文本Token的文檔上取得高達(dá)97.3%的準(zhǔn)確率。

這種效率提升,意味著AI的門檻正被迅速拉低。

據(jù)DeepSeek介紹,引入OCR技術(shù)后,單張NVIDIA A100-40G GPU每天可處理超過20萬頁文檔

按這個(gè)速度推算,僅需一百多張卡,就足以完成一次完整的模型預(yù)訓(xùn)練。

降本增效歷來是開源陣營的強(qiáng)項(xiàng),但在這次熱議中,大家的關(guān)注點(diǎn)不再僅僅停留于此——

視覺Token的出現(xiàn),或許正在從底層重塑LLM的信息處理方式。

未來,像素可能取代文本,成為下一代AI的基本信息單元

卡帕西指出,像素天生比文本更適合作為LLM的輸入,主要有兩點(diǎn)原因:

1、信息壓縮更高 → 更短的上下文窗口,更高的效率。

2、信息流更廣泛 → 不僅能表示文字,還能包含粗體、顏色、任意圖像。

馬斯克的觀點(diǎn)則更加激進(jìn):

從長遠(yuǎn)來看,人工智能模型的輸入和輸出中 99% 以上都將是光子。

此外,OCR的爆火也不禁讓人再次思考AI與腦科學(xué)之間千絲萬縷的聯(lián)系。

用圖像而非文本作為輸入,乍看之下似乎反直覺,但細(xì)想便會(huì)發(fā)現(xiàn),這反而更貼近人腦的信息處理方式。

人類獲取任何新信息時(shí),最先感知到的都是圖像。

即便是閱讀,我們的大腦最初接收的也只是由像素按特定規(guī)律排列組合的一串圖形,在經(jīng)過一層層視覺處理后,這些像素才被翻譯成“文字”的概念。

從這個(gè)角度來看,OCR的表現(xiàn)固然驚艷,但也沒那么出乎意料了。

畢竟,視覺才是人類數(shù)萬年來接觸世界的一手資料。

相比之下,語言不過是我們基于視覺與其他感官體驗(yàn)提煉出的高度濃縮的抽象層。它標(biāo)準(zhǔn)化、成本低,但本質(zhì)上依舊是視覺的降維產(chǎn)物。

即便再清晰的影子,也注定會(huì)流失不少細(xì)節(jié)。

有趣的是,當(dāng)AI在各項(xiàng)指標(biāo)上不斷逼近人類、引發(fā)普遍焦慮的同時(shí),每當(dāng)技術(shù)發(fā)展陷入瓶頸,我們又總能從那個(gè)被質(zhì)疑“沒那么智能”的人腦里重新找到答案

神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、MoE……都是這個(gè)規(guī)律下的產(chǎn)物。

而這一次,深不可測的「人類智能」,從視覺Token上再次得到了印證。

Copyright 2017-2025 新車測評(píng)網(wǎng) 版權(quán)所有  ICP備18049689號(hào)-30
亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看
羞羞的视频在线| 五月天婷婷亚洲| 激情内射人妻1区2区3区| 中文字幕日韩精品无码内射| 亚洲36d大奶网| 日本女优爱爱视频| 日韩av黄色网址| 日本十八禁视频无遮挡| 91网站在线观看免费| 韩国黄色一级大片| 艳母动漫在线免费观看| 99999精品| 色18美女社区| 亚洲激情在线看| 亚洲视频一二三四| 黄色一级片免费的| 不卡的在线视频| 日韩av加勒比| 天天干天天操天天干天天操| 天美一区二区三区| 2021狠狠干| 欧美精品在欧美一区二区| 永久免费看av| 黄色成人在线免费观看| 免费高清一区二区三区| 国产无限制自拍| 国产h视频在线播放| 日韩av资源在线| 成人亚洲视频在线观看| 国产区二区三区| 九九热精品在线播放| 99国产精品久久久久久| 一级日本黄色片| 日本大胆人体视频| 国产3p露脸普通话对白| aⅴ在线免费观看| 少妇一级淫免费放| 午夜免费福利网站| 无码人妻精品一区二区蜜桃网站| 日本网站免费在线观看| 成年人黄色片视频| 伊人成人222| 国产精品一区在线免费观看| 国产一区二区四区| www黄色av| 黄色片免费网址| 欧美久久久久久久久久久久久久| 精品少妇一区二区三区在线| 婷婷激情四射五月天| 中文字幕免费高| 久久亚洲中文字幕无码| 亚洲免费看av| 97av中文字幕| 黑鬼大战白妞高潮喷白浆| 毛片毛片毛片毛| 国产美女主播在线| 高清一区在线观看| 蜜臀av.com| 日韩中文字幕二区| 韩国黄色一级大片| 成人三级视频在线播放 | 欧美精品一区二区三区三州| 精品久久久久久无码国产| 九九九九九国产| www.射射射| 亚洲xxx在线观看| 国内精品在线观看视频| xxww在线观看| 欧美成人三级在线视频| 欧美日韩中文不卡| 国产69精品久久久久999小说| 高清av免费看| 给我免费播放片在线观看| 九色porny自拍| 很污的网站在线观看| 成人日韩在线视频| 国产一区二区在线视频播放| 在线a免费观看| 国产xxxxx视频| 成人午夜视频在线观看免费| 色一情一区二区三区| 久久成人免费观看| 五月天六月丁香| 大香煮伊手机一区| 日本阿v视频在线观看| 天堂av2020| 18禁免费无码无遮挡不卡网站| 在线视频日韩欧美| 欧美丰满熟妇xxxxx| 高清欧美精品xxxxx| 国产999免费视频| 杨幂毛片午夜性生毛片| 国产精品国产亚洲精品看不卡| 国产又粗又猛大又黄又爽| 国产女女做受ⅹxx高潮| 极品粉嫩国产18尤物| 中文字幕一区二区三区四区五区人 | 国产精品88久久久久久妇女| 欧美三级午夜理伦三级富婆| 男人揉女人奶房视频60分| 国产传媒久久久| 麻豆md0077饥渴少妇| 不卡中文字幕在线观看| av视屏在线播放| 欧美 日韩 国产一区| 亚洲 自拍 另类小说综合图区| 欧美性受xxxx黑人猛交88| 亚洲第一狼人区| 久草福利视频在线| 国语对白做受xxxxx在线中国| 你真棒插曲来救救我在线观看| 99久久99久久精品| 公共露出暴露狂另类av| 91性高潮久久久久久久| 手机在线国产视频| 爱豆国产剧免费观看大全剧苏畅| 91小视频网站| 亚欧美在线观看| 亚洲精品自拍网| 午夜两性免费视频| 一区二区xxx| 欧美wwwwwww| 日本一二区免费| 在线播放黄色av| 熟妇熟女乱妇乱女网站| 天天爱天天做天天操| 国产欧美综合一区| 中文字幕在线中文| 欧美狂野激情性xxxx在线观| 国产精品igao激情视频| 91免费国产精品| 性欧美大战久久久久久久| www.浪潮av.com| 999香蕉视频| 日本久久久久久久久久久久| 污污网站免费观看| 黄色片免费网址| 99视频精品全部免费看| 国产黄色激情视频| 9久久9毛片又大又硬又粗| 波多野结衣家庭教师视频| 992kp快乐看片永久免费网址| 一区二区三区国产免费| 久久久久久久高清| 日韩视频 中文字幕| www.av中文字幕| 一本久道中文无码字幕av| 久久99爱视频| 久久国产精品免费观看| 九色自拍视频在线观看| 日韩中文字幕免费在线 | www.亚洲高清| 永久免费在线看片视频| 黄色一级片国产| 777久久久精品一区二区三区| 亚洲 中文字幕 日韩 无码| www.com污| 免费看欧美一级片| 粉嫩虎白女毛片人体| 天天摸天天舔天天操| 日韩精品一区二区在线视频 | 视频一区二区视频| cao在线观看| 日韩爱爱小视频| 蜜臀在线免费观看| 超碰97人人射妻| 日本一二三区在线| 国精产品一区一区三区视频| 香港日本韩国三级网站| 欧美少妇在线观看| av免费在线播放网站| 黄频视频在线观看| 精品无码一区二区三区在线| 色综合手机在线| 欧美一级爱爱视频| 国产小视频精品| av在线观看地址| 视频在线观看免费高清| 欧美视频在线观看视频| 亚洲免费av一区| 国产97在线 | 亚洲| 欧美专区第二页| 亚洲熟妇无码一区二区三区| 黄色小视频免费网站| 超碰成人免费在线| 一个色综合久久| 激情五月宗合网| 久久久福利影院| 欧美aⅴ在线观看| 亚洲色婷婷久久精品av蜜桃| 波多野结衣作品集| 无码 制服 丝袜 国产 另类| 欧美日韩理论片| 日韩av一二三四| 黄色三级中文字幕| 中文字幕资源在线观看| 国产91对白刺激露脸在线观看| 99re8这里只有精品| 波多结衣在线观看| 能在线观看的av|