亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看

登錄
首頁 > 汽車測評 > Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

發(fā)布時間:2025-09-13 12:07:07

Meta超級智能實驗室(MSL)又被送上爭議的風(fēng)口浪尖了。

不過,這次不是人事風(fēng)波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質(zhì)疑忽視前人研究、缺乏創(chuàng)新

究竟是啥論文?

讓模型在博弈中學(xué)習(xí)

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下實現(xiàn)自我提升

這一方法旨在應(yīng)對當(dāng)前大語言模型高度依賴大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù),且訓(xùn)練數(shù)據(jù)有限所帶來的困境。

為此,LSP將模型的學(xué)習(xí)過程設(shè)計成一個博弈框架,讓同一個語言模型扮演兩個角色進(jìn)行對抗,從而實現(xiàn)無數(shù)據(jù)訓(xùn)練。

具體來說,這兩個角色分別是:

  • 挑戰(zhàn)者:負(fù)責(zé)生成越來越有挑戰(zhàn)性的問題或指令。
  • 解決者:負(fù)責(zé)回答或執(zhí)行這些指令。

在對抗過程中,挑戰(zhàn)者不斷生成越來越刁鉆的問題或指令,以降低解決者的預(yù)期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

通過這樣的對抗訓(xùn)練,模型能夠在不斷博弈中持續(xù)改進(jìn),逐步提升能力。

此外,與傳統(tǒng)對抗訓(xùn)練不同,LSP讓單個語言模型同時扮演“挑戰(zhàn)者”和“解決者”兩個角色,研究人員給模型設(shè)計了一個特殊的“挑戰(zhàn)者提示”(Challenger Prompt):當(dāng)接收到該提示時,模型進(jìn)入挑戰(zhàn)者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設(shè)計避免了訓(xùn)練獨立對抗模型所帶來的額外開銷和不穩(wěn)定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數(shù)據(jù)輸入的情況下提升自身能力

為了將這個博弈轉(zhuǎn)化成模型強化學(xué)習(xí)的過程,研究中采用了GRPO技巧,讓模型在每輪訓(xùn)練中進(jìn)行如下操作:

  • 挑戰(zhàn)者生成問題:每輪生成N個問題。

  • 解決者回答問題:對于每個問題,解決者生成一定數(shù)量的答案,并分別計算獎勵。

  • 計算組價值與優(yōu)勢:把解決者對同一個問題的所有答案的獎勵進(jìn)行平均,得到這個問題整體的難度或表現(xiàn)水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰(zhàn)者優(yōu)勢:通過計算優(yōu)勢函數(shù)獲得問題和答案的反饋,優(yōu)化自己出題的策略。

通過這種獎勵機制,挑戰(zhàn)者生成的問題會針對解決者的薄弱環(huán)節(jié),從而推動模型不斷改進(jìn)。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發(fā)現(xiàn)LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內(nèi)容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質(zhì)量獎勵”(RQ),引導(dǎo)博弈朝高質(zhì)量交互發(fā)展,使訓(xùn)練可長期進(jìn)行。

(注:LSP的具體算法如下表)

最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準(zhǔn)上進(jìn)行了兩組實驗。

實驗一將算法與基礎(chǔ)模型本身以及一個通過傳統(tǒng)強化學(xué)習(xí)微調(diào)的大語言模型進(jìn)行比較。

實驗結(jié)果顯示,沒有使用任何數(shù)據(jù)的LSP和LSP-Zero和使用了數(shù)據(jù)的GRPO相當(dāng),并且顯著優(yōu)于原始模型。而在 Vicuna這類對話型和開放式指令的數(shù)據(jù)集上,LSP 的表現(xiàn)遠(yuǎn)超GRPO。

實驗二以實驗一中通過數(shù)據(jù)驅(qū)動 RL(GRPO)訓(xùn)練得到的模型為起點,進(jìn)一步使用 LSP-Zero 和 LSP 進(jìn)行訓(xùn)練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進(jìn)行對比。

實驗顯示,經(jīng)過LSP的進(jìn)一步訓(xùn)練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數(shù)據(jù)集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數(shù)據(jù)驅(qū)動的訓(xùn)練之后繼續(xù)挖掘模型潛力。

總的來說,實驗結(jié)果表明,LSP-Zero和LSP算法能夠在無需訓(xùn)練數(shù)據(jù)的情況下提升預(yù)訓(xùn)練LLM的性能,尤其是在對話類任務(wù)上表現(xiàn)顯著,而這可能意味著AI正在從依賴人類數(shù)據(jù)過渡到自主學(xué)習(xí)系統(tǒng)。

網(wǎng)友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經(jīng)發(fā)布后,在網(wǎng)友們這倒是出了些小插曲。

一位推特網(wǎng)友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯(lián)合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區(qū)的典型操作。

而且,就連失敗的模型也大同小異。

評論區(qū)有網(wǎng)友表示這可能是一篇老工作,然后拿到MSL發(fā)的:

Copyright 2017-2025 新車測評網(wǎng) 版權(quán)所有  ICP備18049689號-30
亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看
国产v亚洲v天堂无码久久久 | 激情成人在线观看| 美女黄色免费看| 亚洲 欧美 另类人妖| 91免费黄视频| 亚洲色图欧美自拍| www.日本xxxx| 国产综合中文字幕| 在线观看17c| 国产小视频免费| 成年在线观看视频| 国产一区 在线播放| 奇米777四色影视在线看| 亚洲乱码日产精品bd在线观看| 免费国产成人看片在线| 7777在线视频| 97免费视频观看| 国自产拍偷拍精品啪啪一区二区 | 人妻熟妇乱又伦精品视频| 欧美 日韩 国产 高清| 成年人视频网站免费观看| 黄www在线观看| 无码内射中文字幕岛国片| chinese少妇国语对白| 成人亚洲精品777777大片| 中文字幕视频三区| av磁力番号网| 超碰成人免费在线| 国产精品97在线| 中文久久久久久| 色黄视频免费看| 国产aaa免费视频| 啊啊啊一区二区| 亚洲综合在线网站| 三日本三级少妇三级99| 中文字幕在线中文| 国产精品又粗又长| 午夜激情在线观看视频| 国内自拍第二页| 妞干网视频在线观看| 国产裸体舞一区二区三区| 日韩av卡一卡二| 99re6这里有精品热视频| 人妻少妇精品无码专区二区| www国产黄色| www午夜视频| 成人在线免费观看网址| 99视频在线免费播放| 欧洲熟妇精品视频| 国产日本欧美在线| 日本中文字幕网址| 无尽裸体动漫2d在线观看| 国产激情片在线观看| 情侣黄网站免费看| 黄色网址在线免费看| 男女高潮又爽又黄又无遮挡| 手机av在线网| 成人在线观看你懂的| 五月激情婷婷在线| 成年人午夜视频在线观看| 亚洲色图 在线视频| 欧美日韩dvd| 欧美三级理论片| 日韩视频在线视频| 日韩成人精品视频在线观看| 精品丰满人妻无套内射| 三级av免费观看| 男人添女人下面高潮视频| 伊人免费视频二| 99免费视频观看| 精品无码av无码免费专区| 搡女人真爽免费午夜网站| 狠狠干视频网站| 亚洲国产成人va在线观看麻豆| 69sex久久精品国产麻豆| 亚洲午夜激情影院| 人妻少妇被粗大爽9797pw| 97超碰人人爱| 国产精品视频黄色| 欧美激情 国产精品| www亚洲国产| 天天干天天综合| 成人免费毛片网| 99久久久精品视频| www.桃色.com| 久久国产精品国产精品| 国产69精品久久久久999小说| 异国色恋浪漫潭| 超碰在线97免费| 国产午夜大地久久| 大地资源网在线观看免费官网| 日韩爱爱小视频| 又粗又黑又大的吊av| 一区二区三区四区久久| 日韩av片网站| 999香蕉视频| 18岁网站在线观看| 全黄性性激高免费视频| 男女啪啪免费观看| 欧美性视频在线播放| 天堂视频免费看| 91国产精品视频在线观看| 激情综合网婷婷| 男人靠女人免费视频网站| 男女激情免费视频| 国产传媒久久久| 黄色一级片av| 九九久久九九久久| 男女激烈动态图| 日本一道在线观看| 男人草女人视频| 日本免费成人网| 国产 国语对白 露脸| 国产资源第一页| 男人的天堂成人| 懂色av粉嫩av蜜臀av| 欧美日韩在线免费观看视频| 四虎成人在线播放| 欧美xxxxxbbbbb| 一本二本三本亚洲码| 经典三级在线视频| 女女百合国产免费网站| 成年丰满熟妇午夜免费视频| 成人午夜免费在线视频| 97在线国产视频| 欧美精品一区免费| 苍井空浴缸大战猛男120分钟| 亚洲午夜无码av毛片久久| 久久国产色av免费观看| 日本三区在线观看| 鲁一鲁一鲁一鲁一av| 制服丝袜中文字幕第一页 | 国产人妻人伦精品| 日韩一区二区高清视频| 黄页免费在线观看视频| 欧美亚洲一二三区| 黄色在线视频网| 午夜国产福利在线观看| 老汉色影院首页| 国产a级片网站| 北条麻妃av高潮尖叫在线观看| 日本xxxx黄色| 国产日本欧美在线| 人妻少妇精品无码专区二区| 免费黄色福利视频| 五月天视频在线观看| 国内自拍中文字幕| 啊啊啊一区二区| www.久久av.com| 337p亚洲精品色噜噜狠狠p| 777精品久无码人妻蜜桃| 亚洲成色www.777999| 久久精品一卡二卡| 免费观看美女裸体网站| 一区二区三区 日韩| 精品国产一区二区三区在线| 日韩免费视频播放| 不卡的在线视频| 日本熟妇人妻xxxx| 日韩av片网站| 97超碰国产精品| 污片在线免费看| 国产又粗又猛又爽又黄的网站| 国产亚洲天堂网| 亚洲视频在线不卡| 自慰无码一区二区三区| 国产亚洲视频一区| 日韩精品 欧美| 天天色天天综合网| 国产黄页在线观看| 国产乱码一区二区三区四区| 日本午夜激情视频| 久久久久久久久久久久久久久国产 | 无码粉嫩虎白一线天在线观看 | 国产日本欧美在线| 色综合av综合无码综合网站| 特黄特黄一级片| 国产极品美女高潮无套久久久| 亚洲图片 自拍偷拍| 日本日本19xxxⅹhd乱影响| 久国产精品视频| 岳毛多又紧做起爽| 成人在线观看毛片| 中文字幕成人免费视频| 大肉大捧一进一出好爽视频| 国产999免费视频| 欧在线一二三四区| 黄色成人在线免费观看| 色婷婷一区二区三区av免费看| av免费观看大全| 韩国黄色一级大片| 欧美日韩中文不卡| 凹凸国产熟女精品视频| 成人av在线播放观看| www.com久久久| 久久婷婷国产91天堂综合精品| www.射射射| 麻豆传媒网站在线观看| 一级黄色在线播放| 亚洲一级片免费|