很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請(qǐng)把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會(huì)有專(zhuān)人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒?qǐng)聯(lián)系:鳥(niǎo)哥筆記小羽毛(ngbjxym)
國(guó)內(nèi)大模型圈迎來(lái)神仙打架,OpenAI一覺(jué)醒來(lái)驚呼變了天?
1月20日,DeepSeek沒(méi)有任何預(yù)兆地發(fā)布了DeepSeek-R1模型。不到兩個(gè)小時(shí),Kimi k1.5新模型隨即發(fā)布。模型之外,還都附帶上了詳細(xì)的技術(shù)訓(xùn)練報(bào)告。
兩款推理模型,全面對(duì)標(biāo)OpenAI o1,在多項(xiàng)基準(zhǔn)測(cè)試中獲得了打平和超越o1的好成績(jī)。DeepSeek-R1文本推理模型出廠即開(kāi)源、可商用,Kimi k1.5同時(shí)支持文本和視覺(jué)推理,同樣各項(xiàng)指標(biāo)拉滿,成為首個(gè)實(shí)現(xiàn)o1完整版水平的多模態(tài)模型。
中國(guó)大模型界“雙子星”一夜間卷到海外,給了硅谷“億點(diǎn)點(diǎn)”震撼。社交平臺(tái)X上多位業(yè)界和學(xué)界大佬下場(chǎng)轉(zhuǎn)發(fā)、點(diǎn)贊DeepSeek-R1與Kimi k1.5的帖子。
英偉達(dá)AI科學(xué)家Jim Fan第一時(shí)間發(fā)帖總結(jié)兩者的相同點(diǎn)和差異性,評(píng)價(jià)所發(fā)表的論文是“重磅”級(jí)別。
多位AI技術(shù)大V對(duì)Kimi k1.5給予肯定,有人發(fā)表評(píng)論稱(chēng)“又一個(gè)重量級(jí)模型誕生了,亮點(diǎn)是文本和視覺(jué)的多模態(tài)推理能力,這是多模態(tài)AI領(lǐng)域的重大突破”。有人將其與OpenAI o1相比較,感嘆OpenAI是否已經(jīng)被拉下了神壇,“越來(lái)越多的模型正在打敗OpenAI o1”?
面對(duì)來(lái)自中國(guó)的“攻擂者”,擠牙膏式釋放期貨的OpenAI首席執(zhí)行官Sam Altman在個(gè)人賬號(hào)發(fā)布帖子抱怨媒體炒作AGI,讓網(wǎng)友降低期待值,“下個(gè)月不會(huì)部署AGI,也不會(huì)構(gòu)建AGI”。沒(méi)想到,反而激怒了網(wǎng)友,被諷刺“賊喊捉賊”。
AI世界正在發(fā)生一些變化,DeepSeek-R1和Kimi k1.5驗(yàn)證了強(qiáng)化學(xué)習(xí)(RL)思路的可行性,開(kāi)始挑戰(zhàn)OpenAI的絕對(duì)領(lǐng)先地位。
同時(shí),中國(guó)本土模型挑戰(zhàn)不可能性,實(shí)現(xiàn)換道超車(chē),也是對(duì)國(guó)內(nèi)大模型行業(yè)的一次精神鼓舞。未來(lái),中國(guó)AI企業(yè)仍有機(jī)會(huì)打破硅谷的技術(shù)壟斷,走出中國(guó)自主技術(shù)路線。
繼去年11月發(fā)布的k0-math數(shù)學(xué)模型,12月發(fā)布的k1視覺(jué)思考模型之后,連續(xù)第三個(gè)月升級(jí),Kimi帶來(lái)了K系列強(qiáng)化學(xué)習(xí)模型Kimi k1.5。
按照Kimi k系列思考模型路線圖,k0到kn進(jìn)化是模態(tài)和領(lǐng)域的全面拓展。k0屬于文本態(tài),聚焦于數(shù)學(xué)領(lǐng)域;k1增加了視覺(jué)態(tài),成為了OpenAI之外首個(gè)多模態(tài)版的o1,其領(lǐng)域擴(kuò)展至物理、化學(xué);此次升級(jí)的k1.5仍是多模態(tài),這也是Kimi模型突出特點(diǎn)之一,在領(lǐng)域上則由數(shù)理化升級(jí)到代碼、通用等更加常用和廣闊的領(lǐng)域。
從基準(zhǔn)測(cè)試成績(jī)看,k1.5多模態(tài)思考模型實(shí)現(xiàn)了SOTA(state-of-the-art)級(jí)別的多模態(tài)推理和通用推理能力。
國(guó)內(nèi)外宣傳達(dá)到o1水準(zhǔn)的模型很多,但是從數(shù)據(jù)來(lái)看,目前只有Kimi和DeepSeek發(fā)布的模型才是真正滿血版的o1,其他各家發(fā)布的模型還在o1-Preview的水平——差距有30%-40%。
以O(shè)penAI o1為基準(zhǔn),其數(shù)學(xué)水平得分74.4分,編程水平得分67.2分,并且支持多模態(tài)。按此標(biāo)準(zhǔn)審視國(guó)內(nèi)已發(fā)布的推理模型,阿里QVQ、智譜GML、科大訊飛星火和階躍星辰Step系列模型與實(shí)際o1水平仍有一定距離。DeepSeek和Kimi模型在數(shù)學(xué)水平上均超過(guò)了OpenAI,編程水平接近o1水準(zhǔn)。但跟DeepSeek相比,Kimi支持多模態(tài)視覺(jué)推理,而DeepSeek只能識(shí)別文字,不支持圖片識(shí)別。
具體來(lái)看,在short-CoT(短思考)模式下,Kimi k1.5超越了其他一切模型。其數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考SOTA模型 GPT-4o和Claude 3.5 Sonnet的水平,領(lǐng)先達(dá)到550%。
在long-CoT(長(zhǎng)思考)模式下,Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力,也達(dá)到長(zhǎng)思考 SOTA 模型 OpenAI o1 正式版的水平。在兩個(gè)數(shù)學(xué)水平測(cè)試(AIME 2024和MATH-500)中打敗了o1,在編程水平測(cè)試(Codeforces)中與o1打平。這應(yīng)該是全球范圍內(nèi),OpenAI之外的公司首次實(shí)現(xiàn)o1正式版的多模態(tài)推理性能。
海內(nèi)外一起打call,實(shí)力水平經(jīng)得住考驗(yàn),Kimi是如何修煉成“最強(qiáng)大腦”的?
看完干貨滿滿的技術(shù)報(bào)告,可以總結(jié)歸納為一種訓(xùn)練思路、一個(gè)訓(xùn)練方案和一個(gè)訓(xùn)練框架。其中,高效推理、優(yōu)化思路貫穿其中。
受制于數(shù)據(jù)量的限制,預(yù)訓(xùn)練“大力出奇跡”的方法在現(xiàn)實(shí)訓(xùn)練中屢屢碰壁,從OpenAI o1起行業(yè)內(nèi)開(kāi)始轉(zhuǎn)變訓(xùn)練范式,把更多的精力投入到強(qiáng)化學(xué)習(xí)上。
之前的思路可以理解為“直給”,即人類(lèi)要主動(dòng)去“喂”給大模型數(shù)據(jù),監(jiān)督大模型工作,介入大模型的“調(diào)教”過(guò)程。但強(qiáng)化學(xué)習(xí)的核心思路是,在沒(méi)有人過(guò)多干預(yù)的情況下,讓大模型自我學(xué)習(xí)和進(jìn)化。
此次Kimi的新模型更新便采用了強(qiáng)化學(xué)習(xí)的路徑,在訓(xùn)練過(guò)程中證明,無(wú)需依賴(lài)蒙特卡洛樹(shù)搜索、價(jià)值函數(shù)、過(guò)程獎(jiǎng)勵(lì)模型,也能讓模型取得不錯(cuò)的性能。
強(qiáng)化學(xué)習(xí)的思路集中體現(xiàn)在了“Long2Short”訓(xùn)練方案中,這也是Kimi技術(shù)報(bào)告的亮點(diǎn)所在。按其官方介紹,具體的做法為,先利用較大的上下文窗口,讓模型學(xué)會(huì)長(zhǎng)鏈?zhǔn)剿季S,再將“長(zhǎng)模型”的推理經(jīng)驗(yàn)轉(zhuǎn)移到“短模型”中,兩者進(jìn)行合并,最后針對(duì)“短模型”進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。
這種做法的好處在于,可以提升token的利用率以及訓(xùn)練效率,在模型性能和效率中間尋找到最優(yōu)解。
放到行業(yè)內(nèi)來(lái)看,Kimi的“Long2Short”訓(xùn)練方案也是“模型蒸餾”的體現(xiàn)。在這里,“長(zhǎng)模型”是老師,而“短模型”是學(xué)生,老師傳授給學(xué)生知識(shí),利用大模型來(lái)提升小模型的性能。當(dāng)然,Kimi也采用了一些方法來(lái)提升效率,比如利用“長(zhǎng)模型”生成的多個(gè)樣本,取最短的正解為正樣本,生成時(shí)間長(zhǎng)的為負(fù)樣本,以此來(lái)形成對(duì)照組訓(xùn)練數(shù)據(jù)集。
為了適配強(qiáng)化學(xué)習(xí)訓(xùn)練,Kimi k1.5專(zhuān)門(mén)設(shè)計(jì)了特殊的強(qiáng)化學(xué)習(xí)框架,作為基座來(lái)支撐整個(gè)訓(xùn)練系統(tǒng)。
k1.5模型最高支持128k的上下文本長(zhǎng)度,如果模型每次都要完成一次完整的思維鏈生成和推理過(guò)程,對(duì)于計(jì)算資源、內(nèi)存存儲(chǔ)和訓(xùn)練穩(wěn)定性都會(huì)造成影響。因此,Kimi引進(jìn)了“Partial Rollouts”技術(shù),生成的鏈路切分為多個(gè)步驟,而并非畢功與一役。
底層AI infra的搭建思路,體現(xiàn)了月之暗面在長(zhǎng)文本上的積累,如何實(shí)現(xiàn)資源最大化和高效是其一直重點(diǎn)解決的問(wèn)題,現(xiàn)在這種思路又將延續(xù)到思維鏈生成和推理上。
從Kimi和DeepSeek身上,我們或許能看出未來(lái)模型訓(xùn)練的幾種趨勢(shì):對(duì)于強(qiáng)化學(xué)習(xí)訓(xùn)練的投入和資源傾斜將加大;OpenAI o1成為了下一階段大模型入場(chǎng)的新門(mén)檻,技術(shù)、資源跟不上意味著掉隊(duì);上下長(zhǎng)文本技術(shù)尤為重要,這將作為能夠生成和推理長(zhǎng)思維鏈的基礎(chǔ);Scaling law還沒(méi)有完全失效,在一些局部,比如長(zhǎng)上下文本依然存在并且具有潛力。
中國(guó)“雙子星”打開(kāi)了OpenAI的黑箱。此前,OpenAI定義了大模型訓(xùn)練的四個(gè)階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)。現(xiàn)在,這個(gè)范式被打破了,Kimi 和DeepSeek都證明了可以跳過(guò)和簡(jiǎn)化某些環(huán)節(jié)來(lái)提升模型的訓(xùn)練效率和性能。
Kimi和DeepSeek效應(yīng)是雙重的。走出國(guó)門(mén),向海外AI圈特別是硅谷證明,持續(xù)的專(zhuān)注于聚焦就能出奇跡,中國(guó)依然具備競(jìng)爭(zhēng)科技第一梯隊(duì)的能力。
OpenAI應(yīng)該反思,在投入如此資源和擁有高人才密度的情況下,為什么被來(lái)自中國(guó)的企業(yè)在多個(gè)方面趕超,這或許將給世界的競(jìng)爭(zhēng)格局帶來(lái)微妙的變化。人們不禁要問(wèn),OpenAI的先發(fā)優(yōu)勢(shì)還能持續(xù)多久?不僅同一個(gè)國(guó)家有死對(duì)頭Anthropic,從其手中拿走了To B的單子,現(xiàn)在還要對(duì)來(lái)自中國(guó)的AI企業(yè)保持警惕。
在國(guó)內(nèi),新的格局似乎已經(jīng)在變動(dòng)之中。DeepSeek憑借開(kāi)源和超越OpenAI性能的模型受到了前所未有的關(guān)注,甚至已經(jīng)開(kāi)始有人將其納入“AI 六小虎”的行列之中。
相較于以前,現(xiàn)階段的Kimi更加明確了從k0到kn的技術(shù)路線,盡管其表示“會(huì)聚焦在Kimi一個(gè)產(chǎn)品上”,但Kimi所承載的已經(jīng)遠(yuǎn)遠(yuǎn)超越了一個(gè)普通的AI應(yīng)用。
Kimi k1.5讓月之暗面拿下了下一階段的入場(chǎng)券,這也讓其在未來(lái)競(jìng)爭(zhēng)中掌握更多的主動(dòng)權(quán)。保持一定的領(lǐng)先之后,2025年新的目標(biāo)是如何活得更好。
新一輪洗牌悄悄開(kāi)始,誰(shuí)會(huì)先掉隊(duì),誰(shuí)又能先突出重圍?
本文為作者獨(dú)立觀點(diǎn),不代表鳥(niǎo)哥筆記立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
《鳥(niǎo)哥筆記版權(quán)及免責(zé)申明》 如對(duì)文章、圖片、字體等版權(quán)有疑問(wèn),請(qǐng)點(diǎn)擊 反饋舉報(bào)
我們致力于提供一個(gè)高質(zhì)量?jī)?nèi)容的交流平臺(tái)。為落實(shí)國(guó)家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評(píng)論自律管理,為了保護(hù)用戶創(chuàng)造的內(nèi)容、維護(hù)開(kāi)放、真實(shí)、專(zhuān)業(yè)的平臺(tái)氛圍,我們團(tuán)隊(duì)將依據(jù)本公約中的條款對(duì)注冊(cè)用戶和發(fā)布在本平臺(tái)的內(nèi)容進(jìn)行管理。平臺(tái)鼓勵(lì)用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時(shí)也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國(guó)未成年人保護(hù)法》等法律法規(guī),對(duì)以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對(duì)憲法所確定的基本原則;
2)危害國(guó)家安全,泄露國(guó)家秘密,顛覆國(guó)家政權(quán),破壞國(guó)家統(tǒng)一,損害國(guó)家榮譽(yù)和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽(yù)、榮譽(yù);
4)宣揚(yáng)恐怖主義、極端主義或者煽動(dòng)實(shí)施恐怖活動(dòng)、極端主義活動(dòng);
5)煽動(dòng)民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
6)破壞國(guó)家宗教政策,宣揚(yáng)邪教和封建迷信;
7)散布謠言,擾亂社會(huì)秩序,破壞社會(huì)穩(wěn)定;
8)宣揚(yáng)淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動(dòng)非法集會(huì)、結(jié)社、游行、示威、聚眾擾亂社會(huì)秩序;
10)侮辱或者誹謗他人,侵害他人名譽(yù)、隱私和其他合法權(quán)益;
11)通過(guò)網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對(duì)未成年人實(shí)施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動(dòng)成果;
2)誹謗:捏造、散布虛假事實(shí),損害他人名譽(yù);
3)嘲諷:以比喻、夸張、侮辱性的手法對(duì)他人或其行為進(jìn)行揭露或描述,以此來(lái)激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對(duì)方對(duì)自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對(duì)方難堪;
6)謾罵:以不文明的語(yǔ)言對(duì)他人進(jìn)行負(fù)面評(píng)價(jià);
7)歧視:煽動(dòng)人群歧視、地域歧視等,針對(duì)他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類(lèi)的攻擊;
8)威脅:許諾以不良的后果來(lái)迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗(yàn)、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣(mài)產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個(gè)帳號(hào)多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個(gè)廣告帳號(hào)互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點(diǎn)擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購(gòu)買(mǎi)或出售帳號(hào)之間虛假地互動(dòng),發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營(yíng)銷(xiāo)內(nèi)容,如通過(guò)偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營(yíng)銷(xiāo);
8)使用特殊符號(hào)、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗(yàn)的細(xì)節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚(yáng)低俗、庸俗、媚俗內(nèi)容。
5. 不實(shí)信息,主要表現(xiàn)為:
1)可能存在事實(shí)性錯(cuò)誤或者造謠等內(nèi)容;
2)存在事實(shí)夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過(guò)頭像、用戶名等個(gè)人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個(gè)人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測(cè)字、占卜、解夢(mèng)、化解厄運(yùn)、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對(duì)具體風(fēng)水等問(wèn)題進(jìn)行求助或咨詢;
4)問(wèn)自己或他人的八字、六爻、星盤(pán)、手相、面相、五行缺失,包括通過(guò)占卜方法問(wèn)婚姻、前程、運(yùn)勢(shì),東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來(lái)誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實(shí)或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費(fèi)、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動(dòng)「飯圈」粉絲攀比炫富、奢靡享樂(lè)等行為
4)以號(hào)召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號(hào)」形式刷量控評(píng)等行為
5)通過(guò)「蹭熱點(diǎn)」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會(huì)公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評(píng)述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭(zhēng)行為的;
4)法律、行政法規(guī)禁止,或可能對(duì)網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過(guò)主動(dòng)發(fā)現(xiàn)和接受用戶舉報(bào)兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺(tái)氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個(gè)用戶發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對(duì)帳號(hào)進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號(hào)的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過(guò)作弊手段注冊(cè)、使用帳號(hào),或者濫用多個(gè)帳號(hào)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將加重處罰。
三、申訴
隨著平臺(tái)管理經(jīng)驗(yàn)的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對(duì)本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過(guò)「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)