很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經錄用會有專人和您聯(lián)系
咨詢如何成為春羽作者請聯(lián)系:鳥哥筆記小羽毛(ngbjxym)
文 / 一燈
過年這陣子最火熱的話題,恐怕要數(shù)《哪吒2》和DeepSeek。
一個是中國古代神話傳說人物,另一個是AI領域的后起之秀。本來八竿子打不著的兩家,卻在這個春節(jié)意外地“相映成趣”。
不少人這陣子可能一直有在關注DeepSeek的進展,也包括那83個小時的保衛(wèi)戰(zhàn)。當他們坐在電影院,看到十二金仙對龍族的爭議,看到“捕妖隊”抓無辜妖眾去煉丹,看到龍族退無可退后的反擊,心中或許會十分感慨:果然藝術來源于生活,而生活更加殘酷且沒有道理。
所以,盡管已經有不少媒體報道過了DeepSeek,但《節(jié)點財經》在這里還是想再講一講自己所看到的DeepSeek,以及該公司模型以外的事。
這陣子有關DeepSeek公司和旗下AI大模型的介紹已有很多,因此這里我們不再贅述其成績,就簡單聊一聊它對行業(yè)的一些啟示。
首先,可以“繞過”算力,用算法彎道超車。
以往,大家普遍認為算力是AI的核心,發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到,OpenAI興起的時候,不僅英偉達(NVIDIA)因此受益,美國也通過禁售英偉達GPU來遏制中國AI發(fā)展。
而就在大家燒錢堆算力的時候,DeepSeek選擇燒腦改算法。
MLA(多頭潛在注意力機制)技術大幅降低了長文本推理成本,MoE(混合專家模型)創(chuàng)新解決了路由崩潰難題,多令牌預測(MPT)顯著提升推理速度,這三大創(chuàng)新分別針對 Transformer 架構中的不同瓶頸,成為DeepSeek能夠以小博大的關鍵所在。
這里舉個簡單的例子,傳統(tǒng)的大模型就好比一家擁有眾多服務員和廚師的餐廳,每個服務員從頭到尾獨立負責自己客人的記菜單、傳菜、結賬、清潔等工作。當復雜的菜品出現(xiàn)時,全部廚師都圍上來討論誰能做、怎么做。
這就可能會出現(xiàn)多個服務員重復記錄相同訂單、傳菜時堵在廚房門口、廚師資源浪費等重復勞動和效率低下的問題。
而在DeepSeek的模型設計中,MLA技術讓所有服務員共享一個智能平板,能實時同步訂單、桌號、菜品狀態(tài)(省去重復記錄);上菜時,只有負責上菜的服務員工作,其他人在需要時才會介入(按需分工)。這樣既能更快地完成任務,又能保證每部分任務的完成質量。
同時,多令牌預測能讓服務員在顧客點主菜后,立馬建議甜點和飲料,提前準備服務,而不是等顧客一個個點完,從而使服務更加流暢、體驗更好。
MoE模型則清楚每個廚師都擅長的菜系,在面對復雜的菜品時,模型能夠根據(jù)菜品的特點,智能地將其分配給最合適的廚師處理,從而提高處理效率,減少不必要的資源浪費。
這些創(chuàng)新技術與架構的運用,讓DeepSeek-R1的預訓練在2048塊英偉達H800 GPU(性能受限版本)集群上就能完成,費用只有557.6萬美元。而OpenAI等企業(yè)訓練模型,則需要數(shù)千乃至上萬塊Nvidia A100、H100等頂級顯卡,動輒數(shù)億美元的訓練成本。
可見,當AI行業(yè)普遍沉迷于“算力軍備競賽”時,DeepSeek的“出圈”證明:與其瘋狂堆服務器,不如優(yōu)化算法結構,針對技術瓶頸實施“靶向治療”,才能讓大模型甩掉"耗電怪獸"的帽子,開啟低成本高性能的新紀元。
其次,可以“繞過”通用,從垂直場景切入。
根據(jù)DeepSeek公布的跑分數(shù)據(jù)顯示,DeepSeek-R1在培訓后階段大規(guī)模使用強化學習技術,在數(shù)學、代碼、自然語言推理和其他任務上,其性能可與OpenAI o1正式版本媲美,而價格僅為o1的3%。
但這并不意味著DeepSeek-R1超越了OpenAI o1,畢竟OpenAI優(yōu)先追求的是“通用智能”,投入大量資金人力,想要的是全能通才的效果。國內企業(yè)開發(fā)AI大模型也大都沿用這一思路,希望自家大模型沒有什么明顯的能力短板,快速達到可商用水平。
而DeepSeek選擇從垂直場景切入,先追求在部分領域(如數(shù)學、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領域的能力。這是一種能夠快速成長和建立差異化優(yōu)勢的發(fā)展策略。
值得一提的是,文心一言作為扎根于中國市場的大語言模型,根據(jù)百度官方的介紹,在多項中文評測中,文心一言4.0的表現(xiàn)已經超越了目前最強的GPT-4模型。這意味著在理解和生成中文內容方面,文心一言也已成為了全球最頂尖的AI模型之一。
因此,《節(jié)點財經》認為,中國AI企業(yè)尤其是創(chuàng)業(yè)公司,不必都扎堆死磕“全能大模型”,可選擇垂直場景靶向爆破:這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn),又能通過構建起數(shù)據(jù)護城河,進而在細分領域闖出一片天。
最后是,可以“繞過”商業(yè),堅持對技術求索。
這次DeepSeek之所以能引起這么大的轟動,除了模型本身表現(xiàn)優(yōu)異、開發(fā)和訓練成本大幅降低,還有較為重要的一點是,DeepSeek主張免費開源。
要知道,目前比較知名的其他大模型,無論是國內百度的文心一言、華為的盤古大模型,還是海外的OpenAI、Llama等產品,都基于商業(yè)化和競爭考量,要么一開始選擇了閉源路線,要么逐漸走向閉源,要么雖宣稱開源,但卻設立了不少限制,并未做到真正意義上的開源。
相比之下,DeepSeek不僅完全開放代碼,還放出了詳細的技術報告;不僅開源了自己最大的 671B R1 模型,還幫大家蒸餾量化好了 1.5B~70B 多個尺寸的模型;不僅提供所有的訓練數(shù)據(jù)、訓練腳本、論文等,還選擇了最寬松的 MIT License 協(xié)議,允許任何人免費使用、修改、分發(fā),包括用于商業(yè)用途。
DeepSeek創(chuàng)始人梁文鋒此前談及對于開源的構想是,DeepSeek未來可以只負責基礎模型和前沿的創(chuàng)新,其他公司在 DeepSeek的基礎上構建To B、To C的業(yè)務。“這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態(tài)發(fā)展。”
在《節(jié)點財經》看來,或許是因為背靠千億量化基金,也或許就是純粹的理想主義,至少從目前來看,DeepSeek團隊重技術突破多過商業(yè)變現(xiàn),要行業(yè)繁榮不要壟斷優(yōu)勢。
正如英偉達高級研究科學家Jim Fan評論的那樣:“我們生活在這樣一個時代,一家非美國公司正在讓OpenAI的初衷得以延續(xù),即做真正開放、為所有人賦能的前沿研究。”
1月28日,多位美國官員指出,DeepSeek是“偷竊”,正對其影響開展國家安全調查。隨后,部分國家和組織也開始“重點關注”DeepSeek:
● 愛爾蘭數(shù)據(jù)保護委員會向DeepSeek發(fā)出信函,要求其提供有關如何處理愛爾蘭公民數(shù)據(jù)的詳細信息;
● 意大利數(shù)據(jù)保護機構也采取了類似措施,他們認為DeepSeek對意大利數(shù)百萬人數(shù)據(jù)造成風險,DeepSeek需要在20天時間里作出回應;
● 歐洲消費者組織還認為,DeepSeek在保護和限制未成年人方面的做法還不夠健全,從年齡驗證到未成年人數(shù)據(jù)處理都沒有明確的強制執(zhí)行方案;
......
而據(jù)彭博社報道,近期OpenAI與微軟展開了一項聯(lián)合調查,針對DeepSeek去年使用OpenAI API接口的賬戶進行審查,并以涉嫌違反服務條款的模型蒸餾為由,取消了他們的訪問權限。
在國內輿論場,也有一些所謂的“極客”開始對DeepSeek的技術細節(jié)發(fā)起攻擊,聲稱DeepSeek涉嫌“抄襲”或“技術不透明”,并試圖通過論文和數(shù)據(jù)來證明這一點。
當然,以美國為首的西方國家在意的不止DeepSeek。
華爾街日報日前曾發(fā)布報道《It’s Not Just DeepSeek. A Guide to the Chinese AI Companies You Need to Know》,提醒美國人要注意哪些中國大模型公司,并著重指出,百度在中國最早推出面向公眾的生成式AI文心一言,如今已經擁有4.3億用戶。
如果說這些明面上的指控是真是假還有待查證,不能認為是西方國家在刻意抹黑、打壓、搞認知戰(zhàn),但在1月25日~29日期間,DeepSeek服務器集群莫名受到每秒超過2.3億次DDos惡意請求,攻擊總量相當于整個歐洲三天的網絡流量總和。
據(jù)了解,為了保護DeepSeek,360安全響應中心第一時間拉響警報,鎖定攻擊特征碼;華為云啟動流量清洗系統(tǒng),為服務器搭建防護盾;中國紅客聯(lián)盟不到12小時就確定了攻擊源頭全部來自美國,并予以反擊。
與此同時,網易雷火的游戲服務器陣列緊急轉換為流量緩沖池;大華股份用AI識別0.00017%的真實用戶,菜鳥網絡貢獻物流算法優(yōu)化帶寬,釘釘開通緊急通訊確保指揮暢通......阿里云、??低暋⑻┥皆?、新華三等企業(yè)也都紛紛加入DeepSeek保衛(wèi)戰(zhàn),貢獻自己的力量。
1月29日晚8點,經過83個小時的鏖戰(zhàn),中國互聯(lián)網企業(yè)成功將攻擊流量壓制97.2%,捍衛(wèi)住了DeepSeek和中國AI產業(yè)尊嚴。
然而,這場中美AI角力下的網絡安全保衛(wèi)戰(zhàn)只是一個開始。據(jù)奇安信XLab實驗室監(jiān)測發(fā)現(xiàn),1月30日凌晨,針對DeepSeek(深度求索)線上服務的攻擊烈度突然升級,其攻擊指令較1月28日暴增上百倍。
并且,至少有2個Mirai變種僵尸網絡參與攻擊,分別為HailBot和RapperBot。此次攻擊共涉及16個C2服務器的118個C2端口,分為2個波次,分別為凌晨1點和凌晨2點。
說好的公平競爭、創(chuàng)新取勝,結果是明槍暗箭、防不勝防。
說實話,盡管DeepSeek在模型本身和創(chuàng)新路徑上確有成績,但遠沒有達到超越OpenAI、算法“封神”的地步。畢竟算力才是大模型可持續(xù)發(fā)展的必要條件,也是我們的短板,盡管DeepSeek找到了一些優(yōu)化算力使用的方法,但這并不意味著算力需求變得可有可無。
因此,在《節(jié)點財經》看來,DeepSeek的出現(xiàn),還算不上是技術上的革命性突破,更多的是讓大家開始重新思考如今AI領域的基礎研究角度、商業(yè)層面的既有模式。但當下,DeepSeek卻得到了全球“熱度”,無所不用其極的圍剿,不亞于當年對付華為。
這樣的氛圍中,心虛的是誰?帶節(jié)奏的是誰?想要霸權永固的又是誰?其實不言而喻。
不知是真的巧合,還是過度聯(lián)想,看《哪吒2》總覺得“封神大戰(zhàn)”就像中美角力;無量仙翁抓妖怪煉丹提升神力,代表的是美國收割全球資產、打壓異己;而龍族助哪吒反擊玉虛宮,則像不久前的DeepSeek保衛(wèi)戰(zhàn)。
我與DeepSeek討論了服務器被攻擊事件與《哪吒2》電影內容,并要求其總結
DeepSeek就像是初露鋒芒的哪吒,也是純粹的理想主義者,正試圖以技術突破打破封鎖,用開源生態(tài)重構行業(yè)規(guī)則。
未來,DeepSeek能走多遠、能開源多久尚未可知,但這想要改變AI世界的想法,當下也足以令人興奮。
畢竟,“因為我們都太年輕,不知道天高地厚。”
本文為作者獨立觀點,不代表鳥哥筆記立場,未經允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。
一、根據(jù)《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。
三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)