很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
作者 | 浩然
來源 | 商隱社
OpenAI在2月16日凌晨發(fā)布了文生視頻大模型Sora,在科技圈、媒體和朋友圈引起一連串的震驚和感嘆。
一時間,OpenAI官網(wǎng)公布的由Sora生成的炸裂般視頻在網(wǎng)上廣為流傳。
利用Sora,只需要輸入一段文字提示語,就能得到一段長達60秒的視頻,其中包含精細復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動,幾可亂真。
網(wǎng)友紛紛驚呼AI要讓電影、短視頻、游戲等行業(yè)變天,更有人夸張地驚呼“現(xiàn)實世界不存在了!”。
人類被AI替代似乎又近了一步。
這件事讓我們驚嘆Sora掀起的新一輪技術(shù)變革浪潮,或許不久之后,普通人制作視頻的門檻大大降低,復(fù)雜的拍攝、剪輯等工作都會被略掉,人們的想象力和創(chuàng)造力成為視頻內(nèi)容競爭力的最核心來源。
于是,“一人公司”和極小規(guī)模團隊也有機會完成以往投入巨大人力、成本的電影和視頻內(nèi)容。
技術(shù)浪潮卷起千堆雪,我們有驚嘆和期待,也有被替代和拍碎的擔(dān)憂。
但這幾天我觀察到,站在技術(shù)制高點上的科學(xué)家和很多業(yè)內(nèi)人士討論最多的還是Sora的“世界模型”問題。
Sora生成視頻具有極其逼真的畫面和連貫性,有的不仔細看幾乎看不出是AI生成的,這并不簡單,需要機器懂現(xiàn)實世界的結(jié)構(gòu)、細節(jié)、運動足跡、光影變幻等規(guī)律,不違反人的認知,之前一些大模型生成讓人啼笑皆非的圖片,就是明顯不符合現(xiàn)實世界事物的運行規(guī)律。
所以有人認為Sora懂物理世界,有了“世界模型”的雛形。
AI的世界模型其實可以看作是其心智模型,反映了人工智能系統(tǒng)對自身和外部世界的認知和期望。
拿人類的世界模型來說,“模型”這個詞意味著我們了解的所有知識不是以一堆事實的形式儲存起來的,而是以一種能夠體現(xiàn)世界和它所包含的一切這種結(jié)構(gòu)組織起來的。
我們不會記住關(guān)于每件物品的一系列事實,而是在大腦中構(gòu)建了無數(shù)個模型,像“城門樓子”“胯骨軸子”的模型,就不是一回事,各自是什么形狀、怎么排布以及不同的部分是如何移動和配合工作的。
而為了認出某樣?xùn)|西,我們會知道它的外觀和觸感;為了實現(xiàn)目標,我們會了解世界上的事物在與我們互動時的典型表現(xiàn),比如咬了一口蘋果,會有什么樣的咬痕。
但很多科學(xué)家認為Sora并不懂物理世界,沒有“世界模型”。
比如圖靈獎得主楊立昆(Yann LeCun)就認為,僅根據(jù)prompt生成逼真視頻并不能代表一個模型理解了物理世界,生成視頻的過程與基于世界模型的因果預(yù)測完全不同。
而深度學(xué)習(xí)框架“Keras”的作者、谷歌人工智能研究員弗朗索瓦·肖萊(François Chollet)認為,像Sora這樣的視頻生成模型確實嵌入了「物理模型」,但問題是:這個物理模型是否準確?它能否泛化到新的情況,即那些不僅僅是訓(xùn)練數(shù)據(jù)插值的情形?
Sora生成視頻也確實出現(xiàn)了不少瑕疵,比如“螞蟻巢穴內(nèi)爬行”的POV鏡頭,仔細看只有4條腿;“人在跑步機跑步”的視頻是反方向;“一只大鴨子走過波士頓的街道”中鴨子把人踩沒了。
對此,英偉達高級研究科學(xué)家范麟熙(Jim Fan)表示,我們可以從兩個角度來解釋這個問題:
(1)可能是因為這個模型根本沒有掌握物理知識,它僅僅是在無序地拼湊圖像像素;
(2)模型確實嘗試構(gòu)建了一個內(nèi)部的物理引擎,但這個引擎的表現(xiàn)還不盡人意。
業(yè)內(nèi)人士認為,Sora用了“大力出奇跡”的方法,用大量數(shù)據(jù)、大模型和大量算力,底層采用了游戲、無人駕駛和機器人領(lǐng)域驗證的世界模型,構(gòu)建文生視頻模型,達到模擬世界的能力。
但這就像通過大量“讀圖”學(xué)習(xí)世界運行的規(guī)律,雖然也是合理的,但類比人,僅“睜眼看世界”是學(xué)不會牛頓定律等物理學(xué)可以演繹的世界規(guī)律的。
人類最終不是通過模仿鳥類,而是通過理解空氣動力學(xué)而發(fā)明了飛機。
Sora確實是AI的又一個里程碑時刻,必將大力簡化人的勞動,減少人的“工具人”屬性,可以用來輔助甚至部分擔(dān)綱某些工作,但真正替代人或者說顛覆現(xiàn)實似乎還為時尚早。
所以關(guān)鍵或許還是在“世界模型”,那問題來了,我們自己是怎么構(gòu)建世界模型的?
前段時間讀了一本書——計算機科學(xué)家與神經(jīng)科學(xué)家杰夫·霍金斯寫的《千腦智能》,恰好回答了人類是怎么建立起世界模型的,而他認為AI要真正實現(xiàn)智能,還是得從人的大腦中探尋。
一般來說,復(fù)雜動物的大腦會隨著時間推移不斷進化,在舊部分基礎(chǔ)上進化出新部分,從而能操縱越來越復(fù)雜的行為。
舊腦部分控制著更原始的行為,比如呼吸、饑餓、反射反應(yīng)。而新腦部分也就是“新皮質(zhì)”則創(chuàng)造出更復(fù)雜的行為,大多是有智能成分的,比如視覺、語言、音樂、數(shù)學(xué)、科學(xué)和工程。
我們思考問題時,主要也是新皮質(zhì)在思考。
新皮質(zhì)雖然展開像桌布那么大,厚度大約2.5毫米,但卻有著非常復(fù)雜的皮質(zhì)算法——
它有幾十個區(qū)域,分別負責(zé)視覺、聽覺、觸覺、語言、計劃等,而且各區(qū)域通過神經(jīng)纖維束連接;
1平方毫米的新皮質(zhì)中就有大約10萬個神經(jīng)元,5億個神經(jīng)元之間的連接(稱為突觸),以及幾千米長的軸突和樹突;
新皮質(zhì)中隨處可見精確且極其復(fù)雜的神經(jīng)回路。
新皮質(zhì)中的連接
新皮質(zhì)的基本單位,也可以稱為是“智能單位”是“皮質(zhì)柱”,大約有15萬根皮質(zhì)柱像樂高積木一樣并排堆疊在一起,每個都可以計算任何刺激或感覺(聽覺、嗅覺、觸覺、味覺和視覺)
它能分析和處理輸入信號,無論信號類型如何。因此,每個也可以預(yù)測一個輸出。這意味著每個瞬間有15萬個預(yù)測。大腦皮層以連續(xù)時間步長預(yù)測了數(shù)以千計的現(xiàn)實。
我們目光移動時,皮質(zhì)柱就對它將要看到的東西進行預(yù)測;
要拿起東西,皮質(zhì)柱就會預(yù)測每個手指應(yīng)該有什么感覺;
想做一個動作時,皮質(zhì)柱也會預(yù)測將發(fā)生什么。
新皮質(zhì)能預(yù)測最小的刺激物,如杯子把手的質(zhì)地,而且每根皮質(zhì)柱,都在進行預(yù)測。
但預(yù)測是前提是新皮質(zhì)要知道什么才是準確的。這主要基于過去的經(jīng)驗中進行的學(xué)習(xí)。
新皮質(zhì)學(xué)習(xí)的就是世界模型,這種模型是感官輸入、參考系和位置的組合。
感官輸入就像是我們喂給機器的海量數(shù)據(jù),不過人的輸入是通過眼耳鼻舌身,基于兩種變化:世界在不斷變化,各種風(fēng)吹草動都是新的輸入;人在不斷移動,每次移動輸入到大腦的信息會完全改變。
新皮質(zhì)在事件和感覺之間建立聯(lián)系。此外,它將能學(xué)習(xí)它產(chǎn)生的動作的效果。這是感知運動學(xué)習(xí)。
感知運動之中,皮質(zhì)柱也在一刻不停地預(yù)測,預(yù)測得到驗證時,就意味著大腦中的世界模型是準確的。如果有任何信息輸入與新皮質(zhì)的預(yù)測不一致,那就會提醒新皮質(zhì),它需要更新這部分世界模型。這是在錯誤中分析學(xué)習(xí)。
還有很重要的一點就是,模型一定要有參考系和位置,皮質(zhì)柱如果要預(yù)測下一個輸入,也必須知道感官的移動方式。
而人的大腦也有對參考系和位置的感知,比如我們把手放在一個物體上,就能大體知道手相對于物體的大體位置,往上碰可能就是杯口,然后意識里有杯口的形狀、觸感,往下的一系列結(jié)構(gòu)、細節(jié)也有意識。
假如沒有參考系和位置的感知,完全不知道相對于物體的位置,就很難預(yù)測下一段輸入。
數(shù)學(xué)中我們用x、y和z坐標軸來定義某物在空間中的位置,而地理上用經(jīng)緯度定義地球表面的位置,大腦也會把類似參考系的東西附著在接觸和感知的物體上。
參考系和位置能給大腦帶來三點,一是使大腦了解某物的結(jié)構(gòu),各部分在空間中怎么排列。
二是利用參考系來定義一個物體,大腦便可以一次性操縱整個物體。比如一旦我們了解了一輛汽車,就能想象它從不同的角度看是什么樣子,也能辨別出它在某個維度上是否被拉長了。
三是提供了下一步計劃和移動的方向。比如拿著手機,想按下手機的電源按鈕,大腦知道當(dāng)前位置和電源按鈕的位置,它就可以計算出手指需要怎樣從當(dāng)前位置移到新位置。這種計算需要一個與手機位置相關(guān)的參考系。
大腦自帶的參考系可能與位置細胞和網(wǎng)格細胞有關(guān),位置細胞能讓人知道身在何處,網(wǎng)格細胞就像紙質(zhì)地圖上的行和列,覆蓋在所處環(huán)境上,兩者一起為人所處環(huán)境創(chuàng)建一個完整的模型。
大腦不會保存每個事物的圖像,而是保存興趣點。這就像你的腦海中有世界的多重網(wǎng)格。對于大腦來說,世界是一系列記憶(動態(tài))。需要位置來關(guān)聯(lián)位置和記憶,因為它可以讓你找到自己的路并移動。
大腦中的連接存儲著我們通過經(jīng)驗學(xué)習(xí)的世界模型。每天我們都會經(jīng)歷新的事物,并通過形成新的突觸來為模型添加新的知識片段。
15萬根皮質(zhì)柱每根都是一個完整的系統(tǒng),它們可能會對同一個動作同時做出成千上萬種預(yù)測,每根皮質(zhì)柱的感知都會進行傳播,同時接收來自其他皮質(zhì)柱的預(yù)測,最常見的猜測會勝過最不常見的猜測,直到整個網(wǎng)絡(luò)確定一個答案。有種類似“票選”的機制。
所以依據(jù)人腦的原理,作者認為智能系統(tǒng)可以用四個標準來構(gòu)成:
一是機器需要不斷學(xué)習(xí)。機器需要從錯誤中學(xué)習(xí)以更新其世界模型。
二是機器需要通過運動來學(xué)習(xí)。運動可以表征位置。如果缺少的話,對世界的表示將有偏差。
三是機器需要創(chuàng)建很多模型。新皮質(zhì)的每個皮質(zhì)柱學(xué)習(xí)一個包含數(shù)千個對象的模型,解決綁定問題(一個獨特的感知)的過程是通過投票進行的。一臺機器需要獲取相同的進程。
四是機器需要使用參考系來存儲知識。思考是一種運動。它是通過連接參考系中的點而出現(xiàn)的。如果機器不能使用運動,它就不能思考。
可能在未來幾十年里,我們不用擔(dān)心人類被徹底替代,更不用擔(dān)心科幻小說里那種AI產(chǎn)生意識、奴役人類的噩夢。但我們可能會越來越依賴機器和算法為我們提供便利,甚至做決定。
杰夫·霍金斯在他的書中反復(fù)提及人其實對自己的大腦知之甚少,有很多未解之謎,對人的研究太少,這才是我們更應(yīng)該擔(dān)心的。因為與跟發(fā)展人工智能的熱情相比,我們不太注重研究人的意識,那么計算機有了極先進的人工智能之后,可能只會增強人類的“自然愚蠢”。
當(dāng)先進的算法更了解我們,更會觸發(fā)我們的情緒,并且運用這種神奇的能力找到我們深層次的焦慮、恐懼來推銷,甚至操縱。當(dāng)我們沉浸于Sora為我們打造的視覺盛宴和奇幻世界而不再對現(xiàn)實和自然進行感知運動學(xué)習(xí),不再豐富我們自己的世界模型。這才是最危險的。
事實上,人工智能還沒來操縱我們,就有很多賣課人僅利用人工智能的概念就捕獲了幾十萬人的焦慮,賺得盆滿缽滿。
Sora還沒讓我們沉浸于視覺盛宴和虛擬世界難以自拔,我們就被直播和短視頻撩得難以脫身。
大家都在玩手機,只有人工智能在翻資料,啃數(shù)據(jù)。
參考資料:
1、[美] 杰夫·霍金斯《千腦智能》,浙江教育出版社
2、機器之心《Sora到底懂不懂物理世界?一場頭腦風(fēng)暴正在AI圈大佬間展開》
3、新智元《Sora不懂物理世界,翻車神圖全網(wǎng)爆笑!LeCun馬斯克激辯世界模型》
4、尤瓦爾·赫拉利《今日簡史:人類命運大議題》,中信出版社
5、賽博禪心《中學(xué)生能看懂:Sora 原理解讀》
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)