很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
1. 幾個問題
AIGC 近期成了熱點,不少小玩法開始出現(xiàn)在小紅書,比較流行的是頭像二次元化,效果較好。高端局一般會用 Stable Diffusion,MidJourney 這樣的工具來生成 AI 畫作。
AIGC 是 Artificial Inteligence Generated Content (人工智能生成內(nèi)容)的簡稱,實際當然不止是畫畫。包括聲音、圖像、視頻,是都可以用類似的技術(shù)生成的。
(可以在這里看到一些視頻的示例:https://imagen.research.google/video/)
作為破圈的先鋒,AIGC 的畫作還是更令人震撼:
(Dall-E2 的官網(wǎng):https://openai.com/dall-e-2/)
(少楠用 Midjourney 繪制的圖像,輸入的描述是:Ultra realistic tree with green beech leaves, stunning forests in the background, sunrise light, art by Greg Rutkowski + Alphonse Mucha + Rien Portvliet, 8k --ar 16:9 --testp)
于是,有關(guān) AIGC ,引來了幾個有意思的問題的討論:
- AIGC 能否替代真正的創(chuàng)作者?
- AIGC 是否意味著人工智能的質(zhì)變?
- AIGC 能解決哪些問題?不能解決哪些問題?
我自己有一些觀察,跟大家分享下。
2. 機器學習原理
我大學讀研時的老本行就是機器學習,做過一些項目,略有了解,試著用白話簡單說下機器學習的邏輯。
我們可以設想一下,科學家觀測一個現(xiàn)象后,總結(jié)出定律的方法。
古代科學家認為天圓地方,這是最直觀的推測,因為太陽月亮星星的運轉(zhuǎn)用這個解釋是合理的;后來觀測到了地球是球型,那地心說就是直觀的邏輯;再后來觀測到了更多天文現(xiàn)象,就知道太陽才是太陽系中心,地球是公轉(zhuǎn)中做自轉(zhuǎn)的。
這個演進是符合一個邏輯的:依據(jù)當前的信息,解釋一個現(xiàn)象,用最簡單的方式。新的現(xiàn)象出現(xiàn),解釋不了了,再加入別的因子讓它變復雜,再解釋新的現(xiàn)象。
機器學習正是如此。
我們要識別一個人會不會買口紅,最直觀的方法就是判斷 ta 的性別,是女性,就有更大的概率會買口紅。人的屬性千變?nèi)f化,但性別就是我們判斷「買口紅」這個命題的「特征提取」。我們找到這個規(guī)律以后,就能用性別作為特征,建立模型。
輸入用戶資料 - 提取性別并判斷 - 輸出
現(xiàn)實情況更加復雜,可能男性也會買,往往是在逢年過節(jié)的時候送禮用。那么性別(男)+購買日期(臨近節(jié)日),也能成為重要的特征,我們就要引入新的特征向量,即購買日期。
輸入用戶資料 - 提取性別&購買日期并判斷 - 輸出
根據(jù)新的用戶資料和購買行為,我們持續(xù)會發(fā)現(xiàn)新的特征有利于我們的判斷。于是就引入更多新的特征,比如除了公共節(jié)假日,可能還要看用戶女朋友/家人的生日;比如女性里面,購買口紅概率更大的,可能會出現(xiàn)在某個年齡段,等等。這樣「特征」就越來越多。
輸入用戶資料 - 提取性別&購買日期&年齡&....... 并判斷 - 輸出
我們輸出的結(jié)論肯定就越來越準確。這就是機器學習運作的基本邏輯。
即然要提取這么多特征做判斷,就要看不同的特征影響輸出的程度有多大。性別和年齡可能權(quán)重大一些,其它的可能權(quán)重小一些。怎么判斷呢?肯定不能人為,那就要訓練一個模型。
機器學習的模型就是投入我們認為篩選出來的特征維度(性別、年齡等)、大量的正向和負向的案例(訓練集),讓機器學習出一個極度復雜的公式,公式來解釋每個特征影響結(jié)果的程度。
這里面訓練集的規(guī)模就成了重點,案例越多肯定越準確。在過去的時代,很多訓練集是需要人工標注的,標注員會跟富士康的工人一樣算是勞動密集型的工作,去判斷這個案例是正的還是負的。比如文字識別,這個字是哪個字?圖像分類識別,這是貓還是狗?一段翻譯,是否翻譯準確?
這也是為何互聯(lián)網(wǎng)公司團隊往往擁有最好的「算法」。當我們提到算法好的時候,大部分情況下其實講的是這個公司的機器學習模型準確度高,這個準確度來源于公司收集的大量用戶行為數(shù)據(jù),用戶是在用準確的行為免費幫企業(yè)做標注,比如購買消費行為、瀏覽點擊行為,等等。
此為機器學習的原理。當然這是白話說的,具體怎么提取特征、怎么判斷權(quán)重和因子間相互的影響、怎么分類、怎么建模等等,其實是很復雜的技術(shù)操作。
3. 深度學習與 AIGC 原理
機器學習發(fā)展到 21 世紀,計算機的性能大幅提升,開始演化出深度學習(Deep Learning)。
深度學習之所以是「深度的」,就因為除了能學習模型怎么做精確,還能學習怎么建模本身。
前面講的案例里,我們要識別一個人會不會買口紅,還是從「生活觀察」出發(fā),去猜想,誒,這個特征是不是有關(guān)系?那個特征是不是有關(guān)系?
深度學習的邏輯不需要判斷,就是一股腦把所有的信息,轉(zhuǎn)化成數(shù)據(jù)投入進深度學習的模型里去,它會自己去判斷哪個有用、哪個沒用。
這樣的好處是很顯然的:能覆蓋更多的特征、能采集更多的數(shù)據(jù)。并且由于深度學習的算法是可以疊加很多層次的,就能解決更復雜的場景、更復雜的數(shù)據(jù)。
所以深度學習的效果會明顯變好。
(一個 卷積神經(jīng)網(wǎng)絡,即 convolutional neural network 、CNN 的示意圖,來源 CSDN)
像我們舉的例子,還是單一維度的判斷,會不會買口紅。而深度學習就可以到圖像領(lǐng)域、視頻領(lǐng)域了,可以處理大量像素的色值、位置等等問題。
但深度學習也會存在一個問題,就是既然繞過了人為提取特征、人為判斷規(guī)律,就會讓深度學習的模型,幾乎不存在可解釋性。就相當于這是一個黑盒,我們知道它每次能給出準確的答案,卻不知道它為什么給;甚至我們拆開盒子,看到里面大量的函數(shù)、公式和邏輯,也會覺得莫名其妙——有可能要判斷會不會買口紅,有個因子是這人右腳的腳趾頭是不是有胎記。
在深度學習領(lǐng)域中,2014 年橫空出世了一款全新的算法,生成對抗網(wǎng)絡(GAN, Generative adversarial network)。它在后來的 AIGC 領(lǐng)域所向披靡,大受歡迎,效果極佳。而它的原理甚至很有文學性。
GAN 解決這個問題的方式是,放一個老師,跟學生博弈。模型就像一個學生,給出考題的答案,老師來判斷正誤,直到滿意;老師滿意以后,學生對老師不滿意了,覺得這些題太簡單,老師你得出點更難的題目,我還得繼續(xù)提升成績呢,于是老師也要進步,給新的考題,直到學生幾乎答不出來;接下來學生繼續(xù)努力學習、答題,到了閾值后,老師繼續(xù)學習、出題......循環(huán)往復,就像 GAN 的名字里所述,對抗的模式來共同提升。
這個算法的邏輯就是:競爭才能使人成長。
(在原始圖像基礎上,用 GAN 生成的一些實例。來源:https://gitcode.net/mirrors/yenchenlin/pix2pix-tensorflow)
它的具體實現(xiàn)當然又更加復雜了。我們只需要知道,它在圖像方面,有最出色的表現(xiàn),很適合基于原始內(nèi)容(噪音)、補充和豐富細節(jié)。
GAN 是 AIGC 最常用的機器學習算法之一,另外一個常用的是 diffusion model,在某些方面很像,比如也是適合基于原始內(nèi)容(噪音)來生成內(nèi)容。文章一開頭的那幾張圖,就是基于 diffusion model 原理的。
所以總結(jié)下就是,機器學習的發(fā)展過程中,大大簡化了人工參與的環(huán)節(jié)和步驟、豐富了輸入和輸出的維度及準確性,繼而從「會不會買口紅」這樣簡單的問題,進化到了可以生成一幅寵物的照片、一段以假亂真的視頻、一條模仿某人的聲音。(推薦英劇《真相捕捉》,講的是圍繞 Deepfake 這類技術(shù)的罪案故事。)
這個過程中,很多公式和模型的復雜性已經(jīng)到了難以解釋,甚至無法去遍歷和閱讀的程度。聊到這,可能諸位也能有一種感受:這些年機器學習的進展飛快,不過仍然都圍繞在最初機器學習的原理上——通過海量的數(shù)據(jù)訓練機器,讓機器能更好地預測概率。
4. 統(tǒng)計、概率、訓練與經(jīng)驗主義
我們換個視角,用更形象的表述,可能有助于理解機器學習是怎么實現(xiàn)我們看到的人工智能的。
自然語言處理/機器翻譯領(lǐng)域,我們目光所及的翻譯工具,用的方式可以這么理解,比如是中文翻譯到英文,機器做的事情是:
當給出的第一個中文詞出現(xiàn)的時候,翻譯是哪個英文詞的概率更大?
當給出的第二個中文詞,出現(xiàn)在第一個中文詞后面的時候,翻譯是哪個英文詞的概率更大?
......
類比到 AIGC 領(lǐng)域,比如我們要畫一個小狗,機器做的事情是:
當給出的關(guān)鍵詞是小狗的時候,第一個像素點在哪個位置、哪個顏色的概率更大?
......
當畫完臉部后,它有沒有耳朵?
有的話,有幾只耳朵的概率更大?
當應該要有左耳的時候,它的第一個像素點出現(xiàn)在哪個位置、是哪個顏色的概率更大?
......
機器在過程中,雖然用的是模型,實際上模型都是基于統(tǒng)計概率的模型。機器更像是在瘋狂回憶它記住的所有過往的畫作里,所有小狗的形象,力圖讓結(jié)果更接近「大概率」。
這也是為什么在各個 AI 繪圖的工具里,關(guān)鍵詞給的越精確,畫作就會越成立。因為精確意味著縮小了范圍,同樣類型畫作的風格、樣貌是更接近的,畫作的模仿效果就會更好。
這里訓練出來的統(tǒng)計概率模型的過程,恰似古代的雜技工作者,讓寵物做計算題的方式。當出現(xiàn)哪幾個數(shù)字的時候,應該選擇怎樣的答案,寵物是靠背的,這個是統(tǒng)計概率的問題,不是數(shù)學計算的問題。訓練的過程給的獎懲,跟機器學習是一樣的(機器學習里也有獎懲概念)。
這也是機器學習里的神經(jīng)網(wǎng)絡,跟人的神經(jīng)網(wǎng)絡目前看差異最大的地方。我們很好地運用了計算機夸張的性能和存儲能力,讓它擁有巨型的統(tǒng)計概率模型,來存儲海量數(shù)據(jù)訓練集得到的記憶結(jié)果,但說到底,它有的還是圍繞統(tǒng)計和概率的。
這也意味著,它是完全經(jīng)驗主義的。AlphaGo 可以參考天下古往今來所有的棋譜,但下不出沒見過的棋譜;Novel AI 可以參考所有的小說,但不會用沒見過的詞組和表述。
只不過在 AIGC 的領(lǐng)域,內(nèi)容的復雜性,在觀感上,就弱化了我們對統(tǒng)計概率邏輯的認識,以為這個就是機器天馬行空做出來的。其實機器還是在采納大量過往畫作基礎上做「創(chuàng)作」的,但的確不同的拼湊和處理,會出現(xiàn)意想不到的效果,這是因為畫作本身就是對現(xiàn)實世界的抽象,若離若即效果最佳。
如果是在書寫長篇小說、拍攝一部邏輯完整的電影方面,就要吃力太多了。
5. 幾個問題的解答
我們再回到最初的問題,試著解答一下。
- AIGC 能解決哪些問題?不能解決哪些問題?
如前文所說,AIGC 可以解決的,是從歷史里做總結(jié)和學習,憑借統(tǒng)計概率,解決已被解決過的問題。
不能解決的,則是創(chuàng)造新的事物、總結(jié)規(guī)律、解釋世界的問題。
- AIGC 能否替代真正的創(chuàng)作者?
一定程度上會。
哪怕只是經(jīng)驗主義、原理與 AlphaGo 并無本質(zhì)區(qū)別,AIGC 也有很大的價值,那就是在某些足以亂真的領(lǐng)域,替代掉很多人工的成本。
比如 AIGC 的畫作,如今就能替代不少插畫。很多自媒體的朋友已經(jīng)在用它們替代無版權(quán)圖片作為封面了。
老話說,讀書破萬卷,下筆如有神。AIGC 的文本工具,其實就是替我們讀了萬卷書的助手。比如我們要寫作,它幫我們生成一段人物小傳作為參考、幫我們提供一些場景描述作為素材,就大有幫助。
只不過,對于很多真正需要「創(chuàng)造」的場景,AIGC 就愛莫能助了。例如,機器學習的訓練集若是在三年前的,肯定就無法寫出疫情故事、也難以想象疫情中我們常人都很難預知的場景。
幾年前就出現(xiàn)過 AIGC 替代作者的說法,不過如今再看,應用比較多的還是在短新聞方面。它能很好地基于概率給出一篇「不錯」的新聞通稿,但這也是過往短新聞格式一致、風格類似,較好模仿。觀點、態(tài)度、延伸的想法,自然是很難用統(tǒng)計概率去捉摸的。
- AIGC 是否意味著人工智能的質(zhì)變?
沒有。
AIGC 的邏輯,與半個世紀前統(tǒng)計機器學習的根本邏輯并無二致,還是基于統(tǒng)計概率的,基于訓練集去猜測的。哪怕 Siri 里偶爾出現(xiàn)精妙的回答,那也是曾經(jīng)有對話真正發(fā)生過,Siri 從概率出發(fā)模仿的而已。
哪怕 AI 繪制的最拍案叫絕的畫作,也是基于人類歷史所有畫作的基礎創(chuàng)作的,還是人類作品的雜交。哪怕藝術(shù)性很高,也不代表 AI 有了「智慧」。
人類是可以歸納、演繹、總結(jié)背后邏輯的,這點機器依然做不到。甚至隨著機器學習的黑盒越來越黑、模型越來越難以解釋,讓機器在更擅長做統(tǒng)計和記憶的路上一去不返,放棄了做解釋、研究規(guī)律。
不過說到這里,也可以反問一句:是否通過統(tǒng)計概率就真的無法產(chǎn)生智能?這個目前看很難,但未必一定是假命題。人類自己的神經(jīng)網(wǎng)絡都還是朝陽研究學科,這就得留給時間去解答了。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡信息。
一、根據(jù)《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)