chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥哥筆記小喬”
patches的來龍去脈
2024-02-22 14:48:22

來源:Agent的潛意識

OpenAI真是一家偉大的公司。他做出GPT不是一個偶然,整個體制機制非常有利于專心做事的人。除牽頭人外,Sora團隊都是入職一年內(nèi)的人,做出如此出色的成果,說明整個機制出現(xiàn)了競相涌現(xiàn)的良性循環(huán)。國內(nèi)的AI實驗室估計一年寫自然基金項目的申請本答辯都費勁。

從今天開始逐步的將sora周邊的論文梳理一遍。圍繞核心組件抽絲剝繭。先把邏輯盤清楚。

Sora技術(shù)報告里面提到自己對圖像構(gòu)建了一個類似于NLP里面tokens的概念的東西,取名為patches。今天來盤這個組件。

事實上,patches在幾年前的論文里就有。我盤了下幾篇經(jīng)典的關(guān)于patches的論文。分別為:

ViT- an image is worth 16X16 words (Google, 2020.10,ICLR2021)見參考文獻[1],

ViViT: A Video Vision Transformer (Google, 2021.03)見參考文獻[2],

MAE -Masked Autoencoders Are Scalable Vision Learners (Meta, 2021.11) 見參考文獻[3]

一、VIT-patches的起源

An Image is worth 16*16 wordstransformers for image recognition as scale

這篇文章是patches的源頭。第一次有人將圖像編碼成一個個序列單元patches。他之所以這樣做,是因為他想用transformer 做圖像分類,CNN可以直接對圖像自動分塊邊卷積邊滑動,而transformer需要輸入的是帶位置編碼position embedding的序列數(shù)據(jù)。因此文章為了解決這個gap,手動對圖像進行了分塊和打位置編碼。發(fā)現(xiàn)效果很好。

接下來由淺入深講一下他的做法:

Sora系列論文精讀1 patches的來龍去脈

整個算法結(jié)構(gòu)圖如上。虛線左邊是整個pipeline。右邊講的是左邊一個模塊 transformer encoder。他的方法非常簡單,就是手工將一張正方形圖片切割為9份,然后將每個小方塊圖片的特征和位置編碼(1-9)作為transformer的輸入,同時,他借用了berts的[class]token的做法,將圖片的分類類別名作為0位置的編碼,一起組成embedded patches 輸入到transformer來做分類。Transformer只是用了編碼器,然后將編碼器得到的特征通過一個MLP層做分類。

二、ViViT: A Video Vision Transformer

這篇文章講的是用transformer來做視頻分類的任務。

編碼視頻的時候,存在很多跟編碼圖片不一樣的地方。一個方面是量大,一個視頻一秒就是30幀圖片。另一個方面是,視頻有時域的概念。就是前一幀和后一幀同一個位置是有信息熵的。代表了前后的變化,同時合成視頻的時候要保證前后變化的連貫性。這些也是視頻的核心信息。

Sora系列論文精讀1 patches的來龍去脈

整個編碼過程如上圖所示。他的整個編碼過程是很簡單的。單圖片的編碼跟VIT里的一樣。就是手動將一張圖片編碼成1-9個小patch。然后,由于是視頻,就將他們按時間戳碼好。由于有時間這個維度,所以碼出來就是一個立方體。

這篇文章核心的貢獻是設(shè)計了4個視頻transformer編碼器。他的設(shè)計思路也非常簡單,主要邏輯是在空域和時域上做一些變化。

1、時空注意力模型。

這個就是最原始的方法。他沒有做任何創(chuàng)新,直接將碼好的立方體輸入進transformer,這樣的話,時域和空域之間每部都會交叉提取特征。計算量會比較大。

2、分步編碼。

Sora系列論文精讀1 patches的來龍去脈

這個模型的方法主要是分了兩步。如上圖,輸入初始編碼好的tokens后,第一步他構(gòu)建了一個空間的transformer Encoder。然后再接一層時域的,Temproal Transformer Encoder。最后接一層MLP的分類器。

3、model3 分步自注意力機制。

Sora系列論文精讀1 patches的來龍去脈

這個模型的變化是操作粒度縮小了。Model2的分步操作在transfomer編碼器那里。Model3的 分布操作在多頭注意力機制層中。他只有一個transformer,但他有兩個自注意力模塊,一個空間自注意力模塊,一個時域自注意力模塊。然后接上層歸一化,再接一個MLP做分類。這樣的話他節(jié)約了不少transformer內(nèi)部的通用層。

4、model4 分步點乘注意力機制層。

Sora系列論文精讀1 patches的來龍去脈

點乘注意力機制:這個我好好解釋一下什么叫做點乘注意力(dot-product)。

假設(shè)A矩陣是上層輸入的特征參數(shù),不是矩陣也可以,你可以是三維、四維向量。我操作的時候只取那個截面矩陣。那么A矩陣這些參數(shù)他的重要性我覺得應該根據(jù)反向傳播的信號來學習,假設(shè)重要性最高為1,有的參數(shù)重要性高就趨近于0.9,有的參數(shù)重要性低就趨近于0。但具體是多少呢,我需要用一個跟A同秩的矩陣W參數(shù)去表示,然后這個W矩陣是根據(jù)反向傳播信號是可以學的。這就是點乘注意力機制。這個點乘注意力矩陣就是W。

Model4的方式就是一邊做空間點乘注意力,一邊做時間點乘注意力,然后再將兩者融合在一起加一個線性層,作為transformer的多頭注意力機制的模塊。

總結(jié)

通過梳理,我們明白了patches的由來。包括圖片和視頻的patches編碼方式。同時,如何通過patches構(gòu)建一個預訓練任務。對比GPT預測一個token,圖像的預訓練可以是預測一個patches,然后視頻的話,可以是預測一組patches。這樣的預訓練任務就可以保證生產(chǎn)出的視頻具有連續(xù)性。

因此,可以大膽推測下,要構(gòu)建一個sora,應該先有一個圖像預訓練的模型做底座。

參考文獻:

1 .Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit and Neil Houlsby. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” ArXiv abs/2010.11929 (2020): n. pag.

2. Arnab, Anurag, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic and Cordelia Schmid. “ViViT: A Video Vision Transformer.” 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (2021): 6816-6826.

3. He, Kaiming, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll'ar and Ross B. Girshick. “Masked Autoencoders Are Scalable Vision Learners.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 15979-15988.

4. Dehghani, Mostafa, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim M. Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey A. Gritsenko, Mario Luvci'c and Neil Houlsby. “Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” ArXiv abs/2307.06304 (2023): n. pag.

Agent的潛意識
分享到朋友圈
收藏
收藏
評分

綜合評分:

我的評分
Xinstall 15天會員特權(quán)
Xinstall是專業(yè)的數(shù)據(jù)分析服務商,幫企業(yè)追蹤渠道安裝來源、裂變拉新統(tǒng)計、廣告流量指導等,廣泛應用于廣告效果統(tǒng)計、APP地推與CPS/CPA歸屬統(tǒng)計等方面。
20羽毛
立即兌換
一書一課30天會員體驗卡
領(lǐng)30天VIP會員,110+門職場大課,250+本精讀好書免費學!助你提升職場力!
20羽毛
立即兌換
順豐同城急送全國通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時送全城的即時快送服務,專業(yè)安全,準時送達!
30羽毛
立即兌換
Agent的潛意識
Agent的潛意識
發(fā)表文章8
一線互聯(lián)網(wǎng)公司算法從業(yè)人員。給大家?guī)硭阉魍扑]、CV、強化學習一線從業(yè)視角!
熱門文章
確認要消耗 羽毛購買
patches的來龍去脈嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡信息。


一、根據(jù)《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對憲法所確定的基本原則;
    2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
    4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
    5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
    6)破壞國家宗教政策,宣揚邪教和封建迷信;
    7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
    8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
    10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
    11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內(nèi)容;


2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動成果;
    2)誹謗:捏造、散布虛假事實,損害他人名譽;
    3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
    6)謾罵:以不文明的語言對他人進行負面評價;
    7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
    8)威脅:許諾以不良的后果來迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
    3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
    4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
    6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
    7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
    8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內(nèi)容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚低俗、庸俗、媚俗內(nèi)容。


5. 不實信息,主要表現(xiàn)為:
    1)可能存在事實性錯誤或者造謠等內(nèi)容;
    2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
    3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
    2)求推薦算命看相大師;
    3)針對具體風水等問題進行求助或咨詢;
    4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;


7. 文章標題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
    2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
    3)使用夸張標題,內(nèi)容與標題嚴重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導未成年人應援集資、高額消費、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
    4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
    5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
    2)不當評述自然災害、重大事故等災難的;
    3)美化、粉飾侵略戰(zhàn)爭行為的;
    4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內(nèi)容。


二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。


三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對了
+5羽毛
下一次認真讀哦
成功推薦給其他人
+ 10羽毛
評論成功且進入審核!審核通過后,您將獲得10羽毛的獎勵。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復制鏈接