很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經錄用會有專人和您聯(lián)系
咨詢如何成為春羽作者請聯(lián)系:鳥哥筆記小羽毛(ngbjxym)
新智元報道
編輯:好困 LRS
【新智元導讀】AAAI 2022剛要落下帷幕就又被掀起來了!大連理工本科生一作論文中稿,本該是件值得慶祝的事,但有網友發(fā)現(xiàn)了論文中的致命漏洞:聲稱的無監(jiān)督方法竟然引入了標簽!這讓無數(shù)被拒的論文情何以堪?導師及二作都出面澄清將會補充實驗,但一作仍未公開發(fā)聲。
頂會AAAI 2022的慘烈程度,各位投稿人一定心有體會,近萬篇投稿只有15%的錄取率,無數(shù)全positive的優(yōu)秀工作被錄取率卡掉。
然而……
「有的時候中了不一定是好事,不中也不一定是壞事。」
最近知乎上的一個問題如平地驚雷,將本已緩緩落幕的AAAI 2022又拉回大眾的視線。
在這篇AAAI 2022中稿論文中介紹了一個無監(jiān)督的行人重識別(Re-identification, Re-ID)技術,效果之好讓相同領域的研究人員直呼絕望,性能直逼有監(jiān)督,以一己之力把無監(jiān)督的Re-ID技術抬到了天花板。
這就是頂會強者嗎?恐怖如斯!
原來如此強的論文才能入選頂會,那自己的論文被拒也是在情理之中。
但抱著學習的態(tài)度繼續(xù)深入看這篇論文的時候,越看越有點不對勁。作者將某些真實標簽數(shù)據(jù)誤認為是先驗知識輸入到模型中了,從原理上來說這已經不是無監(jiān)督了,而是實實在在的有監(jiān)督。
難道,又是學術不端?還是學藝不精?
啥是行人重識別?
首先科普一下這個行人重識別(Re-ID)是什么東西。
在監(jiān)控視頻中,由于相機分辨率和拍攝角度有限,通常無法得到高質量的人臉圖片。當人臉識別失效的情況下,Re-ID就成為了一個非常重要的替代品技術。
行人重識別(Person/Pedestrian Re-Identification)是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。
行人重識別可以被認為是一個圖像檢索的子問題,給定一個監(jiān)控行人圖像,檢索跨設備下的該行人圖像,從而彌補固定的攝像頭的視覺局限。
行人重識別可與行人檢測/行人跟蹤技術相結合,并廣泛應用于智能視頻監(jiān)控、智能安保等領域。
其中,行人重識別一個非常重要的特性就是「跨攝像頭」,所以評價一篇學術論文所取得的性能如何,是要檢索出不同攝像頭下的相同行人圖片。
目前,大多數(shù)的無監(jiān)督行人重識別(Re-ID)技術都采用了迭代聚類機制。其pipeline大致可以分為三個部分:
特征提取,在每一個epoch開始的時候,通過網絡將訓練數(shù)據(jù)集中圖片的特征都提取出來。
聚類,通過傳統(tǒng)的聚類方法如DBScan, KNN通過特征把圖片聚成不同的類別,每個類別給一個標簽,就是用來訓練的偽標簽。一開始的偽標簽是很不準的,在訓練的過程中,隨著網絡的精度越來越高,偽標簽也會越來越接近真實標簽。
圖片特征的存儲和更新,在網絡訓練的過程中,隨著網絡參數(shù)的變化,圖片的特征也需要進行對應的更新。
這篇備受爭議的文章主要研究的就是第二步,作者提出了一個新型的聚類關系建模框架。也就是在聚類之前,使用基于圖相關學習(graph correlation learning, GCL)模塊來探索未標記圖像之間的關系,然后將提煉出的特征用于聚類,從而生成高質量的偽標簽。
https://arxiv.org/abs/2112.01839v1
具體來說就是GCL模塊的輸入是一個樣例圖像和它的相鄰圖像,因為相鄰圖像和樣例比較相似,所以聚類的效果就會有所提升。
關鍵來了,如何判斷兩個圖像是否相似,并讓他們相鄰?
作者表示他們采用了一個眾所周知、常用的方法:把所有的圖像按照「圖像名」排序,然后把相鄰圖像輸入GCL就好了。
可能不懂Re-ID的人此刻已經被蒙混過去了,使用了一個「眾所周知」的排序方法作為先驗知識,加上文章提出的GCL模塊,效果提升了。
你說,是不是GCL的功勞?
可惜,太多科學論文折在了這個「眾所周知」上!
「圖像名」在Re-ID任務上和標簽和標簽無異。論文中使用的dukemtmc和market1501數(shù)據(jù)集中,圖片就是以ID進行命名的。
每個圖像名的寫法都是「PersonID_CameraID_其他信息.jpg」,所以如果按照圖像名排序的結果就是相同人物都已經按照順序排列好了。
圖名=人名,順序排列,相鄰圖像,GCL,聚類。。。等等,你是無監(jiān)督?
并且論文在行文的過程中似乎也刻意避開描述排序過程中利用的信息。
在正文中作者只是表示他們沒有直接使用特征提取器的輸出進行聚類,而是首先對訓練數(shù)據(jù)集中的樣本之間的關系進行建模。
由于為整個數(shù)據(jù)集建立一個graph是非常耗時耗力的,所以作者選擇以批處理的方式構建一系列的small graph。如(a)和(b)所示,由于一個偽標簽通常由多個實例組成,當不同身份的圖像被認為是同一類別時,會降低Re-ID的性能。
在這項工作中,GCL模塊被用來重構mini-batch的樣本表征,如(c)所示。通過這種方式,我們不僅提高了聚類的質量,也減輕了聚類錯誤的影響。
可以看到,描述過程中作者完全沒有提到GCL模塊所依據(jù)的信息(訓練數(shù)據(jù)的文件名,也就是訓練數(shù)據(jù)的標簽),轉而描述了GCL模塊中使用的兩個trick,對于沒有認真看method部分的審稿人來說,可能就會認為文章中的GCL貢獻確實很大。
作者在三個基于圖像的人物識別基準上與SOTA的方法進行了比較,結果顯示,論文提出的方法不僅刷新了無監(jiān)督的SOTA,甚至超過了部分有監(jiān)督學習。
Market1501數(shù)據(jù)集,R1為94.8%,mAP為87.5%。與目前公布的最佳方法ICE相比,在R1精度和mAP上分別取得了1.0%和5.2%的提升。
DukeMTMC-reID數(shù)據(jù)集,與考慮了訓練期間相機變化的方法CAP相比,在R1和mAP方面提高了6.5%和12.7%。
在具有挑戰(zhàn)性的MSMT17數(shù)據(jù)集上,mAP也取得了49.0%的好成績,R1則為74.2%,在mAP和R1上超過CC16.7%和10.9%。
這種高性能表明論文提出的方法可以幫助生成高質量的偽標簽,減少聚類錯誤的影響。
與包括PCB、ABDNet、FlipReID和AAformer等有監(jiān)督的方法相比,作者提出的無監(jiān)督方法仍具有競爭力。
雖然在具有挑戰(zhàn)性的MSMT17上,有一定的性能差距。但是整體而言都取得了比有監(jiān)督PCB更好的性能。
但是,從消融實驗的結果上來看,性能基本全依靠Cluster Refinement(CR),也就是論文提出的GCL。
其中,「SCL 」指選擇性對比學習;「CR」指通過GCL進行聚類重構;「NS」指噪聲抑制。
如果說,CR是論文中最重要的Component,而這里又存在標簽泄漏的問題,那……
二作Chenyang Yu就這些問題作出了公開回應。
首先,關于利用圖像名排序問題。
本文是基于DBSCAN的無監(jiān)督聚類方法,第一步是根據(jù)ResNet-50提取整個訓練集的特征,如DukeMTMC-reID上16522x2048 (樣本個數(shù)x向量維數(shù)) ,然后計算Jaccard距離,得到16522x16522的相似度矩陣。
根據(jù)這個相似度矩陣,DBSCAN算**給每一張圖片分配偽標簽。
在這個過程中,使用圖像名的排序與不排序并不會影響16522x16522相似度矩陣的計算,因為每張圖片都會與整個訓練集的圖片計算相似性,因此生成的偽標簽是一樣的。
另外,我們在做實驗的時候也有不需要排序的改進版本,即二次聚類方法:
第一次聚類就按照基線方法,根據(jù)ResNet-50提取整個訓練集的特征16522x2048 (DukeMTMC-reID上),得到相似度矩陣進行DBSCAN聚類,得到偽標簽。因為DBSCAN聚類會有-1標簽,我們根據(jù)最近鄰的方法,給每個-1標簽分配其最近鄰對應的偽標簽,從而完成整個訓練集的偽標簽分配。一旦完成,那么我們就可以對每個偽標簽的所有圖片,構建圖,進行消息傳遞,得到優(yōu)化后的特征。
第二次聚類,與之前的描述一樣,我們再將這個優(yōu)化后的特征與原始特征級聯(lián),得到16522x4096的特征。接著與基線方法一樣計算16522x16522的相似度矩陣,根據(jù)這個相似度矩陣,DBSCAN算**給每一張圖片分配偽標簽。
并且其中一個審稿人明確「質疑」了圖像名字包含ID信息并不是一類先驗知識。針對審稿人的提問,作者在rebuttal中表示如果只用聚類算法而不用GCL是不會帶來性能提升的。并且為了讓方法更可信,換了一種聚類方法,mAP指標立刻掉了1.2%。
所以審稿人被說服了。
以上為回復節(jié)選
就職于大連理工大學人工智能學院、信息與通信工程學院的副教授張平平,也是這篇論文的通訊作者也做出了實名回應。
論文投稿和rebuttal經過學生已在(https://www.zhihu.com/question/504163027/answer/2261562294)中回復,arXiv論文是投稿版本,并未包含rebuttal補充的修改與實驗;
正在全面的做random shuffle setting的實驗,將在第一時間(不晚于12月18日)做好實驗說明和分析再來更新答復;
完成相關試驗后,在camera-ready截止日期前根據(jù)新的結論和rebuttal階段的討論內容跟AAAI主席溝通是否撤稿。
目前,作者已經把論文從arXiv上刪除。
有人認為這審稿人肯定是嚴重失職了,但凡專業(yè)一點,看見這么高的performance,不仔細看下方法實現(xiàn)?
但從評審結果來看,5個審稿人員中有兩個人都給了negative,所以大概率這個鍋得meta reviewer來背。
還有人表示「作者心真大,不怕舉報,也不在乎學術前程」。
也有網友的觀點認為這就是變相造假!沒有補充實驗的話最好還是撤稿,讓大家體面地結束。
本科生參與科研是對是錯?
文章的第一作者賈某目前還未就此事公開回復,想必此刻他也是面臨巨大的心理壓力,也許最終的實驗結果還能挽救一下這篇瀕臨撤稿的論文。
這篇論文最大的遺憾與驚喜都來自于第一作者,他剛剛進入大三階段的學習,沒有經過多年的學術鍛煉就中了一篇多少人夢寐以求、求而不得的頂會論文。
年少有為,也意味著沒有太多經驗,一篇論文下隱藏著巨大的風險。
隨著越來越多的本科生進入科研領域,科學這個神圣的領域也進入尋常百姓家,寫出的論文質量也是良莠不齊。
這個知乎問題下可以看到無數(shù)優(yōu)秀本科生的科研經歷,但并不是所有本科生的成果都對科學這座大廈產生著正面影響。
如何對論文嚴格把關,也是科學研究發(fā)展到下一階段需要著重思考的問題。
參考資料:
https://www.zhihu.com/question/504163027
https://baike.baidu.com/item/行人重識別/20815009
本文部分引用「羅浩.ZJU」、「水母沙拉」和匿名回答
https://zhuanlan.zhihu.com/p/31921944
https://www.zhihu.com/question/504163027/answer/2261199211
導師回應:
https://www.zhihu.com/question/504163027/answer/2261562294
二作回應:
https://www.zhihu.com/question/504163027/answer/2261562294
-END-
本文為作者獨立觀點,不代表鳥哥筆記立場,未經允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。
一、根據(jù)《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。
三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)