很可惜 T 。T 您現在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經錄用會有專人和您聯系
咨詢如何成為春羽作者請聯系:鳥哥筆記小羽毛(ngbjxym)
消滅大模型幻覺,它是最大的利器。
作者|文昌龍
編輯|楊舟
“未來我們得到的內容可能是AI生產的東西占主導,這些東西又成為新的語料喂給AI,然后AI又會加工AI生產的東西,不斷反復。這就會出現‘遞歸效應’,出現尼采講的‘永恒循環(huán)’。”
中國人民大學新聞學院教授劉海龍在采訪中指出,AI帶來的信息傳播負面效應日益顯現。這一現象并非難以察覺,越來越多的人已開始感受到AI對信息傳播的顛覆性影響。
隨著AI信息循環(huán)的加劇,信息傳播的失真也愈發(fā)嚴重。打破這一惡性循環(huán),一個解決思路是,牢牢把控源內容。換句話說,打破AI大模型“幻覺”鏈條的關鍵,在于保證訓練數據的質量與權威性。
根據公開信息,大型語言模型(LLM)數據集可以簡單的概括為通用預訓練語料庫和特定領域預訓練語料庫,前者的來源也就是網頁、語言文本、書籍、學術資料、代碼、平行語料庫、社交媒體和百科全書。
其中,百科作為訓練數據集的核心組成部分,已經成為AIGC時代數據權威性的關鍵。
維基百科與百度百科等平臺已經意識到這一點,并紛紛采取措施,確保數據的可信度與權威性。作為全球詞條數量最多的中文百科全書,百度百科近期也有了進一步的舉措。
12月27日,在百度百科在和中國科協、中國科學院大學聯合舉辦的史記2024·科學百科100詞發(fā)布會上,發(fā)布了「繁星計劃」,將AI與知識內容的融合推向了新的高度。這一舉措并非簡單地像維基百科排斥AI,因為AI本身也具備創(chuàng)造力,更像是在AI與權威之間架起了一座橋梁。
毫無疑問,在不廣為注意的領域,百科的內容保衛(wèi)戰(zhàn)已經拉開帷幕。
百科的重要性在于,它是AI是否生成幻覺的訓練數據集源頭之一。
大模型訓練數據集,是指用來訓練大型人工智能模型(如GPT、文心一言等大語言模型)的大量數據集合,對大模型的性能和表現至關重要。
打個比方,如果將大模型比作一個學生,那么訓練數據集便是教材與練習題。教材的質量與練習題的數量和種類,直接決定了學生的學習效果與知識掌握程度。一個優(yōu)質的訓練數據集,能夠幫助大模型這個“學生”走得更遠,提供更有價值的服務。
大模型的訓練數據集來源廣泛,因此質量參差不齊,優(yōu)質數據源往往需要付出不小的代價。
以OpenAI為例,2024年5月22日,OpenAI宣布與新聞集團達成多年期協議,獲得其主要新聞和信息出版物的當前與存檔內容,包括《華爾街日報》《巴倫周刊》《紐約郵報》《泰晤士報》《太陽報》等十余家知名媒體。
這一切背后,OpenAI支付了不小的代價。根據外媒報道,該交易為期五年,交易金額可能超過2.5億美元(約合人民幣18.1億元)。
OpenAI也提到了這筆交易的原因,“最終目標是讓人們能夠根據可靠的信息和新聞來源做出明智的選擇。”
當然,如果其他大模型機構不像OpenAI那樣財力雄厚,那么最常見的選擇便是單單使用一些通用的預訓練語料庫和特定領域的語料庫,其中百科語料庫尤為普遍。
最常見的百科語料庫包括維基百科和百度百科,它們以免費、開源、多語言支持和高文本價值為特點。這些知識經過人工精心整理,準確性較高,能夠幫助模型建立對各類事物的基本認知,如歷史事件、科學概念等。
由于這些百科內容易于獲取,機構通常會選擇特定語言的百科數據進行爬取和過濾,作為預訓練語料庫的一部分。因此,它們在預訓練語料庫中的出現頻率較高,是大語言模型(LLMs)知識庫的基礎。
今年年初,斯坦福大學的研究人員發(fā)布了WikiChat,宣稱這是首個幾乎不產生幻覺的聊天機器人,他們的信心來源于基于維基百科的知識進行訓練。
然而,隨著AI進程的加速,百科也不能再百分百保證其準確性。即使是知名平臺,依然存在信息錯誤或不完整的情況。
可見,要解決大模型幻覺的問題,必須保證其訓練數據集的質量和權威性。尤其是在百科類內容中,內容的準確性和專業(yè)性是大模型穩(wěn)定輸出的基礎。
目前,維基百科為應對人工智能生成內容帶來的挑戰(zhàn),推出了維基人工智能清理項目(WikiProject AI Cleanup),并強調內容的可驗證性:要求編輯在文章歷史中注明是否使用了大型語言模型(LLM)。
作為百科的另一極,百度百科早在2006年就開始為百度搜索引擎提供知識源。公開資料顯示,截至2024年12月,百度百科已經收錄了超2860萬個詞條,參與詞條編輯的網友超過795萬人,幾乎涵蓋了所有已知的知識領域。
百度百科擁有一支專家團隊,用來確保所有內容的準確性與權威性。畢竟,在AI幻覺出現之前,虛假信息和利用百科進行商業(yè)宣傳的行為已影響了百科產品的公共性與中立性。
回顧過去,百度百科在提升內容專業(yè)性方面做出了努力,包括組建更專業(yè)的編輯團隊、加強內容審核力度,以及與行業(yè)機構合作等。
例如,2009年,百度百科推出了權威共建專項活動,聯合各行業(yè)專家和機構,共同構建專業(yè)品類詞條;2014年,在衛(wèi)健委的指導下,百度百科聯合打造了“權威醫(yī)學科普傳播網絡平臺”;2015年,百度百科與中國科協達成合作,共同完善科學類科普詞條的準確性。
專家團隊的參與有效抵消了大眾編輯帶來的非專業(yè)性問題,但如今進入AIGC時代,百度百科在權威性樹立上拿出更多砝碼。
從外部信息來看,為了進一步提升百度百科的權威性,百度的策略是“以AI規(guī)范AI”。即在依賴人工編輯和專家審核的基礎上,結合AI技術,通過智能體等手段,進一步提升內容的準確性和智能化水平。
核心動作之一是這次的“繁星計劃”,該計劃可概括為四大特色:專業(yè)標識、編輯特權、技術共享和精準流量。
以“專業(yè)標識”為例,當用戶在百度搜索時,專家的個人詞條會以專門標識的形式展示,彰顯其權威性。在信息泛濫的時代,百度百科通過識別真正的專家和優(yōu)質內容,給予專業(yè)標識,幫助大眾分辨真假。
過去,百度通過參考資料來定義知識,這雖然精準,卻也誤傷了不少專業(yè)內容,許多專業(yè)人士想要參與,但由于工具不便、門檻過高,常常被排除在外。如今,百度去除了這些繁瑣的流程,為專家提供了編輯特權,降低了參與的門檻。
通過“繁星計劃”,百度百科還將整合百度的AI技術,包括文心智能體平臺等,通過智能體和數字人技術,幫助專家免費制作數字分身,既降低成本,又提高產量,使科普變得更加容易和權威。
此外,百度百科還將立足于百度搜索,提供億級的精準流量分發(fā),助力知識的全民普惠。據透露,“繁星計劃”將覆蓋 10 萬個權威專家,覆蓋超100萬知識內容。有關人士表示,這或許是業(yè)內規(guī)模最大的 AI 科普計劃。
百度百科正在利用AI技術架起與權威之間的一道橋梁,試圖為解決AI幻覺問題、樹立權威科普提供一種解決方案。
一個現象是,百度百科頻繁被國內媒體作為資料來源引用,既表明其權威性已廣泛認可,更重要的是,這種權威性逐漸被潛移默化地接受,成為了百度的一張核心底牌。
一方面,作為簡體中文互聯網體量最大、用戶最廣泛的搜索引擎,百度是大多數網民查找信息的首選平臺。百度搜索對百度百科賦予了更高的權重,使得其內容更易被用戶找到,逐步培養(yǎng)了用戶的依賴習慣。另一方面,百度百科作為一款精準總結信息的產品,其權威性始終有保障。
因此,百度百科的內容權威性正逐漸成為百度搜索的核心護城河,不僅有效消除AI幻覺,也增強了其在激烈競爭中的優(yōu)勢。
這種權威性的塑造并非一蹴而就,而是經過長期的戰(zhàn)略規(guī)劃與持續(xù)打磨。從時間軌跡來看,無論處于何種內容時代,百度百科始終堅守權威性門檻,并在不同階段不斷強化這一特質。
回顧百度百科的發(fā)展歷程,可劃分為三個具有標志性的階段:
1.0階段:處于移動互聯網尚未普及的圖文時代,百度百科通過廣泛的知識收集與整理,為百度搜索提供大量可靠的知識內容,成為用戶信賴的知識源,奠定了其權威性基礎。
2.0階段:隨著移動互聯網的興起,百度百科進入視頻化時代。以秒懂百科等創(chuàng)新功能為標志,視頻形式極大豐富了知識的呈現方式,使其能夠以更直觀、生動的方式觸達用戶,進一步提升了其權威性。
3.0階段:在AI技術的浪潮下,百度百科結合文心大模型等百度AI技術體系,融入智能體和數字人等先進技術,實現知識生產與傳播的智能化升級。
近期推出的繁星計劃便是這一階段的重要成果,通過AI優(yōu)化知識服務,提升了百度百科的權威性,并為百度搜索提供了更強的支持。
未來,隨著百度百科AI化進程的不斷深入,它將不僅僅是一個知識平臺,還將成為推動知識生態(tài)發(fā)展的智能工具。隨著內容權威性的進一步增強,特別是在AI技術的深度融合下,百度百科或將進入新的發(fā)展階段。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。
一、根據《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現為:
1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現為:
1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產生性聯想;
5)展現血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯。
6. 傳播封建迷信,主要表現為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現為:
1)以各種夸張、獵奇、不合常理的表現手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網站通過主動發(fā)現和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。
三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)