很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
來源:親愛的數(shù)據(jù)
大模型火了,大模型的套路也火了。
套路一:
但凡有點科技含量的公司,
沒個大模型都對不起“市值”和“估值”。
面子誰不要?
那用開源。
套路二:
說早有布局,
卻無論文,
無數(shù)據(jù),
無“卡”,
無歷史進展,
套路三:
為了“大”而“大”。
譚老師我和騰訊AI科學家深聊:
廣義線性模型的時代,騰訊廣告也曾追求過參數(shù)量大。
然而,這種模型學習能力很一般。
如果只是模型的參數(shù)總量高,參與計算的參數(shù)量卻很少,
這樣的“大模型”,沒意思。
騰訊在AI這塊不算“激進派”,但大模型沒玩套路。
騰訊廣告將兩個大模型用到了廣告業(yè)務。
參數(shù)都是千億級別。
既然是兩個,分工多說兩句。
廣告大模型提升了廣告系統(tǒng)的運算能力,
騰訊混元大模型提升了廣告系統(tǒng)的理解和生成能力。
我們先聊廣告大模型,再聊混元大模型。
先聊聊,廣告競爭的本質(zhì)。
從“從前”講起,
百貨商店櫥窗里的塑料假人,是展示,也是廣告。
后來,美國人研究如何用計算的方法求解廣告中的各類問題。
將一部分的計算策略交給機器學習。
早期,廣告對機器學習模型的要求,哪怕能力弱一點,算得快一點就可以了。
比如,給一條男士沖浪花褲衩打個廣告。
廣告系統(tǒng)有三層:
召回,粗排,精排。
每層邊選,邊匹配。
廣告系統(tǒng)里的模型,有些像漏斗。
先粗排,
模型發(fā)現(xiàn):這條花褲衩男的喜歡,女的無感。
再精排,
模型發(fā)現(xiàn)花褲權(quán)不是所有男性都喜歡,顏色騷氣,
大約20歲左右的精神小伙喜歡。
模型必須做到越往下,越匹配,
還為廣告主節(jié)約廣告費。
匹配這個動詞很重要。
譚老師也想把漫畫“匹配”給喜歡自己作品的讀者,
性格不合的那種,確認不了眼神。
拿譚老師??吹囊曨l號來說,
廣告系統(tǒng)會猜我對視頻的興趣,從而推薦視頻,
猜我對商品的興趣,從而展示廣告。
手機下滑一下,
大約9毫秒,
就得猜到這個瞬間我最有可能的喜好。
這里的猜,就是計算。
模型抓規(guī)律很擅長,頭部規(guī)律好抓,長尾則很麻煩。
偏偏騰訊廣告有很多長尾問題。
偏偏用戶數(shù)量大,
偏偏廣告數(shù)量大。
而且廣告匹配的要求是,不僅要準,還要快。
一句“商機轉(zhuǎn)瞬即逝”,放在這里非常合適。
譚老師剛買一支手機,
廣告出手慢了,買前沒看到,買后不想看。
“商機轉(zhuǎn)瞬即逝”,慢了,就輸了。
這就是廣告競爭的本質(zhì)。
2014年,騰訊廣告平臺實時在線技術(shù)完成。
2015年,深度學習技術(shù)完成。
這兩個“完成”,都指的是全量上線。
在大模型技術(shù)爆發(fā)前的世代里,
沒有什么比騰訊廣告在2016年“實時在線學習+深度學習”全量上線完成更重要了。
團隊的結(jié)論是:
廣告平臺應該是在更大范圍的產(chǎn)品線,
在更長的數(shù)據(jù)鏈路上,全面釋放模型的威力,
模型做大,不是目的,而是手段。
于是,把模型往大了做。
于是,數(shù)據(jù)鏈路拉長。
2020年前后,質(zhì)變發(fā)生了,騰訊廣告整個技術(shù)思路的轉(zhuǎn)變了。
在騰訊公司副總裁蔣杰的帶領(lǐng)下,團隊看清了技術(shù)方向,
前浪大儲備,后浪打硬仗。
狂飆技術(shù),不是自嗨,而是商業(yè)需求。
技術(shù)朝著有需求的方向推進,終于抵達“大模型界碑”。
2021年10月,發(fā)起技術(shù)攻堅,
(騰訊員工的說法是:
作為內(nèi)部發(fā)起的革新型項目,
對內(nèi)稱呼為“下一代廣告系統(tǒng)”。)
項目包括廣告大模型,混元大模型,
一共集結(jié)了800余名跨BG團隊的同學。
毫無疑問,誰能打破技術(shù)難度的瓶頸,誰就是頭部科技企業(yè),
再加一個條件,越早越好。
繕甲厲兵,酣戰(zhàn)颯然,黃龍痛飲。
勁射火力點。
干得行不行,看看指標吧。
全套指標涉及商業(yè)機密,我們抽取其中一個技術(shù)指標:
“大規(guī)模技術(shù)突破之前,精排時延的閾值是70毫秒,突破之后拉到200毫秒,將近3倍左右。”
給廣告系統(tǒng)配套大模型,底層軟件也是另一境界的考驗。
訓練這么大的模型,存儲,計算,通訊翻倍,甚至量級的提升,這塊工程團隊下了很大力氣。
為了做好底層工作,甚至把部分關(guān)鍵架構(gòu)重新寫了一遍。
把以前好的想法融合進去,大幅增強它的伸縮性、容錯能力,支持千億大模型訓練。
這一把,中國科技公司將大規(guī)模工程技術(shù)做到極致。
方案依然還是這么一個方案,只不過模型規(guī)模,整個系統(tǒng)能力等等,不可同日而語了。
騰訊公司副總裁蔣杰帶領(lǐng)騰訊廣告團隊,制定出一套自上而下,全局最優(yōu)的推進路徑,將多個技術(shù)團隊與業(yè)務協(xié)同,帶隊完成了下一代廣告系統(tǒng)建設(shè)。
廣告大模型怎么用?
將資源聚焦于精排,排序能力更好,點擊率與轉(zhuǎn)化率絕對值估準。
精排預估準,提升全鏈的運算推薦效率。
廣告大模型能為廣告主提供什么“特殊服務”?
因為廣告系統(tǒng)的運算能力可以支撐多個小模型同時運行,所以,廣告主可以在系統(tǒng)上與騰訊廣告再共建小模型,做出更多從廣告主業(yè)務出發(fā)的推薦匹配,提升匹配效率。
有的人,練了屠龍術(shù),結(jié)果發(fā)現(xiàn)沒有龍。
騰訊廣告系統(tǒng)“有龍”,所以“屠龍”,
且練成兩大屠龍術(shù):
廣告大模型和混元大模型。
廣告的復雜環(huán)境,也讓騰訊混元得到充分打磨。
團隊內(nèi)部對騰訊混元大模型不斷自審式發(fā)問:
第一重難關(guān):如何把技術(shù)搞出來。
第二重難關(guān):這是真實業(yè)務場景所需要的技術(shù)嗎?如何落地?
巧不巧,騰訊混元是多模態(tài)的,騰訊廣告內(nèi)容天然也是多模態(tài)的。
在這個巧合的背后,騰訊混元從出生開始,就是為“用在哪里”設(shè)計的,而不是“套路”。
廣告內(nèi)容是什么?
是廣告標題、文字、圖片、視頻等。
簡單說,騰訊混元先做“億點”廣告內(nèi)容的閱讀理解,做完,再將“答案”喂給廣告大模型。
據(jù)譚老師觀察,
以廣告大模型提升廣告和用戶的匹配準確率,
以騰訊混元大模型理解、生成廣告內(nèi)容,包括素材和創(chuàng)意。
小道消息,騰訊混元已經(jīng)將這項生成能力,用于廣告投放前的準備階段:
“素材創(chuàng)作”“商品合成”“游戲出圖”。
(學霸選讀)
雖然廣告大模型已經(jīng)很大了(有千億參數(shù)),想用一個大模型把所有的場景都學好,沒有那么容易。
騰訊廣告大模型核心負責人薛偉博士告訴我,
比如,模型會產(chǎn)生場景之間的負面影響“我學不好,你也甭想學好”。
這種現(xiàn)象叫“負遷移”。廣告大模型中,薛偉博士用到了“公共塔”技術(shù)。
公共塔,樣子像塔,其實是大模型內(nèi)部獨立子網(wǎng)絡。
廣告模型大,內(nèi)部子網(wǎng)絡豐富,還有商品(Item)塔,用戶(User)塔。這類子網(wǎng)絡專門學習特征的共性,降低場景之間的干擾。
不同場景參數(shù)不同,推薦汽車,不能把推薦手機的參數(shù)也算一遍。
大模型的出現(xiàn),讓算法設(shè)計空間變大,讓設(shè)計的余地更大,有機會用算法的思想充分釋放大模型的價值。
好馬配好鞍,
好產(chǎn)品配好廣告。
1997年,蘋果手機“非同凡想”廣告里面有這樣一句話:
那些瘋狂到以為自己能夠改變世界的人呢,才能真正改變世界。
要我說,這樣爽感的廣告,再多來幾個。
(完)
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡信息。
一、根據(jù)《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)