很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
搜索引擎的基本搜索模型
搜索引擎一般是由在線和離線兩部分構(gòu)成,離線部分主要是搜索引擎爬取網(wǎng)頁的原始數(shù)據(jù)再將其提取、充實、分析、索引的過程。
這一塊我們需要注意的一點就是在索引數(shù)據(jù)當中有一條關于時效性索引數(shù)據(jù)的內(nèi)容。主要是一些新聞的索引數(shù)據(jù),搜索引擎會對一些有時效性的新聞給予快速的收錄和較高的排名。
但是在過了時效性以后這些排名就會掉了,連收錄都可能會掉出,這個時效性索引數(shù)據(jù)過了時效后的狀態(tài),主要是跟網(wǎng)站的結(jié)構(gòu)和權威性有關。
而我們做搜索優(yōu)化其實主要要在意的還是其離線部分的內(nèi)容。
用戶在輸入了搜索詞以后,搜索系統(tǒng)會進行Query理解從而采用不同的召回策略。
就像我在搜索“塑聊”的時候,搜索引擎通過字典判斷再給我糾錯為“塑料”,在搜索“su料”的時候也會給我糾錯為“塑料”。
在搜索“BTC”的時候會給我擴充“比特幣”的內(nèi)容,在搜索“土豆”的時候會給我呈現(xiàn)“馬鈴薯”的時候,都是出于對同義詞的擴充。
在搜索“搜索引擎營銷”的時候會將這幾個字分詞為“搜索/引擎/營銷”或者“搜/索/引/擎/營/銷/”等更多粒度的分詞。
系統(tǒng)在經(jīng)過了召回環(huán)節(jié)后并不是直接就呈現(xiàn)在用戶面前,而是會將這些通過不同召回策略的索引數(shù)據(jù)作為候選集合,候選集合的數(shù)量大概在幾千到幾萬個。再通過更精細的計算模型對候選集合中的內(nèi)容進行分值計算,從而獲得初步的排序。
在經(jīng)過了召回環(huán)節(jié)之后將會進入排序環(huán)節(jié),而排序環(huán)節(jié)會分為粗排、精排和重排三個環(huán)節(jié)。粗排大致上是通過類似于評價搜索詞和文檔之間相關性的BM25算法來獲取一個粗略的排序,這個數(shù)量大概是幾百到幾千個,在百度搜索引擎當中這個數(shù)值最大為760個。
在經(jīng)過了粗排以后,搜索引擎會加載更多的特征和更復雜的模型,對粗排的內(nèi)容進行排序計算,從粗排提供的候選池中選出用戶最有可能點擊的內(nèi)容,這個數(shù)量值大概是在一百以內(nèi)。
在經(jīng)過精排以后,這些內(nèi)容已經(jīng)可以初步呈現(xiàn)給用戶,但是在呈現(xiàn)之前還會有一個規(guī)則干預的環(huán)節(jié),規(guī)則通常服務特定產(chǎn)品目的。例如百度信譽的官網(wǎng)認證服務,企業(yè)用戶在做了官網(wǎng)認證以后,用戶在搜索企業(yè)名稱,企業(yè)內(nèi)容會出現(xiàn)在搜索排名的第一位,這個就是重排。
此外排序并非是一成不變的,在內(nèi)容展現(xiàn)給用戶以后,用戶點擊反饋會影響到排序環(huán)節(jié)模型,用戶點擊更多的網(wǎng)址,在后續(xù)搜索展現(xiàn)當中會獲得更高的排名,這個就是點擊調(diào)權的過程,也是重排的過程。
搜索引擎的四類基本算法
TF-IDF 詞頻-逆文本率算法
TF=某個詞在文章中出現(xiàn)的次數(shù)=某個詞在文章中出現(xiàn)的次數(shù)/文章總詞數(shù)
IDF=log(語料庫文檔總數(shù)/(包含該詞文檔數(shù)+1))
TF-IDF=詞頻(TF)*逆文檔頻率(IFD)
這個算法主要是為了評估字詞對于一個文件集中的一份文件的重要程度。
字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加。
但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。
這句話應該怎么去理解呢?我們舉一個簡單的例子:
圖書館有一萬本書,其中一本書關于“姜母鴨”這詞出現(xiàn)的次數(shù)是66次,關于“做法”這個詞的出現(xiàn)的次數(shù)是1000次。那“做法”的TF是高于“姜母鴨”的。但是對比圖書館里的10000本書中,我們會發(fā)現(xiàn)“姜母鴨”在其他書中出現(xiàn)的頻次很低,而“做法”在其他書中出現(xiàn)的頻次也很高。因此會把“做法”的權重降低從而得出關鍵詞“姜母鴨”
TF-IDF算法可以過濾掉一些常見詞(如上述的“做法”)而保留重要的詞(如上述的“姜母鴨”)從而得出文檔當中的重點。這個算法可以說是搜索引擎的基本算法了,換成我們比較通俗的語言去講,就是關鍵詞密度。
Hits 鏈接分析算法
在SEO當中,常常有內(nèi)容為王,外鏈為皇的說法(現(xiàn)在已經(jīng)不適用了),因為在SEO的早期,外鏈算法是對網(wǎng)站排名影響極大的算法。
例如當初李彥宏依靠“超鏈分析算法”成立了百度,而這個超鏈分析算法也就是我們現(xiàn)在比較熟知的錨文本鏈接。
后來谷歌對“超鏈分析算法”進行了優(yōu)化,提出了不同網(wǎng)站的權重不同,所以外鏈傳導的權重也應該不同的概念,這個就是后來的“PageRank算法”。
而現(xiàn)在百度和谷歌對這類算法也經(jīng)歷了無數(shù)個版本的迭代,而且也有新的鏈接分析算法出現(xiàn),例如Hits算法。
Hits算法中有兩個新概念,一個是“Authority”頁面,一個是“Hub”頁面。
“Authority”頁面指的是高質(zhì)量的權威頁面。
“Hub”頁面指的是指向很多權威頁面的樞紐頁面。
一個好的權威頁面會被很多樞紐頁面指向
一個好的樞紐頁面會指向很多權威頁面。
這種算法可以比較簡單通過鏈接的去判定網(wǎng)站的優(yōu)劣,但是也比較容易作弊。
比如萬物皆可運營的官網(wǎng)導出的外鏈有騰訊新聞、搜狐新聞、鳳凰新聞、悠然布衣。而騰訊新聞、搜狐新聞等三個都是權威頁面,那么悠然布衣也會被認為是權威頁面。
TextRank算法和LDA主題模型
除了TF-IDF算法以外,像TextRank算法和LDA、LSA這類的主題模型算法也被廣泛地應用在關鍵詞提取領域。
TextRank算法比起TF-IDF算法的特點在于它可以脫離語料庫的背景,對單篇文檔進行分析,提取單篇文檔的關鍵詞。但是缺點就是受分詞、文本清洗影響大,受高頻詞影響大。
這個算法是引入了PageRank算法的理念,將文本拆成詞匯組成網(wǎng)絡模型,將詞匯相似度的共現(xiàn)關系作為投票關系或者說推薦關系,從而去計算每個詞的重要性。
例如:(例子來源于@知乎 黃鑫)
然后對上面這段話進行分詞,去除中間的停用詞,我們可以得到:程序員 英文 程序 開發(fā) 維護 專業(yè) 人員 程序員 分為 程序 設計 人員 程序 編碼 人員 界限 特別 中國 軟件 人員 分為 程序員 高級程序員 系統(tǒng) 分析員 項目 經(jīng)理
然后建一個大小為9的窗口,每個單詞要投票給它前后距離為5以內(nèi)的詞
然后開始迭代投票
這樣得出來“程序員”是這段話當中權重最高的單詞。
LDA主題模型:在很多場景下,單純的提取文檔里面的關鍵詞是不夠用的,比如中國古代很多的古詩就是這么玩的。
“解落三秋葉,能開二月花。過江千尺浪,入竹萬竿斜。”這首李嶠的《風》,雖然是描寫風的,但是除了題目全詩沒有一個”風“字。
還有朱熹的《秋月》:清溪流過碧山頭,空水澄鮮一色秋。隔斷紅塵三十里,白云紅葉兩悠悠。是描寫月亮的但是全詩沒有一個月字。
雖然關鍵詞和文檔之間沒有直接的聯(lián)系,但是需要通過一個維度將其串聯(lián)起來,這個就是主題。每個文檔都應該對應一個或者多個主題,每個主題都會有對應的詞分布。
LDA語義主題模型可以實現(xiàn)相同語義的主題單詞之間的相互關聯(lián),給信息檢索中文本的潛在語義信息的挖掘提供良好的檢索模型框架,可以用來識別大規(guī)模文檔集或語料庫中的潛在隱藏的主題信息。
比如一個文章如果涉及到“姜母鴨”這個主題,那么“閩南”、“廈門”、“泉州”等詞語就會以較高的頻率出現(xiàn),而如果涉及到“老鼠干”,那么“閩西”、“客家”“寧化”就會出現(xiàn)的很頻繁。
搜索引擎會分析用戶查詢詞匯與哪些主題是相關的,這些相關會通過形容詞的屬性來作為參考。例如“姜母鴨”相關的都是屬于美食,那么滋陰降火的功能屬性、濃香鮮美的味道屬性這些內(nèi)容都是與它關聯(lián)的。
現(xiàn)在百度搜索的下拉關聯(lián)搜索、相關搜索等搜索詞,應當就是與TextRank算法、LD算法、DNN算法等相關。
Simhash去重算法
為了計算一篇文檔之間的相似度存在的,通過simhash算法可以計算出文檔的simhash值,通過各個文檔計算出的二進制值來計算文檔之間的漢明距離,然后根據(jù)漢明距離來比較文檔之間的相似度。(漢明距離是指兩個相同長度的字符串相同位置上不同的字符的個數(shù)。)
例子:“我元宵節(jié)在家里用烤爐做了一只美味的烤雞”和“我正月十五在家里用烤箱做了一盤超級好吃的烤雞。”
首先去除停用詞后變成了
“我 元宵 家里 烤爐 美味 烤雞”和“我 正月十五 家里 烤箱 超級好吃 烤雞”
做詞頻統(tǒng)計,再做同義詞歸一化 元宵=正月十五 烤爐=烤箱 美味=超級好吃
最后判斷這兩句話是同一個意思。
早期百度應該是對網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)進行simhash識別,而最新的原創(chuàng)識別應該是對句子級別的做simhash識別了。所以當前來說,簡單的語句調(diào)換、關鍵詞替換等方法做偽原創(chuàng),其實對搜索引擎的影響不大,他們能夠識別出來。
TF-IDF算法、TextRank算法和LDA主題模型這幾種算法,除了搜索引擎營銷的人員以外,做新媒體運營的同學也可以做相關了解。除了在百度以外,例如抖音、小紅書、微信等平臺搜索算法也與此相關。
今天就簡單的聊一聊搜索引擎的幾類基本算法,了解這些算法,對于指導搜索優(yōu)化和內(nèi)容分發(fā)都有比較大的作用,但是畢竟我不是技術出身的,對這個理解的也不是特別透徹,所以大家感興趣的可以自己再找資料學習學習。
下一篇內(nèi)容,會比較詳細地去盤點一下SEO當中比較常用的一些作弊手段,也就是黑帽SEO。嗯,有緣再更新吧~
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網(wǎng)絡信息。
一、根據(jù)《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權歸屬本網(wǎng)站所有)