很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
AI核心要研究的是如何讓計算機(jī)去完成以往需要人的智力才能勝任的工作,而人的智能性核心體現(xiàn)在對不同事物的感知能力、推理能力、決策能力。因此要想做出AI產(chǎn)品就離不開對感知的研究,推理機(jī)制的研究以及智能決策方向的研究。對感知智能而言,AI已經(jīng)做了很多突破,例如機(jī)器對聽覺、視覺、觸覺的感知能力,通過攝像頭、麥克風(fēng)或者其他的傳感設(shè)備,借助語音識別、圖像識別的一些算法模型,能夠進(jìn)行識別和理解。
感知智能的發(fā)展能夠采集到海量的不同來源及不同存儲方式的數(shù)據(jù),如果想要用這些數(shù)據(jù)做出具體場景化的應(yīng)用,目前市面上常用的方式有兩種,一種是統(tǒng)計分析,也就是在業(yè)務(wù)中做的最多的數(shù)據(jù)理解和分析,包括了語義分析、情感分析,及各種指標(biāo)分析的數(shù)據(jù)可視化。另外一種是決策,基于收集或者產(chǎn)生的數(shù)據(jù)去做自動化決策,或者智能推薦、智能問答等。而在做這些內(nèi)容時依賴的核心技術(shù)就是知識圖譜相關(guān)的技術(shù)。
了解知識圖譜是什么之前,先了解數(shù)據(jù)、信息、知識之間的關(guān)系。
數(shù)據(jù)是指聲音、圖像、符號,通常指最原始的記錄,數(shù)據(jù)間彼此孤立,沒有經(jīng)過加工和解釋。
信息是指數(shù)據(jù)經(jīng)過加工處理后,建立了某種聯(lián)系或增加了某些屬性;
信息可以經(jīng)過加工和處理轉(zhuǎn)化為數(shù)據(jù)進(jìn)行存儲,數(shù)據(jù)是信息的表現(xiàn)形式。
知識是通過實踐獲得的認(rèn)識或經(jīng)驗的總和,可以是已經(jīng)文本化的知識,也可以是存儲在大腦中的認(rèn)知。
eg:
「38.5」這是一條數(shù)據(jù),不具有任何意義。
「小明測量體溫為38.5度」這是一條信息,并且38.5是一個關(guān)鍵指標(biāo)。
「正常人體的溫度為36-37度,當(dāng)體溫超過基礎(chǔ)體溫1度及以上時,即認(rèn)為發(fā)熱,而不同的溫度范圍又可分為低熱、高熱...」這是一條知識,是通過許多病例、實驗總結(jié)出的公認(rèn)正確的。
「小明發(fā)熱了,因為他體溫為38.5度」這個結(jié)果是由知識推理而來的。
知識圖譜是基于圖模型來描述知識以及構(gòu)建關(guān)聯(lián)關(guān)系模型的技術(shù)手段,現(xiàn)實世界中常用到的知識,或者我們腦海中記住的知識,通常是一段描述性的話,而知識圖譜就是將某段描述知識的話抽象成主體、屬性、關(guān)系的三元組,并利用圖譜的形式呈現(xiàn)出來。如下圖即是一個簡單的知識圖譜?!笍埌刂ァ?、「謝霆鋒」、「王菲」是人物主體;「出生年月」、「性別」、「年齡」為主體屬性;「前妻」、「現(xiàn)任女友」、「情敵」為知識抽象出的關(guān)系。
“前妻”知識:
男女雙方在法律上曾經(jīng)成立過婚姻,后通過協(xié)議或訴訟的方式解除了婚姻,終止了夫妻間權(quán)利和義務(wù),對男方而言稱呼女方為前妻。
推理過程:
張柏芝和謝霆鋒之間在法律上曾經(jīng)成立過婚姻,后解除了婚姻,且張柏芝是女性,因此張柏芝是謝霆鋒的前妻。
在知識圖譜技術(shù)中,「張柏芝」、「謝霆鋒」、「王菲」被稱為節(jié)點,節(jié)點可以是實體也可以是抽象出的概念;加粗的黑線稱為邊,表現(xiàn)實體或概念之間的關(guān)系,如「張柏芝」和「謝霆鋒」的關(guān)系是「前妻」。圖中每一個圓都是一個節(jié)點,連接圓的直線都是邊,可以看出知識圖譜是由節(jié)點和邊組成。而節(jié)點和節(jié)點之間的邊,可以是屬性、也可以是關(guān)系,例如「張柏芝」、「謝霆鋒」之間的邊代表的是關(guān)系,「張柏芝」、「性別:女」之間的邊代表的是屬性。
最早知識圖譜的應(yīng)用是用來提升搜索引擎的能力,早期的搜索,是依賴網(wǎng)頁間的超鏈接、搜索關(guān)鍵詞與網(wǎng)頁包含關(guān)鍵詞的匹配關(guān)系進(jìn)行精確或模糊搜索。但互聯(lián)網(wǎng)終極形態(tài)是萬物的互聯(lián),搜索的終極目的也是對萬物的直接搜索,因此僅依靠關(guān)鍵詞之間的匹配不足以滿足日益豐富的搜索需求。在傳統(tǒng)的搜索模式下,當(dāng)我們搜索「謝霆鋒的前妻是誰?」,檢索結(jié)果可能是某個網(wǎng)頁中包含了「謝霆鋒的前妻是張柏芝」這句話,我們才能找到網(wǎng)頁,在從網(wǎng)頁中的信息中得知謝霆鋒的前妻是張柏芝這個結(jié)論。
而上圖知識圖譜的建立,當(dāng)搜索需求產(chǎn)生時會快速的返回「張柏芝」及個人信息。
知識圖譜的構(gòu)建通常分為兩類,一類是開放域的知識圖譜、一類是垂直領(lǐng)域的知識圖譜,像google、百度搜索等搜索引擎建立的知識圖譜屬于開放域的,像某個領(lǐng)域,電商、金融、圖情、生活娛樂等基于具體領(lǐng)域和場景構(gòu)建的知識圖譜為垂直領(lǐng)域的知識圖譜。兩種圖譜的場景應(yīng)用不太一樣,但涉及的底層邏輯和構(gòu)建流程是相似的。
知識圖譜的構(gòu)建涉及了知識表示、知識獲取、知識處理和知識利用等多方面。
知識表示:
簡單理解就是設(shè)計者把得到的知識,針對各種問題的類型和場景,設(shè)計成多種表現(xiàn)形式,而使用者可以直接使用這種設(shè)計好的表示方法來代表這類知識信息。
例如我作為系統(tǒng)設(shè)計者,我定義了“V”為“或”的意思,其它使用者均可用“V”代表“或”。
知識獲?。?/p>
指人通過設(shè)計、程序編碼、人機(jī)交互使機(jī)器獲取知識,例如人為建立知識庫,讓專家系統(tǒng)來獲取知識,大部分都是通過人工的方式將人類的知識存儲到機(jī)器中,這個過程就是知識獲取的過程。
*知識庫是相互關(guān)聯(lián)的事實及數(shù)據(jù)的集合,常被用來支持專家系統(tǒng),是專業(yè)領(lǐng)域內(nèi)規(guī)則的集合,包含了規(guī)則所聯(lián)系的所有關(guān)系和數(shù)據(jù)。
*專家系統(tǒng)是人工智能研究方向之一,是指利用人類某個領(lǐng)域?qū)<医鉀Q問題的知識或者方法來進(jìn)行程序化,依賴知識庫中的知識體系來進(jìn)行決策。
知識處理:
包含了知識的加工、邏輯判斷、推理、知識輸出的過程。
nlp自然語言處理是知識處理的核心。
知識利用:
將規(guī)范的知識結(jié)構(gòu)應(yīng)用到具體的場景之中,創(chuàng)造價值。
在構(gòu)建技術(shù)上,數(shù)據(jù)和算法是知識圖譜的底層支持,包含了信息表示、信息抽取、信息融合、信息推理和信息決策等多個階段。
信息來源:
通??梢酝ㄟ^多個渠道或者來源來獲取知識圖譜的數(shù)據(jù),包含了文本、結(jié)構(gòu)化數(shù)據(jù)庫、多媒體數(shù)據(jù)、傳感器數(shù)據(jù)、人工眾包數(shù)據(jù)等。
信息表示:
利用計算機(jī)語言來描述人腦或者文本中的知識,來幫助進(jìn)行下一步推理。
應(yīng)用到的技術(shù)手段,例如文本數(shù)據(jù),通常會使用nlp自然語言處理技術(shù),進(jìn)行實體識別、實體鏈接、關(guān)系抽取、事件抽取等從文本中抽取出知識,在利用RDF把三元組作為基本的數(shù)據(jù)模型。
基本邏輯包含了實體、實體屬性、實體之間的關(guān)系。
信息抽?。?/p>
結(jié)構(gòu)化和文本化的數(shù)據(jù)是目前主要使用的數(shù)據(jù)形式,從結(jié)構(gòu)化數(shù)據(jù)中抽取信息一般使用現(xiàn)有的D2R工具,如D2RServer。
從文本中抽取信息主要經(jīng)歷實體識別和關(guān)系抽取兩部分,關(guān)系抽取一般可以使用基于特征模版的方法(人工打標(biāo)簽),或者機(jī)器學(xué)習(xí)的方式進(jìn)行抽取。
信息融合:
通常自己的數(shù)據(jù)源或者知識庫不足以構(gòu)建解決實際問題時,會去從第三方的知識庫或者收集其他渠道的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合,主要包含了模式層的融合和數(shù)據(jù)層的融合,核心解決的問題是避免實體與關(guān)系的沖突,或者相同實體含義但使用的不同的數(shù)據(jù)標(biāo)識符,造成了不必要冗余。
知識圖譜補(bǔ)全與推理:
此環(huán)節(jié)核心是依賴于補(bǔ)全算法去實現(xiàn),一種方法是基于本體推理的補(bǔ)全方法,另一種是基于圖結(jié)構(gòu)和關(guān)系路徑進(jìn)行補(bǔ)全。
通常推理和補(bǔ)全是一個相互協(xié)作的過程,通過推理發(fā)現(xiàn)有問題的地方,進(jìn)行補(bǔ)全。
應(yīng)用與決策:
語義檢索、智能問答、智能決策系統(tǒng)、推薦系統(tǒng)。
下面通過具體示例來理解知識圖譜的構(gòu)建流程。
在目前電商的交易場景中,交易規(guī)模巨大,不僅涉及了線上、線下交易場景,還有各種新零售、多語言平臺、線上線下相結(jié)合的各種復(fù)雜的購物場景,企業(yè)對數(shù)據(jù)的聯(lián)通需求越來越強(qiáng)烈,因此電商的知識圖譜對于行業(yè)而言變得很重要。
電商的知識圖譜主要是圍繞商品構(gòu)建的,基于人、貨、場的主要框架進(jìn)行拆解。
在電商這個領(lǐng)域下進(jìn)行知識表示時,首先需要確認(rèn)共涉及多少個一級本體、二級本體,電商知識主要的獲取來源是知識眾包,核心涉及了本體的設(shè)計,圍繞商品本身的屬性、消費(fèi)者的需求、平臺運(yùn)營管理的機(jī)制。在不同平臺和渠道的數(shù)據(jù)采集工具不一樣,采集上來的數(shù)據(jù)的存儲形式也會略有差異,例如電商的賣點、詳情、圖片、評價,輿情信息中的品牌和口碑,涉及了大量的文本數(shù)據(jù)、圖像數(shù)據(jù)。在進(jìn)行知識表示時涉及了各種NLP、CNN技術(shù)。要求知識命名識別系統(tǒng)具有大規(guī)模實體類型識別的能力。并且把識別出的主體與知識圖譜進(jìn)行鏈接。以阿里電商認(rèn)知圖譜的示例主要包括:
商品域:
型號、尺碼、大小、顏色、口感、材質(zhì)..
用戶域:
性別、年齡、風(fēng)格、品牌、購買力...
LBS域:購物場景、群體、泛品類……
然后需要對實體進(jìn)行描述,除了基礎(chǔ)的屬性及屬性值以外,需要通過實體標(biāo)簽進(jìn)行實現(xiàn),大部分實體標(biāo)簽變化比較快,通常是通過知識推理獲取的。例如商品的標(biāo)簽中,可以通過材料的配比或者國家行業(yè)標(biāo)準(zhǔn)進(jìn)行處理。例如:
低糖:
食品每100克或100毫升的糖含量不能超過5克;
無糖:
食品每100克或100毫升糖含量不能超過0.5克
通過知識推理,可以根據(jù)商品配料表中的數(shù)據(jù)轉(zhuǎn)化為「無糖」、「低糖」的知識點,從而將數(shù)據(jù)轉(zhuǎn)化為知識標(biāo)簽。大部分信息在提取之后會比較零散,需要將已建立好關(guān)系的知識庫中或者第三方的知識庫來源的信息做融合,以及實體對齊、實體消歧義的技術(shù)操作。
實體對齊:
例如迪奧是一個品牌名,DIOR為同一個品牌的英文名,雖然是同一個品牌由于文本不一樣,會被計算機(jī)識別為兩個實體,因此我們需要將類似的內(nèi)容對齊和統(tǒng)一化。
實體消歧:
例如蘋果是一種水果,在某些上下文中它可能表達(dá)蘋果手機(jī),這時需要根據(jù)上下文進(jìn)行實體消歧。
完成上述操作后,才會進(jìn)行實體的抽取,實體抽取的過程中會利用算法進(jìn)行實體間的相似性計算,主要依賴于本體庫中建立的本體之間的關(guān)系,進(jìn)行推理和補(bǔ)齊。例如不同人買了同一件商品,或買了相似商品,該以怎樣的節(jié)點進(jìn)行知識圖譜的關(guān)聯(lián)??梢圆捎米詣踊槿』蛘呷斯こ槿〉姆绞竭M(jìn)行實現(xiàn),自動化抽取可以大批量任務(wù),以及在多源異構(gòu)的數(shù)據(jù)處理中具有極大優(yōu)勢。但對于復(fù)雜場景的抽取和識別依舊需要人工的介入。
在初步的知識圖譜構(gòu)建成功之后,需要進(jìn)行知識庫的質(zhì)量評估,當(dāng)部分關(guān)系無法通過知識庫進(jìn)行抽取時,需要進(jìn)行知識推理算法及知識圖譜補(bǔ)全算法進(jìn)行關(guān)系鏈路的優(yōu)化。目前市面上已有部分技術(shù)上的解決方案,感興趣童鞋可以查閱更多資料進(jìn)行擴(kuò)展。
本文為作者獨(dú)立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護(hù)用戶創(chuàng)造的內(nèi)容、維護(hù)開放、真實、專業(yè)的平臺氛圍,我們團(tuán)隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進(jìn)行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護(hù)法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽(yù)和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽(yù)、榮譽(yù);
4)宣揚(yáng)恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
6)破壞國家宗教政策,宣揚(yáng)邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚(yáng)淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽(yù)、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽(yù);
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進(jìn)行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進(jìn)行負(fù)面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細(xì)節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚(yáng)低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運(yùn)、使用迷信方式治?。?br /> 2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進(jìn)行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運(yùn)勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費(fèi)、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對帳號進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)