亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

想讓推薦和搜索引擎更聰明?基于知識圖譜的篇章標簽生成

優(yōu)采云 發(fā)布時(shí)間: 2022-06-19 13:52

  想讓推薦和搜索引擎更聰明?基于知識圖譜的篇章標簽生成

  

  老板~我們的推薦系統笨笨的

  

  你怎么對文檔處理的這么糙!抽個(gè)關(guān)鍵詞就應付過(guò)去了?

  

  

  

  啊啊啊我錯惹,那那,不用關(guān)鍵詞用什么呢?

  

  知識圖譜用上了沒(méi)?

  概念詞知道不?9012年了知道么!

  

  

  

  嚶嚶嚶,馬上升級!o(╥﹏╥)o

  

  前言

  篇章的標簽生成是NLP領(lǐng)域的一項基礎任務(wù),目的是對文本更好地結構化,篩選重要的關(guān)鍵詞,概括文本的中心語(yǔ)義。因此,我們探索了一套標簽生成流程,其中除了應用了已有的信息抽取技術(shù)之外,還將醫療知識圖譜結構,實(shí)體顯著(zhù)性判斷,concept抽取融入模型,實(shí)現業(yè)務(wù)增長(cháng)。

  關(guān)于標簽生成,優(yōu)化的方法大致有兩種思路,第一種是在擁有一個(gè)較為完備的知識圖譜后,如何使用知識圖譜去指導標簽抽取過(guò)程保持語(yǔ)義上的一致。舉個(gè)栗子,比如通過(guò)詞分布的分析,某篇文章的主題被定為在“婦科”相關(guān)疾病上,那么“骨科”的實(shí)體詞就會(huì )被避免作為標簽被抽出。這種思路在業(yè)界多以L(fǎng)DA的無(wú)監督打標簽算法為主,利用知識表示向量、知識圖譜結構或者其他統計信息對LDA模型進(jìn)行改進(jìn),輸出的結果為原文出現過(guò)的實(shí)體詞,以下我們將它稱(chēng)之為主題語(yǔ)義連貫的詞分布標簽方法;

  另一種思路是在知識圖譜上做文章,比如專(zhuān)業(yè)的醫學(xué)知識圖譜上的實(shí)體詞夠精確,但有時(shí)由于詞本身的含義不夠泛化,并不適用于文章的表示,舉個(gè)栗子,比如“HP”、“胃鏡”、“三聯(lián)療法”這幾個(gè)詞的確貼合消化內科的主題,但是它沒(méi)有“幽門(mén)螺桿菌的治療方法”這樣更加泛化的標簽詞來(lái)的直觀(guān),后者包含了更多的信息量,且更具可解釋性。這方向需要結合更多的NLP技術(shù),包括在業(yè)務(wù)場(chǎng)景中挖掘優(yōu)質(zhì)的concept短語(yǔ),構建concept短語(yǔ)與實(shí)體詞的taxonomy,利用文本子圖中心度測量、隨機游走路徑、詞頻共現等做encoding,以L(fǎng)DA作為抽取器完成標簽工作,以下我們將它為Concept挖掘的標簽方法。

  對這兩種思路,我們調研了已有的相關(guān)研究,利用醫療知識圖譜和醫學(xué)垂直領(lǐng)域業(yè)務(wù)數據做了標簽生成的嘗試。

  主題語(yǔ)義連貫的詞分布主題模型

  《Incorporating Knowledge Graph Embeddings into Topic Modeling》

  概率主題模型可用于從文檔集合中提取低維主題。然而,以往的模型往往產(chǎn)生無(wú)法解釋的主題。近年來(lái),已有許多基于知識的主題模型被提出,但它們不能很好的處理知識圖中的三元組,大部分以must-link形式,或直接利用圖譜中的上層概念,無(wú)法在向量空間中量化。本文將知識表示嵌入到到LDA中,將潛在的Dirichlet分配(一種廣泛使用的主題模型)與實(shí)體向量編碼的知識相結合,來(lái)提高了主題語(yǔ)義的一致性和連貫性。本文主要在兩個(gè)以往研究(CI-LDA和Corr-LDA)上做了改進(jìn),上圖為linkKGLDA,下圖為corrKGLDA:

  

  兩個(gè)模型的不同之處在于,前者為條件獨立,后者為條件相關(guān)。具體的改進(jìn)如下:

  

  

  由于一些知識表示(TransE)是unit sphere,因此使用von Mises Fisher(VMF)分布對其進(jìn)行建模。vmf分布被廣泛用于模擬此類(lèi)定向數據。此外,使用vmf分布代替多元高斯分布,可以更有效地進(jìn)行推斷。與傳統LDA模型相比,增加一組參數:(μk, κk) ,主題k的vMF分布;以及edm,即文檔中實(shí)體的知識表示向量。

  實(shí)現Concept挖掘的標簽方法

  目前的大多數concept標簽方案,多是基于一定的統計數據,如:詞對共現頻數,詞對覆蓋率等。這些方法依賴(lài)業(yè)務(wù)場(chǎng)景下的query log,或者也可利用知識圖譜結構進(jìn)行層次聚類(lèi),中心化,路徑預測等方式進(jìn)行。下面將一一介紹相關(guān)研究?!禛raph-Sparse LDA: A Topic Model with Structured Sparsity》本文引入了圖稀疏LDA,這是一種分層主題模型,它使用單詞之間關(guān)系的知識(例如:本體編碼)。在模型中,主題被一些潛在的概念詞概括,這些潛在概念詞來(lái)自觀(guān)察詞在本體中的圖。GS-LDA在標準LDA模型中引入了一個(gè)額外的層次結構層:主題不是分布在觀(guān)察到的詞上,而是分布在概念詞上,然后通過(guò)由詞匯結構通知的噪聲過(guò)程生成觀(guān)察到的詞。

  

  例如上圖所示,“癲癇”是一個(gè)很好的概念詞,可以概括出子類(lèi)癲癇。如果患者患有癲癇也可以解釋“中樞神經(jīng)系統紊亂”甚至“疾病”。利用詞典用的詞或者實(shí)體總結文本時(shí),通常都非常具體,而使用概念詞總結一段文本,不僅可以說(shuō)明具體的語(yǔ)義,同時(shí)能挖掘到更上層或者相似主題的語(yǔ)義。例如:”抗病毒藥物”和”抗逆轉錄病毒”,一個(gè)詞和它的鄰居詞,可以被認為產(chǎn)生自一個(gè)核心概念。Graph-Sparse LDA模型假設一個(gè)主題有一組稀疏的概念詞組成,或是后代,或是祖先。最后定義如下過(guò)程:

  

  推導了一個(gè)B、B-、A、A-和P(以及添加和刪除主題)的 blocked-Gibbs sampler。然而,單是吉布斯抽樣并不能使主題概念詞矩陣中的稀疏性足夠快?;旌纤俣群苈?,因為阻塞的吉布斯取樣器設置Akw~=0的唯一時(shí)間是沒(méi)有w~計數分配給任何文檔中的主題K時(shí)。當有海量文檔時(shí),不太可能達到零計數,采樣器稀疏主題概念詞矩陣A的速度會(huì )很慢。因此本文引入了一個(gè)MH procedure,通過(guò)在A(yíng)和P上的 joint moves,鼓勵主題概念詞矩陣A向更大稀疏的方向移動(dòng)。分布如下:

  

  首先,對A’進(jìn)行智能分割合并移動(dòng)。其次,試圖通過(guò)提出一個(gè)P’來(lái)保持似然函數盡可能恒定:AP=A’P’。這樣,先驗p(A)和p(P)將對移動(dòng)產(chǎn)生很大的影響?!禛rounding Topic Models with Knowledge Bases》這篇工作認為盡管最近的研究試圖利用各種知識源來(lái)改進(jìn)主題建模,但它們要么承擔著(zhù)僅將主題表示為單詞或短語(yǔ)分布,要么通過(guò)將主題與預先定義的知識庫(知識庫)實(shí)體進(jìn)行*敏*感*詞*的綁定,建立主題模型,犧牲了主題建模的靈活性。因此提出了一種基于taxnomy層次結構隨機游走特征的LDA,目的在于將taxnomy的語(yǔ)義和結構化特征全部考慮進(jìn)來(lái)。

  

  

  與以往LDA不同的是,模型中加入了四個(gè)新的變量,其中rdj代表隨機游走路徑,edj代表taxonomy中的概念,mdj代表文檔中的實(shí)體,ydl為單詞index。從根節點(diǎn)頂層概念詞c0開(kāi)始,通過(guò)隨機游走篩選子節點(diǎn)。過(guò)程結束直到到達葉子節點(diǎn)。因此這個(gè)隨機游走給每一個(gè)entity(概念)分配了一個(gè)從根到葉子的路徑?;谥黝}k,可以計算到達每個(gè)實(shí)體的隨機行走的概率,從而獲得主題k下實(shí)體的分布。同樣,對于每個(gè)類(lèi)別節點(diǎn)c,可以計算一個(gè)概率kc,表示c被包含在隨機行走路徑中的可能性。除了隨機游走得到的結構特征,本文同樣利用了維基百科的page數據,得到實(shí)體,單詞,概念之間的共現頻數,作為先驗信息。大文本語(yǔ)料庫和知識庫的推理是復雜的,為了保證實(shí)踐中的效率,文章提出需要注意以下幾個(gè)方面:(a)所有實(shí)體的路徑總數可能非常大,使得隨機游走公式的計算非常龐大。因此,本文使用命名實(shí)體字典為每個(gè)文檔選擇候選實(shí)體,在采樣時(shí)只考慮這些實(shí)體的路徑。實(shí)驗表明,該近似方法對建模性能的影響可以忽略不計,同時(shí)大大降低了采樣的復雜度,使推理成為現實(shí)。(b)通過(guò)修剪低級的具體類(lèi)別節點(diǎn)(其最短的根到節點(diǎn)路徑長(cháng)度超過(guò)閾值),進(jìn)一步減少層次深度。作者發(fā)現這樣一個(gè)“粗糙”的實(shí)體本體足以滿(mǎn)足需求。(c)為了計算路徑的概率,使用動(dòng)態(tài)規劃來(lái)避免冗余計算。(d)初始化實(shí)體和路徑分配以確保良好的起點(diǎn)?!禡odeling Documents by Combining Semantic Concepts with Unsupervised Statistical Learning》以往的研究中,或是只用文檔中的詞來(lái)描述主題,或是在taxnomy中找到合適的concept描述主題,本文雖然只是在傳統LDA模型上做了很小的改動(dòng),但是它可以實(shí)現文檔詞分布和taxnomy concept共存的主題表達形式。將文檔中的所有單詞(不僅僅是實(shí)體)映射到一組本體概念上,學(xué)習單詞和概念的概率模型,并且使用完全無(wú)監督的方法,而無(wú)需任何監督標記。

  

  將把這種模型稱(chēng)為概念模型。在概念模型中,屬于概念的詞由人類(lèi)先驗地(例如,作為本體的一部分)定義,并且僅限于(通常)總體詞匯的一小部分。相反,在主題模型中,詞匯表中的所有單詞都可以與任何特定主題關(guān)聯(lián),但具有不同的概率。在上面的公式中,概念模型的未知參數是單詞概念概率p(wi|cj)和概念文檔概率p(cj|d)。作者的目標(在主題模型中)是從適當的語(yǔ)料庫中估計這些。例如,注意概率p(cj|d)可以解決前面提到的標記問(wèn)題,因為每個(gè)這樣的分布都告訴我們文檔d表示的概念cj的混合。使用吉布斯抽樣將概念分配給文檔中的單詞,使用與在主題模型相同的抽樣方程,但是有一個(gè)額外的約束,即一個(gè)單詞只能分配給它在本體中關(guān)聯(lián)的概念。除了約束外,學(xué)習算法與主題模型的標準學(xué)習完全相同,最終的結果是語(yǔ)料庫中的每個(gè)詞都被賦予了本體中的一個(gè)概念。反過(guò)來(lái),這些分配可以直接估計上面等式中的某些項。為了估計特定概念cj的p(wi|cj),我們通過(guò)抽樣算法判斷語(yǔ)料庫中有多少單詞可以分配給概念cj,并將這些計數標準化,以得到概率分布p(wi|cj)。為了估計特定文檔d的p(cj|d),計算每個(gè)概念分配給文檔d中單詞的次數,然后再次規范化和平滑計算以獲得p(cj|d)。下表顯示了一組單詞的學(xué)習概率(按概率排序)的例子。

  

  《Unsupervised Graph-based Topic Labelling using DBpedia》這是一個(gè)完全將LDA作為抽取功能組件的模型,topic labeling過(guò)程完全基于聚類(lèi)和圖的中心化操作。

  

  

  可以看到,每個(gè)實(shí)體的語(yǔ)義圖只能表示一種非常寬泛的概念,并不能體現各個(gè)實(shí)體概念之間的關(guān)系,直接作為標簽會(huì )使每個(gè)概念都孤立起來(lái),文本的語(yǔ)義不僅不一致,還會(huì )非常離散。相反本文方法是建立一個(gè)由多個(gè)實(shí)體子圖構成的主題圖,從中可以分析大圖中每個(gè)節點(diǎn)對主題圖的語(yǔ)義中心度貢獻(因此模型的假設前提是:在圖中起重要作用的節點(diǎn)也與*敏*感*詞*概念有重要的語(yǔ)義關(guān)系)。最終從這些語(yǔ)義中心度貢獻高的節點(diǎn)中選擇標簽。本文應用了幾種語(yǔ)義中心性措施:Focused Closeness Centrality,Focused Information Centrality,Focused Betweenness Centrality,來(lái)計算候選標簽的語(yǔ)義中心度?!禣n Conceptual Labeling of a Bag of Words》本文利用了probase來(lái)進(jìn)行concept tagging,與上述的研究不同,他沒(méi)有用到任何主題模型,主要的方法是用信息論的方法來(lái)權衡對詞袋的語(yǔ)義覆蓋度,輸出覆蓋最廣但標簽最少的單詞。

  

  使用MDL(最小長(cháng)度描述原則)作為選擇最好concept的標準,通過(guò)最大限度減少描述長(cháng)度來(lái)實(shí)現當前概念集C的更新。迭代終止時(shí),描述長(cháng)度不能再減少了。由于編碼長(cháng)度在每次迭代時(shí)單調遞減,因此保證了該算法收斂。雖然沒(méi)有用到任何主題模型,但算法仍然可以通過(guò)三種操作(增刪改)和MDL收斂的方式,自動(dòng)的決定主題個(gè)數。前提是需要有海量的上下級概念對頻數。

  實(shí)際工作中的嘗試

  在實(shí)際工作的嘗試中,我們的整體算法流程分為兩部分:核心主題關(guān)鍵詞抽取以及獲取更為抽象的concept短語(yǔ)。符合一定主題的關(guān)鍵詞抽?。涸谠械膌inkKGLDA模型基礎上,除了采用知識表示,還對圖譜之外的詞賦予deepwalk向量,是模型更好的應對圖譜之外的詞。更為抽象的concept短語(yǔ):首先構建基于帖子的知識圖譜,除了利用業(yè)務(wù)詞典,丁香園論壇結構,搭建圖譜上層,中下層圖譜通過(guò)層次主題模型,concept,關(guān)鍵詞抽取進(jìn)行搭建。通過(guò)的concept抽取模型(可參考:醫療健康領(lǐng)域的短文本解析探索),我們從query和帖子標題中抽取到了300萬(wàn)的concept詞語(yǔ),那么如何才能找到一個(gè)帖子真正說(shuō)的主題,并將文本中的最關(guān)鍵主題詞連接到相應的concept上呢,這里我們要借助以下論文中提到的方法:《Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling》由于一篇文章涉及到的實(shí)體多種多樣,但一般會(huì )存在幾個(gè)最關(guān)鍵的實(shí)體,例如:

  

  文中出現了腹瀉,綠便,奶等一系列表述疾病過(guò)程和食物相關(guān)的實(shí)體(可通過(guò)linkKGLDA識別出來(lái)),但中心實(shí)體”腹瀉”和”乳糖酶乳粉”在識別結果中的排序可能并不是top1,這會(huì )使得后續的concept對應工作產(chǎn)生一定的噪音。

  

  本文主要研究實(shí)體對文章的顯著(zhù)程度,通過(guò)結合文章上下文和實(shí)體知識表示(KEE),和Kernel Interaction Model (KIM) 模型,對實(shí)體-文章對進(jìn)行排序,從而得到實(shí)體在文章中的顯著(zhù)程度。實(shí)驗數據利用的是遠監督標注,利用文章和文章標題,以及已有算法(ner,名詞短語(yǔ)抽取,實(shí)體鏈接,linkKGLDA概率等)得到訓練數據?!禔 User-Centered Concept Mining System for Query and Document Understanding at Tencent》本篇文章在tagging docment上的方法有兩種,實(shí)現的前提條件是需要有足夠數量和高質(zhì)量的query log,以及知識圖譜。整個(gè)過(guò)程分為兩種方法:基于概率和基于匹配:

  基于條件概率:

  文章3.1節描述了如何利用抽取到的主題關(guān)鍵詞去對應到一組合適的concept,主要利用的還是主題關(guān)鍵詞上下文與concept的條件概率推理。與《Grounding Topic Models with Knowledge Bases》不同,這種方法可以得到圖譜中不存在,但是搜索中經(jīng)常出現的concept,并且也不需要大量上下位詞的共現頻數。

  

  

  

  

  整個(gè)p(c|d)的計算過(guò)程重點(diǎn)在于第三步,即想要計算p(c|x),必須存在以上下文xj作為子串的概念詞(這樣的概念詞來(lái)自于query log),如:文中提到的概念詞”省油的汽車(chē)”和文檔中”豐田RAV4”的上下文”省油,耐用”。雖然這樣的概念詞在醫療專(zhuān)業(yè)詞匯和搜索中很少見(jiàn),但這實(shí)際上是實(shí)體屬性和概念屬性的一種交集,在沒(méi)有足夠數量和高質(zhì)量的query log的情況下,我們可以采用屬性抽取相關(guān)工作的研究結果。這樣做更有利于做醫療領(lǐng)域的相關(guān)問(wèn)題,當然也可參照之前的歷史文章(taxnomy構建)和上面介紹的《On Conceptual Labeling of a Bag of Words》計算概率值。

  基于匹配:

  1.首先利用GBRank,textRank,word2vec算法,得到一定數量的關(guān)鍵詞(instance)2.利用檢索或者web table找到與instance相關(guān)的概念候選。每一個(gè)concept,用topN搜索結果標題文本信息來(lái)豐富concept表示(tf-idf向量)。4.將concept表示與文檔title tf-idf向量做相似度計算,超過(guò)一定閾值,打相應標簽。

  實(shí)驗對比

  在丁香園論壇帖子的文本數據上,我們應用了前文調研的主題抽取、實(shí)體顯著(zhù)性判斷、短語(yǔ)挖掘、concept召回等方法,所獲得的標簽在主題貼近度和可解釋性上都有顯著(zhù)提高:

  

  總結

  標簽生成任務(wù)雖然在NLP領(lǐng)域非常常見(jiàn),但是想要獲得高質(zhì)量的標簽詞,在推薦、搜索、問(wèn)答等工業(yè)場(chǎng)景下應用,背后其實(shí)集成了眾多NLP基礎工作。標簽生成的上游包含了分詞、命名實(shí)體識別、醫學(xué)概念歸一化、消岐、concept質(zhì)量?jì)?yōu)化等工作。只有穩固的基礎才能把樓蓋得更高。其次,知識圖譜就是模型。合理的圖譜結構、豐富的數據量將決定最終結果的好壞。在產(chǎn)業(yè)界尤其需要關(guān)注實(shí)際業(yè)務(wù)下的知識體系構建,一套知識圖譜并不一定能滿(mǎn)足所有的業(yè)務(wù)線(xiàn),比如在醫學(xué)科普文章下表現良好的圖譜,若應用在考研、招聘類(lèi)的文本下,反而會(huì )因為抽出過(guò)多的醫學(xué)專(zhuān)業(yè)詞匯而偏離主題??梢耘c業(yè)務(wù)部門(mén)協(xié)同補全知識圖譜,或者用一些統計學(xué)方法加以補充。最后,標簽詞并不需要一定作為文本的一種“顯式”的展示方式,作為長(cháng)文本的一種更優(yōu)的結構化數據,它有各種各樣的“隱式”用法,比如作為特征輸入到下游的文本分類(lèi)、標題生成甚至融入到推薦系統策略中,我們會(huì )在今后陸續分享各種有趣的玩兒法。

  可

  能

  喜

  歡

  求關(guān)注 求投喂 拉你進(jìn)高端群哦~

  

  

  參

  考

  文

  獻

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久