搜索引擎“猜”透人心,NLP屆的半壁江山
優(yōu)采云 發(fā)布時(shí)間: 2021-03-31 03:11搜索引擎“猜”透人心,NLP屆的半壁江山
作者|*敏*感*詞*
編輯|
如果您在上搜索“如何在沒(méi)有道路的山上停車(chē)”,那么會(huì )告訴您什么?
如果是兩年前,該網(wǎng)頁(yè)可能會(huì )教您如何停車(chē)或如何在山上停車(chē),因為它檢測到關(guān)鍵字“ ”和“ ”而忽略了看似微不足道的小詞“ no”。
但是現在,它可以在頁(yè)面上最顯眼的位置,直接向您提供您最關(guān)心的問(wèn)題:如何在沒(méi)有車(chē)道的山坡上停車(chē)。因為它不僅學(xué)會(huì )找到這些關(guān)鍵詞,而且學(xué)會(huì )理解這些詞之間的聯(lián)系。
在搜索引擎“猜測”人們心中的背后,是的BERT模型逐漸開(kāi)始理解人類(lèi)語(yǔ)言。
今年10月,在“開(kāi)”活動(dòng)上介紹了AI領(lǐng)域的數千個(gè)新應用程序,包括BERT模型的新開(kāi)發(fā):它已應用于上幾乎所有英語(yǔ)查詢(xún),以及應用范圍也已擴展到70多種語(yǔ)言,并且在去年的這個(gè)時(shí)候,在英語(yǔ)查詢(xún)中使用BERT的比例沒(méi)有超過(guò)10%。
使用率提高了十倍,發(fā)現的語(yǔ)言數量已增加到70多種...自2018年問(wèn)世以來(lái),硬技術(shù)賦予BERT``超人''語(yǔ)言理解能力, NLP會(huì )話(huà)(自然語(yǔ)言處理,以下簡(jiǎn)稱(chēng)NLP)具有什么樣的“地震狀態(tài)”?
今天,讓與您一起走過(guò)BERT在過(guò)去兩年中的先進(jìn)之路,并了解NLP行業(yè)目前的一半。
一、出生并上升,是BERT發(fā)展的歷史
伯特最杰出的“榮耀時(shí)刻”是在2018年:它主導了機器理解測試,席卷了其他10項NLP測試,并實(shí)現了“在各個(gè)方面都超越人類(lèi)”的成就。
這是業(yè)界公認的機器閱讀理解頂級測試,主要檢查EM和F1這兩個(gè)指標。
EM是指模型答案與標準答案之間的匹配程度; F1表示模型的召回率和準確性。在這兩個(gè)類(lèi)別中,BERT分別得分8 7. 433和9 3. 160,超過(guò)了人類(lèi)的8 2. 3和9 1. 2。許多研究人員認為這是自然語(yǔ)言領(lǐng)域的一項重大成就。 ,將改變NLP研究的方式。
為什么BERT這么好?
然后我們首先要看一下模型如何“學(xué)習語(yǔ)言”。
模型與人類(lèi)相同。在說(shuō)和讀之前,它還需要記住單詞并學(xué)習語(yǔ)法,但是與其通過(guò)上下文理解單詞的含義,不如將單詞轉換為可以計算的向量或矩陣,然后通過(guò)神經(jīng)。網(wǎng)絡(luò )計算功能權重學(xué)習“語(yǔ)法”以“理解”人類(lèi)語(yǔ)言。
BERT于2018年出生。全名來(lái)自。從名稱(chēng)的角度來(lái)看,BERT是基于模型的雙向編碼器。
該模型起源于機器翻譯領(lǐng)域,放棄了遞歸神經(jīng)網(wǎng)絡(luò )(RNN)中的遞歸網(wǎng)絡(luò )結構方法,使用注意力機制構造每個(gè)單詞的特征,并通過(guò)分析交互來(lái)獲取每個(gè)單詞的信息字之間的特征權重。
基于注意力的模型不僅關(guān)注單個(gè)單詞,而且關(guān)注單詞之間的關(guān)系,這比簡(jiǎn)單提取單詞向量更“容易接受”。
在解決了“記住單詞”的問(wèn)題之后,下一步就是學(xué)習語(yǔ)法。
BERT名稱(chēng)中嵌入的雙向代碼是其答案。
如下圖所示,GPT模型從左到右使用,即通過(guò)分析上述內容獲得了下一個(gè)單詞的特征權重,但以下內容無(wú)法驗證前一個(gè)單詞的含義,并且ELMo使用兩個(gè)經(jīng)過(guò)獨立訓練的方向結果進(jìn)行級聯(lián)以生成下游任務(wù)特征。
▲B(niǎo)ERT與GPT和ELMo的比較
但是BERT不僅可以同時(shí)執行雙向預測,還可以通過(guò)上下文進(jìn)行全方位預測。
在BERT出現之前,NLP大樓上方有兩個(gè)烏云:標記數據集不足和結果準確性低。
前者BERT是通過(guò)在無(wú)標簽數據集中進(jìn)行無(wú)監督學(xué)習來(lái)解決的;后者,則通過(guò)加深層數和雙向編碼來(lái)完善BERT。
他出生時(shí)就有重大事件的“記錄”。兩年的實(shí)際戰斗經(jīng)歷了無(wú)數風(fēng)吹雨打。當今的BERT不僅是學(xué)術(shù)界的一個(gè)里程碑,而且在廣闊的實(shí)際應用領(lǐng)域中還有許多工作要做。
二、兩年來(lái),BERT的悠久歷史
要在網(wǎng)絡(luò )搜索中稱(chēng)呼風(fēng)吹雨打,的真正能力當然比BERT更重要。它用于搜索引擎優(yōu)化,反垃圾郵件和著(zhù)名的網(wǎng)頁(yè)排名算法...每個(gè)小模塊都有其自己的作用。喬布斯是搜索的“最強大的大腦”。
BERT不到一歲,即2019年10月15日,他正式加入搜索的算法頭腦,在美國接受了10%的英語(yǔ)查詢(xún)。
“深層網(wǎng)絡(luò )”和“雙通道” BERT不僅可以“猜測*敏*感*詞*”,而且還可以識別錯誤。
根據的統計信息,每十次搜索中都會(huì )有一個(gè)拼寫(xiě)錯誤。如下圖所示,用戶(hù)想要搜索但輸入錯誤,但是BERT可以繞過(guò)此錯誤并直接識別用戶(hù)的意圖并提供餐廳的位置。
兩個(gè)月后,BERT開(kāi)始用70多種語(yǔ)言進(jìn)行搜索任務(wù)。
一年后,BERT在搜索中使用了將近100%。憑借其出色的理解能力,它取代了上一代的查詢(xún)工具,成為搜索大腦的王牌。
這種“高分高能量”性能的背后是BERT模型的無(wú)聲改??進(jìn)。
2019年12月,通過(guò)更有效地分配模型容量并簡(jiǎn)化隱藏層中的參數和冗余檢查,BERT減少了計算量,同時(shí)提高了性能并將其升級到更輕的重量。
2020年3月,受 (GAN)的啟發(fā),BERT改進(jìn)了預訓練方法并減少了模型訓練的時(shí)間,從而可以通過(guò)較少的計算獲得相同的文本識別效果,并得出模型。
2020年8月,BERT中引入了多語(yǔ)言嵌入式模型,以實(shí)現不同語(yǔ)言之間的相互翻譯,從而使用戶(hù)可以在更大范圍內搜索有效信息。
2020年10月,BERT致力于減少模型本身的“偏見(jiàn)”,使用模型評估指標來(lái)調整預訓練模型中的參數,以減少搜索過(guò)程中可能發(fā)生的性別歧視。
從10%到100%,天生具有滿(mǎn)分的BERT并沒(méi)有為自己的桂冠而休息。相反,它不斷地適應時(shí)代的需求,一次又一次地更新自身,并使用更少的培訓時(shí)間和更少的計算來(lái)獲得更好的結果。為了獲得卓越的性能。
今年10月,宣布了BERT在搜索領(lǐng)域的表現。除了擴大應用范圍和適用語(yǔ)言之外,BERT還將的學(xué)術(shù)搜索準確性提高了7%。
還表示,將來(lái),它將使用BERT模型繼續完善搜索算法,擴大搜索范圍,并提高搜索的準確性。
三、 BERT揭開(kāi)序幕,一百種思想流派抗衡
BERT的貢獻遠不止是提高搜索性能或獲得“機器超越人類(lèi)”的稱(chēng)號,而是作為一種高度通用的通用模型,為將來(lái)的NLP會(huì )議打開(kāi)了光明的研究道路。
▲網(wǎng)絡(luò )
以BERT為分界線(xiàn),NLP字段可以分為動(dòng)態(tài)表示模型()時(shí)代和深度動(dòng)態(tài)表示模型(Deep)時(shí)代。在上一個(gè)時(shí)代,缺少帶注釋的數據集和單向編碼器限制了模型的可用性??蓴U展性;在后一個(gè)時(shí)代,根據BERT開(kāi)發(fā)的方法,“分支”已成為NLP類(lèi)的一半。
改進(jìn)BERT的方法有數千種,大致可以分為兩個(gè)方向:一種是垂直方向,通過(guò)改進(jìn)圖層的結構或調整參數,可以使用更輕量級的模型,例如前面提到的模型。 , 可以獲得;這是垂直方向。通過(guò)在BERT模型中擴展其他算法模型,可以擴展BERT模型的功能,例如受GAN影響而誕生的模型。
當BERT逐漸發(fā)揮影響力并實(shí)現應用程序著(zhù)陸時(shí),NLP類(lèi)的新秀也會(huì )輪流出現。
2019年出現的GPT-3和2020年出現的GPT-3是打破圍城的兩名將軍。
在BERT的基礎上,添加了一種自動(dòng)回歸的預訓練方法,獲得了一個(gè)能夠很好地理解語(yǔ)義和生成語(yǔ)義的模型,彌補了BERT模型在長(cháng)文本閱讀和文本生成方面的不足。
GPT-3更具侵略性。作為其第三代深度語(yǔ)言學(xué)習模型,它具有1,705億個(gè)參數,是上一代模型GPT-2的100倍。經(jīng)過(guò)5000億個(gè)單詞的預訓練,無(wú)需進(jìn)行微調即可在多個(gè)NLP基準測試中獲得最高分數。
同時(shí),GPT-3還解決了BERT模型的兩個(gè)問(wèn)題:對標記數據的依賴(lài)和對訓練數據集的過(guò)度擬合,旨在成為更通用的NLP模型。
GPT-3基于更大的數據集和更多參數,不僅可以搜索網(wǎng)絡(luò ),還可以自動(dòng)回答問(wèn)題,聊天,寫(xiě)小說(shuō),寫(xiě)分數甚至編程。
在當前的調試階段,GPT-3還暴露出許多問(wèn)題,包括仇恨言論,錯誤信息等,因此即使使用了NLP行業(yè)中最強大的反響,它目前也無(wú)法像其前身一樣降落BERT。應用為人類(lèi)帶來(lái)價(jià)值。
結論:在NLP的新時(shí)代,BERT并不缺
自然語(yǔ)言處理(NLP)領(lǐng)域中有許多細分:文本分類(lèi),機器翻譯,閱讀理解,機器人聊天...每個(gè)子主題都對應于人工智能在現實(shí)生活中的實(shí)際應用:網(wǎng)絡(luò )搜索,自動(dòng)推薦,智能客戶(hù)服務(wù)...
如何使人工智能真正地進(jìn)入我們的生活,首先要解決的問(wèn)題是如何使機器真正地了解我們想要的東西。
BERT使我們邁出了一大步?;谧晕冶O督學(xué)習來(lái)處理未標記的數據,然后通過(guò)雙向編碼理解其含義,BERT打破了以前需要對訓練數據進(jìn)行標記的“魔咒”,并充分利用了大量未標記的數據。是NLP會(huì )議中的一個(gè)里程碑式的創(chuàng )新。
從誕生,發(fā)展到一系列語(yǔ)言模型的推導,已經(jīng)兩歲的BERT花費時(shí)間證明了其巨大的潛力。也許在將來(lái),它將被集成到新的應用程序中,并給我們帶來(lái)意想不到的AI革命。
參考資料: AI博客Rock,