大數據在搜索引擎效果測試和優(yōu)化中有哪些應用價(jià)值
優(yōu)采云 發(fā)布時(shí)間: 2021-05-28 01:28
大數據在搜索引擎效果測試和優(yōu)化中有哪些應用價(jià)值
智能準確的大數據有助于百度搜索優(yōu)化
IT168凈12-31 14:04
近年來(lái),大數據已成為信息技術(shù)最關(guān)注的熱點(diǎn)之一。各行各業(yè)都在討論如何使用大數據創(chuàng )造商業(yè)價(jià)值。一段時(shí)間以來(lái),人們意見(jiàn)分歧,各種大數據應用程序相繼出現。作為全球最大的中文搜索引擎,百度每天響應來(lái)自138個(gè)國家和地區的60億次搜索請求。這是一家擁有大數據的公司。在數據為王的信息時(shí)代,百度搜索如何應用大數據?大數據在搜索引擎性能測試和優(yōu)化中的應用價(jià)值是什么?
在百度的第二個(gè)開(kāi)放研究計劃中,南開(kāi)大學(xué)的阮興華和張建中共同承擔了IT主題研究項目“機器學(xué)習在搜索引擎效果測試和改進(jìn)中的應用”。據了解,該項目是百度利用大數據分析搜索引擎缺陷,優(yōu)化搜索引擎的成功案例之一。
根據阮興華,參加“機器學(xué)習在搜索引擎效果測試和改進(jìn)中的應用”項目的成員主要是張欣,李卓,張敏等,以及*敏*感*詞*張?chǎng)?,南開(kāi)朱小溪大學(xué),他和南開(kāi)大學(xué)的張建中教授作為雙方之間的接口,負責該項目的實(shí)施。
“ Internet上的網(wǎng)頁(yè)數量眾多,內容樣式各異,少數網(wǎng)頁(yè)仍存在內容欺騙,并且用戶(hù)的需求以不同的方式表達。因此,不可避免地要進(jìn)行一些搜索結果不好,不能滿(mǎn)足用戶(hù)需求,在這種情況下,我們將其稱(chēng)為不良案例或產(chǎn)品缺陷,我們的項目是通過(guò)機器學(xué)習方法自動(dòng)或*敏*感*詞*地挖掘不良案例,然后促進(jìn)產(chǎn)品的有針對性的改進(jìn);其次,通過(guò)對海量數據的分析,找到了改進(jìn)產(chǎn)品的想法和解決方案,并促進(jìn)了改進(jìn)產(chǎn)品效果和體驗的實(shí)現?!痹谡劦巾椖康钠瘘c(diǎn)時(shí),阮興華說(shuō),搜索引擎并不能為每個(gè)查詢(xún)提供最佳結果,在某些不良情況下,用戶(hù)需求無(wú)法滿(mǎn)足,體驗也不佳,他們需要分析并找到這些問(wèn)題?;诖罅克阉鲾祿牟涣及咐?,促進(jìn)產(chǎn)品升級和改進(jìn),并使搜索引擎更加準確。
在研究過(guò)程中,他們發(fā)現了多種不良案例,例如沒(méi)有官方網(wǎng)站結果,搜索結果摘要不佳或沒(méi)有摘要,相關(guān)性差,搜索字詞的錯誤糾正等。為此,他們建立了十多個(gè)案例針對大搜索缺陷挖掘模型,建立了“用戶(hù)滿(mǎn)意度挖掘模型”,“可尋址搜索挖掘模型”,“糾錯詞不良案例挖掘模型”以及其他不同類(lèi)型的不良案例挖掘方法。在過(guò)去的一年中,已挖掘出超過(guò)50,000種產(chǎn)品缺陷,有效地促進(jìn)了產(chǎn)品升級和改進(jìn),并成為產(chǎn)品升級決策的重要參考。
例如,當用戶(hù)使用搜索引擎查找某個(gè)URL時(shí),由于查詢(xún)字詞不正確,相關(guān)度排名不正確或相關(guān)性不合理等原因,用戶(hù)想要的URL可能不會(huì )出現在搜索結果中?;蛘咚璧腢RL相對較晚。阮興華和他的團隊所做的部分工作是查找此類(lèi)信息并準確顯示真實(shí)的官方網(wǎng)站。僅這部分工作為產(chǎn)品系列挖掘了大量準確的官方網(wǎng)站數據,從而大大改善了性能。這提高了滿(mǎn)足尋址要求的滿(mǎn)意度,并為用戶(hù)提供了更準確的搜索結果。
“為了使搜索結果更準確,用戶(hù)體驗更好,我們在本項目中通過(guò)數據分析做了很多優(yōu)化工作。例如,用戶(hù)在百度上搜索劉德華。搜索結果不僅在顯示劉德華的相關(guān)信息的同時(shí),在頁(yè)面右側,“其他人搜索”顯示了與劉德華密切相關(guān)的人。更貼切的是,在“相關(guān)搜索”中有與劉德華相關(guān)的各種搜索熱詞。在頁(yè)面底部,我們使用數據分析針對“其他人搜索”和“相關(guān)搜索”區域的擬議改進(jìn)措施,有效地提高了這兩個(gè)區域的點(diǎn)擊率。根據我們的數據統計, “信息百科全書(shū)”“其他人搜索”卡在“進(jìn)出策略?xún)?yōu)化”中,我們的項目研究結果使“其他人搜索”的點(diǎn)擊率提高了1 1. 4%;在優(yōu)化“相關(guān)搜索”結果之后,我們帶來(lái)了約17%的“相關(guān)搜索”結果點(diǎn)擊收入。這些數據充分表明,我們在大數據挖掘中獲得的價(jià)值判斷是正確的,而且對網(wǎng)民需求的分析也更加到位?!?/p>
智能精確的大數據有助于百度搜索優(yōu)化
智能精確的大數據有助于百度搜索優(yōu)化
據報道,“機器學(xué)習在搜索引擎效果測試和改進(jìn)中的應用”項目取得了非常豐碩的成果,這從技術(shù)發(fā)展和人員培訓的角度都具有重要意義。 “該項目取得了9項技術(shù)成果,發(fā)表了論文,獲得了3項相關(guān)專(zhuān)利。其中一項專(zhuān)利也被評為百度一流專(zhuān)利,我們的項目也被授予百度最高質(zhì)量主管。創(chuàng )新獎,這些成就和榮譽(yù)對我們非常有激勵作用?!比钆d華在“機器學(xué)習在搜索引擎性能測試和改進(jìn)中的應用”項目中獲得如此豐碩的成果表示高興。此外,他還指出,參與該項目的兩名實(shí)習生張?chǎng)┖椭鞎躁匾惨淹ㄟ^(guò)學(xué)校招募正式加入,不久將成為其中的一員。此外,通過(guò)該項目,百度與南開(kāi)大學(xué)計算機與控制工程學(xué)院建立了測試課程合作關(guān)系,加深了外界對測試的認識以及百度的質(zhì)量部門(mén),也為校企合作培養人才提供了平臺。 。這種合作的意外收獲。
“一旦在項目中發(fā)現不良案例,我們將對其進(jìn)行分析和分類(lèi)并推廣解決方案。因此,隨著(zhù)項目的進(jìn)展,我們的研究結果將繼續在線(xiàn)并應用于為用戶(hù)提供更準確和智能的搜索服務(wù)及時(shí)”對于研究成果的應用,阮興華感到非常自豪。 “在2013年的一年研究中,我們已經(jīng)積累了一些基于大數據的搜索引擎缺陷分析和產(chǎn)品改進(jìn)方面的積累。將來(lái),我們將進(jìn)一步優(yōu)化不同的缺陷。挖掘模型可以發(fā)現搜索引擎不同維度的缺陷。更全面,更快速,加快產(chǎn)品迭代速度,并允許用戶(hù)使用更智能,更準確的搜索引擎?!?/p>