亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

搜索引擎優(yōu)化創(chuàng )始人(“搜索引擎核心技術(shù)”的開(kāi)源全文搜索框架及解決辦法!)

優(yōu)采云 發(fā)布時(shí)間: 2022-01-28 18:07

  搜索引擎優(yōu)化創(chuàng )始人(“搜索引擎核心技術(shù)”的開(kāi)源全文搜索框架及解決辦法!)

  什么是“搜索引擎核心技術(shù)”?

  可以用作搜索引擎的技術(shù)太多了;做搜索引擎要解決的問(wèn)題太多了,哪個(gè)才是“核心”?

  最早的搜索引擎是雅虎;最初的搜索引擎是直接抓取網(wǎng)頁(yè),然后利用“全文搜索”技術(shù)返回收錄用戶(hù)查詢(xún)的網(wǎng)頁(yè)鏈接關(guān)鍵詞(現在,現成的開(kāi)源全文搜索框架有這么多很多,您可以自己構建一個(gè)。)

  但是這個(gè)初級“搜索引擎”的問(wèn)題在于它不知道哪個(gè) 文章 更好。

  雅虎也嘗試了一些改進(jìn),比如按詞頻排序。但效果并不好:說(shuō)白了,誰(shuí)提到你要搜索的詞多,就會(huì )先顯示給你——如果你想知道“搜索引擎”是什么,那么文章中提到“ search engine" 50 times "這個(gè)詞的文章應該比只提到一次的文章更符合你的需求。

  然而,這被認為是理所當然的。特別是……如果我想讓我的文章在用戶(hù)在這種搜索引擎中搜索“搜索引擎”時(shí)排名第一,就這樣作弊:

  搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎

  因此,隨著(zhù)互聯(lián)網(wǎng)內容的爆炸式增長(cháng),引擎列出了越來(lái)越多不相關(guān)的垃圾郵件。

  之后有人提到李彥宏的專(zhuān)利:美國專(zhuān)利:5920859

  用于檢索與查詢(xún)索引相關(guān)的文檔的搜索引擎

  這些文件按照超鏈接指向那些文件。文件

  indexer遍歷超文本數據庫,找到超文本信息

  包括超鏈接指向的文檔地址和

  每個(gè)超鏈接的錨文本。信息存儲在一個(gè)倒置的

  index 文件,也可用于計算文檔鏈接向量

  每個(gè)指向特定文檔的超鏈接。輸入查詢(xún)時(shí),

  搜索引擎找到所有收錄文檔的文檔向量

  查詢(xún)其錨文本中的術(shù)語(yǔ)。還計算了一個(gè)查詢(xún)向量,并且

  查詢(xún)向量和每個(gè)文檔鏈接向量的點(diǎn)積是

  計算出來(lái)的。將與特定文檔相關(guān)的點(diǎn)積相加

  確定每個(gè)文檔的相關(guān)性排名。

  簡(jiǎn)單地說(shuō),它根據指向同一文檔的鏈接數對文檔進(jìn)行排序;然后在搜索時(shí)返回排名較高的。

  這很容易理解,就像學(xué)術(shù)文件一樣,越重要、越核心,被引用的次數越多。

  而且,過(guò)去那樣“自作多情”也沒(méi)用。別人說(shuō)好就真的好——這明顯比yahoo plan要高很多。

  但是……每個(gè)做過(guò)站長(cháng)的人都知道什么是“交換鏈接”和“為什么交換鏈接很重要”……然后,就有一門(mén)灰色的科學(xué)叫做“SEO”。

  此外,中國有句古話(huà)叫“高人寡”。

  這句話(huà)是什么意思?就是說(shuō)絕大多數人都是庸俗的,他們更喜歡“酒富貴”,而不是高冷的專(zhuān)業(yè)知識……

  因此,當你搜索“三點(diǎn)透視”時(shí),鏈接最多的往往不是“繪畫(huà)技巧”而是三個(gè)習俗……(我可能已經(jīng)發(fā)現了“你搜索的任何女孩都會(huì )顯示黃*敏*感*詞*片”背后的真相...)

  你看,這也行不通。

  至少,截至第七屆WWW大會(huì ),與PageRank的差距是巨大的。

  ———————————————————————————

  有人認為,谷歌的創(chuàng )始人佩奇和布林在 1998 年國際互聯(lián)網(wǎng)大會(huì )上聽(tīng)到了李彥宏的演講,受到啟發(fā),申請了自己的頁(yè)面排名算法專(zhuān)利。

  然而,實(shí)際上,第七屆國際互聯(lián)網(wǎng)大會(huì )于1998年4月14日至18日召開(kāi);而page rank專(zhuān)利是在1998年1月申請的——看來(lái)Page和Brin也發(fā)明了時(shí)間機器,就是不知道為什么他們沒(méi)有為時(shí)間機器申請專(zhuān)利。

  在這樣的故事中,佩奇和布林總是被形容為“坐在第七個(gè)www會(huì )場(chǎng)聽(tīng)李彥宏講課的兩個(gè)傻孩子”,聽(tīng)完李彥宏的教誨后,他們相當好學(xué),也有上進(jìn)心向李彥宏求教。

  但實(shí)際上,佩奇和布林才是第七屆www大會(huì )的主角。

  繼佩奇和布林的開(kāi)創(chuàng )性論文之后,谷歌團隊又有哪些經(jīng)典作品進(jìn)入了萬(wàn)維網(wǎng)的視野?

  首屆首爾測試時(shí)間獎?dòng)?2015 年授予谷歌創(chuàng )始人拉里佩奇和謝爾蓋布林,以表彰他們在 1998 年 Web 搜索引擎第七屆 WWW 大會(huì )上發(fā)表的論文“*敏*感*詞*超文本剖析”。

  事實(shí)上,佩奇和布林當時(shí)問(wèn)李彥宏的就是“如何將搜索引擎商業(yè)化”的問(wèn)題——一點(diǎn)社交經(jīng)驗可能會(huì )讓你微笑:這顯然是在測試潛在的競爭對手是否有任何商業(yè)計劃。

  ———————————————————————————

  如前所述,布林和佩奇是第七屆互聯(lián)網(wǎng)大會(huì )的主角。

  原因是他們在這次會(huì )議上宣讀了一篇文章文章,這里是一個(gè)比較粗略的中文翻譯:

  大型超文本 Web 搜索引擎剖析

  我們可以看到,在這個(gè)文章中,他們揭示了google搜索引擎的整體結構,包括PageRank算法的基本原理!

  這是互聯(lián)網(wǎng)歷史上具有里程碑意義的時(shí)刻;說(shuō)這是人類(lèi)歷史上的一個(gè)關(guān)鍵時(shí)刻未免有些夸張。

  ——不知道說(shuō)“第7屆www大會(huì ),佩奇和布林聽(tīng)李彥宏講課”的人是不是在裝忠誠謙遜的李彥宏。不過(guò)大家都知道,在第7屆www大會(huì )上,李彥宏一定是看到了佩奇和布林仿佛明月般照亮夜空的那一刻,為參會(huì )者掀起了“月星稀有”。

  這是頁(yè)面排名專(zhuān)利內容:美國專(zhuān)利:6285999

  一種方法將重要性等級分配給鏈接數據庫中的節點(diǎn),例如

  任何收錄引文的文檔數據庫、萬(wàn)維網(wǎng)或任何

  其他超媒體數據庫。計算分配給文檔的排名

  從引用它的文件的行列中。另外,文檔的等級

  由一個(gè)常數計算得出,該常數表示瀏覽器出現的概率

  通過(guò)數據庫會(huì )隨機跳轉到文檔。方法是

  在增強搜索引擎結果的性能方面特別有用

  對于超媒體數據庫,例如萬(wàn)維網(wǎng),其文檔具有

  質(zhì)量差異很大。

  它的想法是首先估計鏈接數據庫中鏈接的“重要性級別”;然后用鏈接本身的重要性來(lái)估計它所指向的文章的質(zhì)量——這也很容易理解,被愛(ài)因斯坦引用的文章肯定比我引用的那個(gè)更可靠。

  同樣的,一個(gè)網(wǎng)站越可靠、越認真,它所鏈接的文章的質(zhì)量就越高:反之亦然,只要和別人交換鏈接,垃圾郵件越多網(wǎng)站交換鏈接,您的估值越低。

  不僅。知識的生產(chǎn)總是從某一點(diǎn)開(kāi)始,然后以星狀輻射。

  因此,例如對于TCP這個(gè)詞,最權威的網(wǎng)站是RFC;RFC是純文本,不鏈接任何場(chǎng)外文檔;但是,世界上所有關(guān)于 TCP 的權威 文章 都必須引用 RFC 。

  同樣,當互聯(lián)網(wǎng)上出現一個(gè)熱點(diǎn)時(shí),這個(gè)熱點(diǎn)往往是由一個(gè)或幾個(gè)文章/videos觸發(fā)的;那么,位于源頭的文章/videos被他人引用和傳播……引用者/擴散者很可能會(huì )留下原創(chuàng )出處的鏈接(其實(shí)“轉載一定要注明出處”是最基本的互聯(lián)網(wǎng)道德要求);分析這些鏈接的引用關(guān)系可以識別出處。

  這種“在互聯(lián)網(wǎng)上的分布”是極其難以作弊的——至少,依靠不夠大的個(gè)人或組織是不可能深刻影響互聯(lián)網(wǎng)宏觀(guān)結構的。

  然后,分析鏈接的重要性,分析鏈接之間的引用關(guān)系,找出“知識中心點(diǎn)”或“來(lái)源”;它的文章必須是最權威的,最適合用戶(hù)需求的。

  更上一層樓,有的轉發(fā)者知名度高,有的擅長(cháng)從淺到深的科普,有的轉發(fā)者可以讓枯燥的事情變得有趣……除了引用更權威的資料外,還成為重要的轉發(fā)來(lái)源和讓自己成為“次權威”——似乎很少有人能看懂相對論/量子論,但大家都趕上了霍金的《時(shí)間簡(jiǎn)史》:這些作品當然也應該上熱搜結果。

  PageRank就是這樣一種“分析互聯(lián)網(wǎng)鏈接趨勢,找到關(guān)鍵節點(diǎn)并對其進(jìn)行評分”的算法。

  因此,佩奇和布林聲稱(chēng)他們“給互聯(lián)網(wǎng)帶來(lái)了秩序”并不謙虛。

 ?。ú贿^(guò),個(gè)人觀(guān)點(diǎn):這會(huì )不會(huì )導致“馬太效應”,進(jìn)而促成目前互聯(lián)網(wǎng)“巨人通吃”的現狀?)

  盲人可以看到這個(gè)想法的含金量。

  當然,專(zhuān)利說(shuō)的很簡(jiǎn)短。例如,程序如何自動(dòng)找出哪個(gè) 網(wǎng)站 是重要的?甚至,如何讓程序自動(dòng)發(fā)現,對于某個(gè)關(guān)鍵字,一個(gè)網(wǎng)站 比另一個(gè)網(wǎng)站 更重要?這里需要天才利用數學(xué)知識來(lái)尋找算法(PageRank算法本身有數學(xué)證明,有興趣可以搜索一下)。

  另外可以看出,僅這兩個(gè)專(zhuān)利列出的參考文獻中,就收錄了很多來(lái)自1965、1978、1988、1996的研究:do Academia是這樣的,開(kāi)始從頭開(kāi)始并獨立支持少數領(lǐng)域;更重要的是,雅虎從 1994 年就已經(jīng)存在。雖然它還沒(méi)有完全解決問(wèn)題,但雅虎并不是一個(gè)平庸無(wú)能的人:即使每個(gè)人都“受過(guò)”雅虎的啟發(fā),但到了該把它變成魚(yú)的時(shí)候了肚皮,好像不太禮貌。

  我這里只關(guān)注“返回內容排名”的研究;但是要快速分析互聯(lián)網(wǎng)上近乎無(wú)限多的鏈接,近乎實(shí)時(shí)地更新他們的PageRank,同時(shí)響應數十億人的查詢(xún)……要解決的問(wèn)題是More,絕對不是可以在一瞬間完成的事情。

  事實(shí)上,佩奇和布林早在 1996 年就建立了一個(gè)名為 BackRub 的搜索引擎,并將其放在斯坦福大學(xué)的服務(wù)器上。BackRub因其搜索質(zhì)量超越了當時(shí)所有的商業(yè)搜索引擎,在校園內深受學(xué)生歡迎;但是因為太占帶寬,最后還是被斯坦福大學(xué)從服務(wù)器上拉下來(lái)了。

  1997年,搜索引擎名稱(chēng)改為google;1998年9月成立——眾所周知,這兩個(gè)窮鬼在車(chē)庫里做事,使用的是Tao的舊服務(wù)器: 為了在舊服務(wù)器上運行g(shù)oogle,他們開(kāi)始分布式MapReduce;為了方便海量數據的索引存儲,他們開(kāi)始了GFS和BigTable(后來(lái)發(fā)展成為近幾年的熱點(diǎn)之一,NoSQL數據庫);終于,這三項技術(shù)引爆了方興未艾?!按髷祿锩?。

  與這三種“基石”技術(shù)相比,頁(yè)面排名并不是那么重要。

  谷歌*敏*感*詞*:世界上最大的搜索引擎出自車(chē)庫

  你看,我太忙了,我真的沒(méi)有時(shí)間去復制曲高和寡婦在1997年2月申請的專(zhuān)利。

  ———————————————————————————

  綜上所述,可以看出“搜索引擎”本身的門(mén)檻并不高;尤其是現在有很多全文搜索引擎,比如lucene;知乎也有很多“python寫(xiě)爬蟲(chóng)”教程——爬取數據并扔到全文搜索引擎,你可以在自己的電腦上搭建一個(gè)搜索引擎。

  如果你的要求不需要像谷歌那么高,不難找到一套適合你的現成開(kāi)源解決方案:

  下載、部署,您自己的搜索引擎上線(xiàn)。

  如果追求更高點(diǎn),PageRank、BigTable、MapReduce等論文也是公開(kāi)的,也有開(kāi)源實(shí)現(如gluster、hadoop等),還可以借助google獲得200x與十年前相比,現在的硬件一團糟。

  那么為什么世界上沒(méi)有一大堆搜索引擎呢?

  因為:

  1、Google 發(fā)展太快了。沒(méi)有人能跟得上它。

  盡管google已經(jīng)公布了bigtable、mapreduce等三大法寶,但最成功、最知名的replica依然是yahoo支持的開(kāi)源項目Hadoop;但 Hadoop 的執行效率與 google 還是相差甚遠。

  更重要的是,現在的谷歌不僅長(cháng)期依賴(lài)pagerank算法——他們的TPU不僅僅是為圍棋AI設計的。

  2、先發(fā)優(yōu)勢與成本門(mén)檻

  即使你可以跟上谷歌,搜索引擎也有很多用戶(hù)粘性。

  然后,互聯(lián)網(wǎng)現在太大了。要實(shí)現谷歌的索引完善和服務(wù)能力,所需的服務(wù)器數量和存儲空間是非??植赖?;這么大的投資未必(甚至絕不能)能夠搶占到谷歌的市場(chǎng)……

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久