亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

搜索引擎優(yōu)化創(chuàng )始人(“搜索引擎核心技術(shù)”的開(kāi)源全文搜索框架及解決辦法！)

優(yōu)采云發(fā)布時(shí)間: 2022-01-28 18:07

　　搜索引擎優(yōu)化創(chuàng )始人(“搜索引擎核心技術(shù)”的開(kāi)源全文搜索框架及解決辦法！)

　　什么是“搜索引擎核心技術(shù)”？

　　可以用作搜索引擎的技術(shù)太多了；做搜索引擎要解決的問(wèn)題太多了，哪個(gè)才是“核心”？

　　最早的搜索引擎是雅虎；最初的搜索引擎是直接抓取網(wǎng)頁(yè)，然后利用“全文搜索”技術(shù)返回收錄用戶(hù)查詢(xún)的網(wǎng)頁(yè)鏈接關(guān)鍵詞（現在，現成的開(kāi)源全文搜索框架有這么多很多，您可以自己構建一個(gè)。）

　　但是這個(gè)初級“搜索引擎”的問(wèn)題在于它不知道哪個(gè) 文章更好。

　　雅虎也嘗試了一些改進(jìn)，比如按詞頻排序。但效果并不好：說(shuō)白了，誰(shuí)提到你要搜索的詞多，就會(huì )先顯示給你——如果你想知道“搜索引擎”是什么，那么文章中提到“ search engine" 50 times "這個(gè)詞的文章應該比只提到一次的文章更符合你的需求。

　　然而，這被認為是理所當然的。特別是……如果我想讓我的文章在用戶(hù)在這種搜索引擎中搜索“搜索引擎”時(shí)排名第一，就這樣作弊：

　　搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎

　　因此，隨著(zhù)互聯(lián)網(wǎng)內容的爆炸式增長(cháng)，引擎列出了越來(lái)越多不相關(guān)的垃圾郵件。

　　之后有人提到李彥宏的專(zhuān)利：美國專(zhuān)利：5920859

　　用于檢索與查詢(xún)索引相關(guān)的文檔的搜索引擎

　　這些文件按照超鏈接指向那些文件。文件

　　indexer遍歷超文本數據庫，找到超文本信息

　　包括超鏈接指向的文檔地址和

　　每個(gè)超鏈接的錨文本。信息存儲在一個(gè)倒置的

　　index 文件，也可用于計算文檔鏈接向量

　　每個(gè)指向特定文檔的超鏈接。輸入查詢(xún)時(shí)，

　　搜索引擎找到所有收錄文檔的文檔向量

　　查詢(xún)其錨文本中的術(shù)語(yǔ)。還計算了一個(gè)查詢(xún)向量，并且

　　查詢(xún)向量和每個(gè)文檔鏈接向量的點(diǎn)積是

　　計算出來(lái)的。將與特定文檔相關(guān)的點(diǎn)積相加

　　確定每個(gè)文檔的相關(guān)性排名。

　　簡(jiǎn)單地說(shuō)，它根據指向同一文檔的鏈接數對文檔進(jìn)行排序；然后在搜索時(shí)返回排名較高的。

　　這很容易理解，就像學(xué)術(shù)文件一樣，越重要、越核心，被引用的次數越多。

　　而且，過(guò)去那樣“自作多情”也沒(méi)用。別人說(shuō)好就真的好——這明顯比yahoo plan要高很多。

　　但是……每個(gè)做過(guò)站長(cháng)的人都知道什么是“交換鏈接”和“為什么交換鏈接很重要”……然后，就有一門(mén)灰色的科學(xué)叫做“SEO”。

　　此外，中國有句古話(huà)叫“高人寡”。

　　這句話(huà)是什么意思？就是說(shuō)絕大多數人都是庸俗的，他們更喜歡“酒富貴”，而不是高冷的專(zhuān)業(yè)知識……

　　因此，當你搜索“三點(diǎn)透視”時(shí)，鏈接最多的往往不是“繪畫(huà)技巧”而是三個(gè)習俗……（我可能已經(jīng)發(fā)現了“你搜索的任何女孩都會(huì )顯示黃*敏*感*詞*片”背后的真相...)

　　你看，這也行不通。

　　至少，截至第七屆WWW大會(huì )，與PageRank的差距是巨大的。

　　———————————————————————————

　　有人認為，谷歌的創(chuàng )始人佩奇和布林在 1998 年國際互聯(lián)網(wǎng)大會(huì )上聽(tīng)到了李彥宏的演講，受到啟發(fā)，申請了自己的頁(yè)面排名算法專(zhuān)利。

　　然而，實(shí)際上，第七屆國際互聯(lián)網(wǎng)大會(huì )于1998年4月14日至18日召開(kāi)；而page rank專(zhuān)利是在1998年1月申請的——看來(lái)Page和Brin也發(fā)明了時(shí)間機器，就是不知道為什么他們沒(méi)有為時(shí)間機器申請專(zhuān)利。

　　在這樣的故事中，佩奇和布林總是被形容為“坐在第七個(gè)www會(huì )場(chǎng)聽(tīng)李彥宏講課的兩個(gè)傻孩子”，聽(tīng)完李彥宏的教誨后，他們相當好學(xué)，也有上進(jìn)心向李彥宏求教。

　　但實(shí)際上，佩奇和布林才是第七屆www大會(huì )的主角。

　　繼佩奇和布林的開(kāi)創(chuàng )性論文之后，谷歌團隊又有哪些經(jīng)典作品進(jìn)入了萬(wàn)維網(wǎng)的視野？

　　首屆首爾測試時(shí)間獎?dòng)?2015 年授予谷歌創(chuàng )始人拉里佩奇和謝爾蓋布林，以表彰他們在 1998 年 Web 搜索引擎第七屆 WWW 大會(huì )上發(fā)表的論文“*敏*感*詞*超文本剖析”。

　　事實(shí)上，佩奇和布林當時(shí)問(wèn)李彥宏的就是“如何將搜索引擎商業(yè)化”的問(wèn)題——一點(diǎn)社交經(jīng)驗可能會(huì )讓你微笑：這顯然是在測試潛在的競爭對手是否有任何商業(yè)計劃。

　　———————————————————————————

　　如前所述，布林和佩奇是第七屆互聯(lián)網(wǎng)大會(huì )的主角。

　　原因是他們在這次會(huì )議上宣讀了一篇文章文章，這里是一個(gè)比較粗略的中文翻譯：

　　大型超文本 Web 搜索引擎剖析

　　我們可以看到，在這個(gè)文章中，他們揭示了google搜索引擎的整體結構，包括PageRank算法的基本原理！

　　這是互聯(lián)網(wǎng)歷史上具有里程碑意義的時(shí)刻；說(shuō)這是人類(lèi)歷史上的一個(gè)關(guān)鍵時(shí)刻未免有些夸張。

　　——不知道說(shuō)“第7屆www大會(huì )，佩奇和布林聽(tīng)李彥宏講課”的人是不是在裝忠誠謙遜的李彥宏。不過(guò)大家都知道，在第7屆www大會(huì )上，李彥宏一定是看到了佩奇和布林仿佛明月般照亮夜空的那一刻，為參會(huì )者掀起了“月星稀有”。

　　這是頁(yè)面排名專(zhuān)利內容：美國專(zhuān)利：6285999

　　一種方法將重要性等級分配給鏈接數據庫中的節點(diǎn)，例如

　　任何收錄引文的文檔數據庫、萬(wàn)維網(wǎng)或任何

　　其他超媒體數據庫。計算分配給文檔的排名

　　從引用它的文件的行列中。另外，文檔的等級

　　由一個(gè)常數計算得出，該常數表示瀏覽器出現的概率

　　通過(guò)數據庫會(huì )隨機跳轉到文檔。方法是

　　在增強搜索引擎結果的性能方面特別有用

　　對于超媒體數據庫，例如萬(wàn)維網(wǎng)，其文檔具有

　　質(zhì)量差異很大。

　　它的想法是首先估計鏈接數據庫中鏈接的“重要性級別”；然后用鏈接本身的重要性來(lái)估計它所指向的文章的質(zhì)量——這也很容易理解，被愛(ài)因斯坦引用的文章肯定比我引用的那個(gè)更可靠。

　　同樣的，一個(gè)網(wǎng)站越可靠、越認真，它所鏈接的文章的質(zhì)量就越高：反之亦然，只要和別人交換鏈接，垃圾郵件越多網(wǎng)站交換鏈接，您的估值越低。

　　不僅。知識的生產(chǎn)總是從某一點(diǎn)開(kāi)始，然后以星狀輻射。

　　因此，例如對于TCP這個(gè)詞，最權威的網(wǎng)站是RFC；RFC是純文本，不鏈接任何場(chǎng)外文檔；但是，世界上所有關(guān)于 TCP 的權威文章都必須引用 RFC 。

　　同樣，當互聯(lián)網(wǎng)上出現一個(gè)熱點(diǎn)時(shí)，這個(gè)熱點(diǎn)往往是由一個(gè)或幾個(gè)文章/videos觸發(fā)的；那么，位于源頭的文章/videos被他人引用和傳播……引用者/擴散者很可能會(huì )留下原創(chuàng )出處的鏈接（其實(shí)“轉載一定要注明出處”是最基本的互聯(lián)網(wǎng)道德要求）；分析這些鏈接的引用關(guān)系可以識別出處。

　　這種“在互聯(lián)網(wǎng)上的分布”是極其難以作弊的——至少，依靠不夠大的個(gè)人或組織是不可能深刻影響互聯(lián)網(wǎng)宏觀(guān)結構的。

　　然后，分析鏈接的重要性，分析鏈接之間的引用關(guān)系，找出“知識中心點(diǎn)”或“來(lái)源”；它的文章必須是最權威的，最適合用戶(hù)需求的。

　　更上一層樓，有的轉發(fā)者知名度高，有的擅長(cháng)從淺到深的科普，有的轉發(fā)者可以讓枯燥的事情變得有趣……除了引用更權威的資料外，還成為重要的轉發(fā)來(lái)源和讓自己成為“次權威”——似乎很少有人能看懂相對論/量子論，但大家都趕上了霍金的《時(shí)間簡(jiǎn)史》：這些作品當然也應該上熱搜結果。

　　PageRank就是這樣一種“分析互聯(lián)網(wǎng)鏈接趨勢，找到關(guān)鍵節點(diǎn)并對其進(jìn)行評分”的算法。

　　因此，佩奇和布林聲稱(chēng)他們“給互聯(lián)網(wǎng)帶來(lái)了秩序”并不謙虛。

　?。ú贿^(guò)，個(gè)人觀(guān)點(diǎn)：這會(huì )不會(huì )導致“馬太效應”，進(jìn)而促成目前互聯(lián)網(wǎng)“巨人通吃”的現狀？）

　　盲人可以看到這個(gè)想法的含金量。

　　當然，專(zhuān)利說(shuō)的很簡(jiǎn)短。例如，程序如何自動(dòng)找出哪個(gè) 網(wǎng)站是重要的？甚至，如何讓程序自動(dòng)發(fā)現，對于某個(gè)關(guān)鍵字，一個(gè)網(wǎng)站比另一個(gè)網(wǎng)站更重要？這里需要天才利用數學(xué)知識來(lái)尋找算法（PageRank算法本身有數學(xué)證明，有興趣可以搜索一下）。

　　另外可以看出，僅這兩個(gè)專(zhuān)利列出的參考文獻中，就收錄了很多來(lái)自1965、1978、1988、1996的研究：do Academia是這樣的，開(kāi)始從頭開(kāi)始并獨立支持少數領(lǐng)域；更重要的是，雅虎從 1994 年就已經(jīng)存在。雖然它還沒(méi)有完全解決問(wèn)題，但雅虎并不是一個(gè)平庸無(wú)能的人：即使每個(gè)人都“受過(guò)”雅虎的啟發(fā)，但到了該把它變成魚(yú)的時(shí)候了肚皮，好像不太禮貌。

　　我這里只關(guān)注“返回內容排名”的研究；但是要快速分析互聯(lián)網(wǎng)上近乎無(wú)限多的鏈接，近乎實(shí)時(shí)地更新他們的PageRank，同時(shí)響應數十億人的查詢(xún)……要解決的問(wèn)題是More，絕對不是可以在一瞬間完成的事情。

　　事實(shí)上，佩奇和布林早在 1996 年就建立了一個(gè)名為 BackRub 的搜索引擎，并將其放在斯坦福大學(xué)的服務(wù)器上。BackRub因其搜索質(zhì)量超越了當時(shí)所有的商業(yè)搜索引擎，在校園內深受學(xué)生歡迎；但是因為太占帶寬，最后還是被斯坦福大學(xué)從服務(wù)器上拉下來(lái)了。

　　1997年，搜索引擎名稱(chēng)改為google；1998年9月成立——眾所周知，這兩個(gè)窮鬼在車(chē)庫里做事，使用的是Tao的舊服務(wù)器：為了在舊服務(wù)器上運行g(shù)oogle，他們開(kāi)始分布式MapReduce；為了方便海量數據的索引存儲，他們開(kāi)始了GFS和BigTable（后來(lái)發(fā)展成為近幾年的熱點(diǎn)之一，NoSQL數據庫）；終于，這三項技術(shù)引爆了方興未艾?！按髷祿锩?。

　　與這三種“基石”技術(shù)相比，頁(yè)面排名并不是那么重要。

　　谷歌*敏*感*詞*：世界上最大的搜索引擎出自車(chē)庫

　　你看，我太忙了，我真的沒(méi)有時(shí)間去復制曲高和寡婦在1997年2月申請的專(zhuān)利。

　　———————————————————————————

　　綜上所述，可以看出“搜索引擎”本身的門(mén)檻并不高；尤其是現在有很多全文搜索引擎，比如lucene；知乎也有很多“python寫(xiě)爬蟲(chóng)”教程——爬取數據并扔到全文搜索引擎，你可以在自己的電腦上搭建一個(gè)搜索引擎。

　　如果你的要求不需要像谷歌那么高，不難找到一套適合你的現成開(kāi)源解決方案：

　　下載、部署，您自己的搜索引擎上線(xiàn)。

　　如果追求更高點(diǎn)，PageRank、BigTable、MapReduce等論文也是公開(kāi)的，也有開(kāi)源實(shí)現（如gluster、hadoop等），還可以借助google獲得200x與十年前相比，現在的硬件一團糟。

　　那么為什么世界上沒(méi)有一大堆搜索引擎呢？

　　因為：

　　1、Google 發(fā)展太快了。沒(méi)有人能跟得上它。

　　盡管google已經(jīng)公布了bigtable、mapreduce等三大法寶，但最成功、最知名的replica依然是yahoo支持的開(kāi)源項目Hadoop；但 Hadoop 的執行效率與 google 還是相差甚遠。

　　更重要的是，現在的谷歌不僅長(cháng)期依賴(lài)pagerank算法——他們的TPU不僅僅是為圍棋AI設計的。

　　2、先發(fā)優(yōu)勢與成本門(mén)檻

　　即使你可以跟上谷歌，搜索引擎也有很多用戶(hù)粘性。

　　然后，互聯(lián)網(wǎng)現在太大了。要實(shí)現谷歌的索引完善和服務(wù)能力，所需的服務(wù)器數量和存儲空間是非?？植赖?；這么大的投資未必（甚至絕不能）能夠搶占到谷歌的市場(chǎng)……

0

2022-01-28

搜索引擎優(yōu)化創(chuàng )始人

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久