學(xué)術(shù)資訊 | 方師師:搜索引擎中的新聞呈現:從新聞等級到千人千搜
優(yōu)采云 發(fā)布時(shí)間: 2022-06-17 21:48學(xué)術(shù)資訊 | 方師師:搜索引擎中的新聞呈現:從新聞等級到千人千搜
導讀
本文為CCSGR研究員、上海社會(huì )科學(xué)院新聞研究所助理研究員方師師的《搜索引擎中的新聞呈現:從新聞等級到千人千搜》摘要,獲取全文請參閱刊發(fā)雜志。
本文以谷歌搜索引擎中的新聞呈現為例,討論影響用戶(hù)搜索引擎使用的技術(shù)要素與社會(huì )機制。谷歌通過(guò)新聞等級體系建立起了網(wǎng)頁(yè)間的靜態(tài)秩序,新聞媒體主動(dòng)采用搜索引擎優(yōu)化技術(shù)配合技術(shù)呈現,而基于用戶(hù)使用慣習和社交關(guān)系的搜索算法則帶來(lái)了千人千搜。搜索引擎的社會(huì )意義在于,其在海量的信息環(huán)境下重新定義了真相,通過(guò)主動(dòng)反饋用戶(hù)搜索結果進(jìn)行“有文化依據的組織形式重構”,促進(jìn)了一種新的“混合價(jià)值”的生成,既結合了傳統的社會(huì )與文化目標又提供了新的機制。但搜索引擎建立起來(lái)的知識 - 社會(huì )秩序并沒(méi)有帶來(lái)更高的知識水平,而是具有一種“膨脹的知識感”。
搜索引擎(Search Engine)是一些最常被訪(fǎng)問(wèn)的在線(xiàn)網(wǎng)站,搜索引擎處于互聯(lián)網(wǎng)經(jīng)濟的核心,每天引導著(zhù)數十億的互聯(lián)網(wǎng)用戶(hù)訪(fǎng)問(wèn)位于搜索結果頁(yè)面頂部的網(wǎng)站。作為互聯(lián)網(wǎng)的入口和導流口,搜索引擎持續不斷且影響深遠地塑造著(zhù)人們接觸信息的方式和效果。搜索引擎如此重要地決定著(zhù)用戶(hù)的上網(wǎng)信息接觸,但其本身的運作機制卻較少被關(guān)注。知識社會(huì )學(xué)認為,秩序與知識是一體兩面的,改變知識就是改變秩序?!吧鐣?huì )學(xué)知識回旋進(jìn)出于社會(huì )生活領(lǐng)域,并作為該過(guò)程的一個(gè)部分,重構其自身及該領(lǐng)域的社會(huì )生活”。那么人們通過(guò)搜索引擎獲取的知識,是否也構成了一種新的知識 - 社會(huì )秩序?
文以谷歌搜索引擎中對新聞的呈現為例,從批判算法研究(critical algorithm study, CAS)中對于搜索引擎的研究視角入手,采用混合研究的方法,綜合谷歌算法專(zhuān)利、搜索引擎排名因素調查等內容,嘗試討論三個(gè)問(wèn)題 :
第一,搜索引擎中的新聞呈現,受到哪些要素的影響?其核心的技術(shù)機制是什么?
第二,搜索引擎的產(chǎn)品設計價(jià)值是什么?存在著(zhù)怎樣的技術(shù) - 社會(huì )互動(dòng)?
第三,搜索引擎如何重新定義真相?對于知識 - 社會(huì )秩序具有怎樣的影響?又建構了怎樣的社會(huì )意義?
一、網(wǎng)頁(yè)排名算法中的新聞等級體系
采用搜索引擎進(jìn)行信息檢索的過(guò)程主要通過(guò)三方進(jìn)行:網(wǎng)頁(yè)作者、搜索引擎以及搜索用戶(hù)。網(wǎng)頁(yè)作者將他們的網(wǎng)頁(yè)與其他網(wǎng)頁(yè)進(jìn)行適當鏈接,這種鏈接結構被流行的搜索引擎算法捕捉并對相關(guān)的網(wǎng)頁(yè)進(jìn)行排名。用戶(hù)根據他們對搜索引擎的任務(wù)和功能的理解,輸入各種關(guān)鍵字和布爾命令,然后評估由搜索引擎返回的結果,以決定是否選擇返回的結果或重新構造查詢(xún)。搜索引擎充當了信息中介,把控信息在搜索過(guò)程中的流動(dòng)。
在谷歌的排名算法中,與新聞排名關(guān)系最為密切的是一個(gè)叫做“用于改進(jìn)新聞文章分級的系統和方法”(systems and methods for improving the ranking of news articles)的算法專(zhuān)利,該專(zhuān)利詳細說(shuō)明了谷歌對新聞文章的排名指標以及相關(guān)算法。雖然谷歌在問(wèn)詢(xún)電子郵件中回復“專(zhuān)利申請不代表產(chǎn)品實(shí)際操作”,但普遍意義上認為,專(zhuān)利可以表征谷歌的在線(xiàn)內容排名遵循的是何種邏輯,哪些指標決定了什么樣的新聞可以被放在谷歌產(chǎn)品的顯著(zhù)位置。
首先,谷歌認為對于新聞文章的分級是必要的。這一觀(guān)念的出發(fā)點(diǎn)看似簡(jiǎn)單,實(shí)際上簡(jiǎn)明扼要地說(shuō)明了排名的重要性與必要性。用戶(hù)在使用搜索引擎的時(shí)候,將一個(gè)或多個(gè)感興趣的關(guān)鍵詞輸入搜索框中,就是試圖在這一系統中定位已發(fā)布的與該主題相關(guān)的文章的新聞源價(jià)值位置。搜索引擎定位了與期望主題相關(guān)的新聞文章的各個(gè)站點(diǎn),從而產(chǎn)生成百上千或者更多的點(diǎn)擊分級列表,每個(gè)點(diǎn)擊都可能與涉及這個(gè)或多個(gè)搜索項的網(wǎng)頁(yè)頁(yè)面相對應。盡管分級列表中的每個(gè)點(diǎn)擊可能涉及相關(guān)主題,但與這些點(diǎn)擊相關(guān)聯(lián)的新聞源可能都具有不同的質(zhì)量。因此,需要系統和方法來(lái)衡量新聞文章的質(zhì)量和新聞源的質(zhì)量。
其次,谷歌通過(guò)多種指標衡量新聞文章質(zhì)量。在這項專(zhuān)利中,谷歌提到運用 13 項度量指標來(lái)對其他網(wǎng)站的新聞文章內容進(jìn)行排名。依據谷歌自身對于衡量指標的邏輯,內容要素和新聞源的相關(guān)要素等度量指標可以分為兩大類(lèi),即內容質(zhì)量和新聞源質(zhì)量。
第三,谷歌采用多種算法評估新聞源等級。谷歌的 Page Rank 排名算法還部分基于確定的一種或多種度量值來(lái)計算新聞源的質(zhì)量值,即新聞源等級。對于新聞內容的排名,不僅需要衡量信息本身,還需要衡量信息源的數量和質(zhì)量,Page Rank 排名算法就是試圖將這種判斷加以量化和可操作化。網(wǎng)頁(yè)上的度量值瞬息變化,但其新聞來(lái)源則相對固定,通過(guò)對新聞源等級的評定,排名算法可以更快地計算出高質(zhì)量?jì)热莸膩?lái)源,已經(jīng)確定的新聞源等級可以存儲在服務(wù)器上,以備需要時(shí)調用。
2018 年 3 月,當時(shí)處于假新聞、后真相漩渦中的臉書(shū)正面臨嚴重的信任危機,臉書(shū)為此更新了算法,*敏*感*詞*減少了來(lái)自第三方機構推送給用戶(hù)的內容和流量,而第三方機構很多都是媒體,由此引發(fā)了媒體機構對于臉書(shū)的強烈不滿(mǎn)。與之相反,谷歌卻在此時(shí)推出了“谷歌新聞倡議”(The Google News Initiative)項目,稱(chēng)要為“新聞業(yè)構建一個(gè)更加強勁的未來(lái)”。這個(gè)未來(lái)包括 :鼓勵優(yōu)質(zhì)新聞,穩定媒體收入,保持數字新聞生態(tài)系統開(kāi)放,采用新技術(shù)提供新機會(huì ),合作共贏(yíng)。谷歌聲稱(chēng)會(huì )在三年內投資 3 億美元支持在線(xiàn)優(yōu)質(zhì)內容生產(chǎn),扶持高等級的新聞源成長(cháng),為記者提供更好的數據工具和工作機會(huì )。谷歌通過(guò)對于這些標準和慣例的借鑒與采納,在一定程度上既順應了已有的信息傳播格局,同時(shí)又將其組合進(jìn)了自身對于互聯(lián)網(wǎng)塑形的傳播實(shí)踐中,而這對于谷歌逐漸建立起自身的信息內容秩序并且樹(shù)立文化權威具有重要意義。
二、利用算法規則進(jìn)行的“搜索引擎優(yōu)化”
谷歌對于新聞文章和新聞源等級的排名算法設定了媒體網(wǎng)站相對靜態(tài)的鏈接排序,但這一序列并非恒定,更不是不可改變的。除了谷歌本身對于算法的實(shí)時(shí)調整,新聞機構同樣可以利用這套算法規則,主動(dòng)提供符合算法口味的網(wǎng)頁(yè)鏈接和內容。通過(guò)對搜索排名算法仔細研究和進(jìn)行逆向工程,將機構網(wǎng)站的鏈接提升到特定搜索條件的頂部,這將大大有助于為自家網(wǎng)站導流。這一技術(shù)稱(chēng)為搜索引擎優(yōu)化(Search Engine Optimization, SEO),現在已經(jīng)發(fā)展成為一個(gè)價(jià)值數十億美元的產(chǎn)業(yè),根據新美國智庫 2018 年的報告,目前網(wǎng)站在優(yōu)化原生搜索結果上的投入是其購買(mǎi)搜索廣告開(kāi)銷(xiāo)的 3 倍。
SEO 構成了搜索引擎營(yíng)銷(xiāo)(Search Engine Marketing, SEM)的一部分,它定義了如何通過(guò)構建鏈接和編寫(xiě)內容來(lái)增加網(wǎng)站搜索相關(guān)性的各個(gè)步驟。在 Search Engine Land 等網(wǎng)站上,用戶(hù)和機構可以輕松找到各種指導培訓手冊,也可以下載和編寫(xiě)相關(guān)程序。而作為在線(xiàn)營(yíng)銷(xiāo)領(lǐng)域最前沿也是最具影響力的活動(dòng)之一,基于 SEO 的內容營(yíng)銷(xiāo)正在成為新聞業(yè)界公開(kāi)的運營(yíng)策略。
對于 SEO 產(chǎn)業(yè)來(lái)說(shuō),該行業(yè)中的大多數工具和策略都是正當且公開(kāi)的,主要的搜索引擎大都提供信息或者指南以協(xié)助站點(diǎn)進(jìn)行優(yōu)化。但也有被稱(chēng)為“黑帽搜索引擎優(yōu)化”(Black-hat SEO)的技術(shù),旨在欺騙搜索引擎算法,干擾正常網(wǎng)站排名。此外,還有一種方式是通過(guò)*敏*感*詞*的用戶(hù)搜索行為操縱新聞周期中幾個(gè)小時(shí)的搜索結果,以此來(lái)“偽造”新聞事件,直到網(wǎng)頁(yè)被糾正過(guò)來(lái)。
媒體對于搜索引擎優(yōu)化的使用、依賴(lài)甚至在某種程度上的濫用,可以看作是媒體網(wǎng)站和搜索引擎在流量驅動(dòng)模式下對于觸達、卷入、黏住、誘導用戶(hù)媒介使用的一種“共謀”。搜索引擎優(yōu)化可以顯著(zhù)提高媒體網(wǎng)站的可見(jiàn)度、瀏覽量、轉發(fā)量等指標,而搜索引擎也可以間接接觸和留住更多用戶(hù)。隨著(zhù)社交媒體平臺的興起,信息資訊、社交需求、流量變現、商業(yè)植入等都可以通過(guò)搜索引擎優(yōu)化進(jìn)一步組合起來(lái)。雖然搜索引擎一直在打擊黑帽搜索引擎優(yōu)化,但這依然是一場(chǎng)“貓鼠游戲”,搜索引擎并不想完全封禁網(wǎng)站的搜索引擎優(yōu)化操作,只要不太過(guò)分,這是一筆雙贏(yíng)的生意。
三、基于用戶(hù)使用和社交關(guān)系的“千人千搜”
一般情況下多數人認為,在輸入同一個(gè)搜索詞后,大家在谷歌上看到的搜索結果都是一樣的。但是在 2009 年 12 月 4 日,谷歌的官方博客發(fā)出了一則很少有人注意的簡(jiǎn)短文章,按照研究搜索引擎的博主丹尼?蘇利文(Danny Sullivan)的說(shuō)法,谷歌這篇博文簡(jiǎn)直是天大的消息,是“搜索引擎史上最大的變革”。因為從這一天起,“人人都有了個(gè)性化的搜索”。這一變革后的谷歌搜索引擎,采用了 57 種信號(signals),比如用戶(hù)登錄的地理位置、使用的瀏覽器、以前用過(guò)的搜索詞等來(lái)判斷用戶(hù)的身份,揣摩用戶(hù)喜歡的網(wǎng)站。即使用戶(hù)注銷(xiāo)掉賬戶(hù),谷歌仍能預測用戶(hù)的需求并調整搜索結果,以顯示用戶(hù)最有可能點(diǎn)擊的網(wǎng)頁(yè)。
可以說(shuō),通過(guò)谷歌搜索引擎進(jìn)行的每一次關(guān)鍵詞搜索,得到的結果都是谷歌算法針對你個(gè)人建議的最佳網(wǎng)頁(yè),而別人輸入同樣的搜索詞,得到的結果可能截然不同。在谷歌被引用最多的個(gè)性化搜索專(zhuān)利“基于個(gè)人信息降級的個(gè)性化搜索 :系統與方法”(System and Method for Demoting Personalized Search Results Based on Personal Information)中,列出了個(gè)性化搜索再評估、用戶(hù)畫(huà)像生成、定義流行度矩陣、用戶(hù)多重行為畫(huà)像、共現(co-occurrence)關(guān)系表、候選搜索結果確認等多個(gè)流程,用戶(hù)的個(gè)人信息、使用慣習、搜索歷史與搜索請求、搜索結果、搜索評估、搜索確認等環(huán)節相關(guān)聯(lián),最終生成了基于用戶(hù)自身使用習慣的搜索結果。
“千人千搜”對用戶(hù)使用慣習和社交關(guān)系進(jìn)行分析,給出的個(gè)性化的搜索結果具有很強的針對性,也更具封閉性。用戶(hù)通過(guò)谷歌最新的個(gè)性化搜索算法得到的搜索結果,也許只是一個(gè)人的版本,但如果用戶(hù)對此一無(wú)所知,他會(huì )認為所有人的搜索結果和他都是一樣的,不假思索的信任會(huì )形成搜索引擎依賴(lài),還會(huì )在一定范圍固守某一觀(guān)念拒絕相信其他不同觀(guān)點(diǎn),進(jìn)而形成信息繭房和觀(guān)念極化。搜索引擎在這個(gè)過(guò)程中既過(guò)濾了信息,又封裝了信息,更為重要的是,這種模式具有很強的隱蔽性,常常難以被發(fā)覺(jué)。
四、設計中的價(jià)值 :搜索引擎的技術(shù) - 社會(huì )互動(dòng)
用戶(hù)通過(guò)搜索引擎進(jìn)行關(guān)鍵詞搜索,搜索引擎向用戶(hù)呈現結果和內容,但什么樣的內容可以進(jìn)入到搜索列表中,以何種方式顯示,幕后的決策過(guò)程是什么 ,考慮到搜索引擎強大的社會(huì )影響力,這些構成了對搜索引擎問(wèn)題的核心關(guān)切。2008 年,尼古拉斯?卡爾(Nicholas Carr)在其著(zhù)名的專(zhuān)欄文章《淺薄》中指出,以谷歌為代表的科技公司,實(shí)際上是將社會(huì )泰勒主義(Social Taylorism)成功地移植到了互聯(lián)網(wǎng)上,人類(lèi)的認知被碎片化和原子化后去適應效率和自動(dòng)化的需要。在這個(gè)過(guò)程中,我們失去了長(cháng)時(shí)間深度思考的能力,也許未來(lái)“碎片化”就是人類(lèi)的信息方式,但其后果可能是,我們自身退化成了“人工智能”。就搜索引擎的社會(huì )意義而言,主要表現為以下幾個(gè)方面 :
首先,搜索引擎在海量的信息環(huán)境下重新定義了“真相”。搜索引擎依靠可檢索性(retrievability)與可見(jiàn)性(visibility)兩個(gè)指標,重構了網(wǎng)絡(luò )結構,將信息內容和用戶(hù)需求方便快捷地匹配起來(lái)。但是這個(gè)匹配方案本身也形塑了用戶(hù)的信息接收秩序,新聞內容的重要程度被呈現的“位置”所取代,“真相”被重新定義:“今日的‘真相’,已經(jīng)是由谷歌搜索排名最靠前的結果來(lái)定義的了?!?/p>
其次,搜索引擎不是被動(dòng)地反映用戶(hù)的關(guān)鍵詞搜索結果,而是進(jìn)行了“有文化依據的組織形式重構”,進(jìn)而建構其文化權威。搜索引擎可以方便地呈現搜索結果是有條件的,除了對于既有文化資源的征用之外,還高度依賴(lài)政治環(huán)境、經(jīng)濟利益、技術(shù)因素和用戶(hù)使用,但是用戶(hù)其實(shí)并不熟悉搜索引擎是如何“找到”他們正在尋找的東西的。
第三,在新傳播環(huán)境中,互聯(lián)網(wǎng)公司促進(jìn)了一種新的“混合價(jià)值”模式,它結合了傳統的社會(huì )與文化目標,但提供了新的機制。谷歌一方面從傳統媒體的生產(chǎn)模式中汲取養料,同時(shí)在新傳播環(huán)境下又將自身的利益和價(jià)值觀(guān)內嵌進(jìn)去,它試圖建構的就是一種混合的價(jià)值觀(guān):它借用傳統媒體對于內容和信源的衡量標準,同時(shí)加入以技術(shù)和算法為特征的“去人為操作”和去政治化的要素,強調用戶(hù)的使用是為了滿(mǎn)足其自身內在需求,從而順理成章地完成了市場(chǎng)化的經(jīng)濟利益訴求。在這個(gè)過(guò)程中,傳統媒體的客觀(guān)性和專(zhuān)業(yè)主義作為一種“背書(shū)底色”,成為互聯(lián)網(wǎng)公司業(yè)務(wù)開(kāi)展的基礎和正當性來(lái)源;技術(shù)和算法高度依賴(lài)處理器算力和*敏*感*詞*數據,天生趨向于資源和權力的集中;用戶(hù)興趣被即刻滿(mǎn)足,不斷投入更多的時(shí)間、金錢(qián)和數據,由此完成了推薦內容、用戶(hù)興趣和傳播環(huán)境的匹配閉環(huán)。
第四,搜索引擎重塑了知識 - 社會(huì )秩序,但是帶來(lái)了“膨脹的知識感”。2015 年,Fisher 等人的研究發(fā)現,與閱讀書(shū)籍、和專(zhuān)家交談相比,通過(guò)搜索引擎獲得的知識讓人更有一種“膨脹的知識感”(inflated sense of knowledge)——“通過(guò)互聯(lián)網(wǎng)搜索,你知道的和你認為你知道的之間的界限變得越來(lái)越模糊”,而即使這一過(guò)程中并沒(méi)有找到完整的答案,大腦磁共振的圖像表明,人們依舊會(huì )認為他們知道了更多。與此同時(shí),新的“閱讀”形式正在逐漸出現:用戶(hù)會(huì )在瀏覽和搜索上花費更多的時(shí)間,傾向于使用關(guān)鍵詞定位、一次性閱讀、非線(xiàn)性閱讀和選擇性閱讀,但對于事物的持續關(guān)注度在降低,更加不容易進(jìn)行深度閱讀和集中閱讀,與控制組相比也沒(méi)有呈現出更高的知識水平。
五、結語(yǔ)
搜索引擎可以看作是通過(guò)算法和自動(dòng)化的方式,讓機器代替人給出決策方案。當前,這種形式的應用正變得越來(lái)越普及和廣泛,比如個(gè)性化的內容推薦、精準定向的廣告、大數據輔助醫療、電子商務(wù)導購、自動(dòng)駕駛等等。但在這個(gè)過(guò)程中,“算法是有很多問(wèn)題,但還是比人強”的思路,使得越來(lái)越多本來(lái)需要依靠人類(lèi)自身的討論、辯論、思考、反思給出決策判斷的任務(wù),被轉交給算法來(lái)執行。我們敢于承認“人是靠不住的”,但對算法卻抱有不切實(shí)際的期待,希望它真能夠實(shí)現絕對的客觀(guān)中立、正確無(wú)誤和去價(jià)值觀(guān)。
算法是一種技術(shù),但歸根結底依然是一種“人造物”,它不同于物理意義上“物質(zhì)”,而是一種社會(huì )機制,更類(lèi)似于法律法規或政治制度這樣的“社會(huì )造物”,因此從根本上無(wú)法排除人的影響,而就目前情況來(lái)看,其能夠將倫理、道德、價(jià)值觀(guān)“邏輯化”的能力依然還非常有限。
?。▓D片來(lái)自網(wǎng)絡(luò ))
作者方師師
復旦發(fā)展研究院傳播與國家治理研究中心 研究員
上海社會(huì )科學(xué)院新聞研究所 助理研究員










