【新智元導(dǎo)讀】就在剛剛,一份2500頁(yè)的內(nèi)部文檔泄露,谷歌搜索算法的內(nèi)幕,讓不少人大跌眼鏡。
日前,谷歌2500頁(yè)的內(nèi)部文檔被泄露,揭示了搜索——「互聯(lián)網(wǎng)最強(qiáng)大的仲裁者」的運(yùn)作方式。
爆料人是SparkToro的聯(lián)合創(chuàng)始人兼CEO,他在自家網(wǎng)站上發(fā)表博客文章,宣稱「一位匿名人士與我分享了數(shù)千頁(yè)泄露的谷歌搜索API文檔,SEO中的每個(gè)人都應(yīng)該看到它們」!
多年來(lái),Rand Fishkin一直是SEO領(lǐng)域(Search Engine Optimization,搜索引擎優(yōu)化)的頂級(jí)代言人,「網(wǎng)站權(quán)威性」(Domain Rating)這個(gè)概念就是他提出的。
既然在這個(gè)領(lǐng)域德高望重,Rand Fishkin爆料之前自然要對(duì)這位不明身份的匿名人士小心查驗(yàn)。
上周五,在發(fā)送了幾封電子郵件之后,Rand Fishkin與這位神秘人進(jìn)行了視頻通話,當(dāng)然,對(duì)方并沒(méi)有露臉。
此次通話讓Rand了解了這份泄密文件的更多信息:這是一份超過(guò)2500頁(yè)的API文檔,其中包含14014條Attributes,這些屬性似乎來(lái)自Google的內(nèi)部「Content API Warehouse」。
根據(jù)文檔的提交歷史記錄,該代碼于2024年3月27日上傳到GitHub,直到2024年5月7日才被刪除。
通話結(jié)束后,Rand確認(rèn)了匿名人的工作經(jīng)歷和他們?cè)跔I(yíng)銷界共同認(rèn)識(shí)的人,他決定滿足匿名人的期望——發(fā)表一篇文章來(lái)分享這次泄露,并駁斥了谷歌員工「多年來(lái)一直傳播的一些謊言」。
Matt Cutts、Gary Ilyes和John Mueller否認(rèn)谷歌在多年來(lái)將基于點(diǎn)擊的用戶數(shù)據(jù)用于排名
Rand的文章談到了沙箱、點(diǎn)擊率、停留時(shí)間等影響SEO的因素,而這正是谷歌之前極力否認(rèn)的。
文章一經(jīng)發(fā)布,果然立刻引發(fā)了輿論嘩然,尤其受到了SEO圈的特別關(guān)注。
另一位SEO專家Mike King也發(fā)表文章,揭示谷歌「算法的秘密」。
Mike King表示,「泄露的文件涉及谷歌收集和使用哪些數(shù)據(jù)、谷歌將哪些網(wǎng)站提升為選舉等敏感話題、谷歌如何處理小型網(wǎng)站等主題。」
諸多信息表明,谷歌多年來(lái)并未完全如實(shí)報(bào)道,「文件中的一些信息似乎與谷歌代表的公開聲明相沖突?!?/p>
面對(duì)大家的質(zhì)疑,谷歌選擇沉默,拒絕對(duì)此次爆炸性泄漏事件發(fā)表評(píng)論。
正主沒(méi)有發(fā)聲,反倒是此前匿名提供消息的神秘人士露面了。5月28日,神秘人終于決定挺身而出,發(fā)布了一段視頻,在視頻中公布了他的身份。
他叫Erfan Azimi,也是一名SEO從業(yè)者,EA Eagle Digital的創(chuàng)始人。
那么,既然Erfan Azimi提供的文檔來(lái)自Google的內(nèi)部「Content API Warehouse」,我們有必要了解一下什么是谷歌API Content Warehouse,以及這份文檔究竟泄露了哪些內(nèi)容?
谷歌搜索「黑箱」
這次泄密事件似乎來(lái)自GitHub,最可信的解釋與Erfan Azimi在通話中告訴Rand的一致:
這些文檔可能是無(wú)意中被短暫公開了,因?yàn)槲臋n中的許多鏈接指向私人GitHub倉(cāng)庫(kù),以及谷歌公司網(wǎng)站上需要特定認(rèn)證登錄的內(nèi)部頁(yè)面。
在2024年3月至5月這段可能是偶然的公開時(shí)間里,API文檔被傳播到Hexdocs(索引公開的GitHub倉(cāng)庫(kù)),并被其他人發(fā)現(xiàn)并傳播。
讓Rand疑惑的是,他確信其他人也有一份副本,但直到此次爆料發(fā)生以前,這份文件并沒(méi)有被公開討論。
據(jù)前谷歌開發(fā)人員透露,幾乎每個(gè)谷歌團(tuán)隊(duì)都有這樣的文檔,用于解釋各種API屬性和模塊,幫助項(xiàng)目人員熟悉可用的數(shù)據(jù)元素。
該泄漏信息與GitHub公共倉(cāng)庫(kù)和谷歌云API文檔中的其他信息相吻合,使用了相同的符號(hào)風(fēng)格、格式,甚至流程/模塊/功能名稱和引用。
「API Content Warehouse」聽起來(lái)像個(gè)技術(shù)術(shù)語(yǔ),但我們可以把它看作是給谷歌搜索引擎團(tuán)隊(duì)成員的一份指南。
它就像圖書館里的圖書目錄,谷歌用它來(lái)告訴員工有哪些書以及如何獲取。
但不同的是,圖書館是公開的,而谷歌搜索卻是世界上最神秘、防守森嚴(yán)的黑匣子之一。在過(guò)去的二十多年中,谷歌搜索部門從未發(fā)生過(guò)如此大規(guī)?;蛉绱嗽敿?xì)的泄密事件。
「泄露」了什么?
1. 對(duì)用戶點(diǎn)擊數(shù)據(jù)的使用
文檔中的一些模塊提到了「goodClicks」、「badClicks」、「lastLongestClicks」、印象、壓扁、未壓扁和獨(dú)角獸點(diǎn)擊等功能。這些都與Navboost和Glue有關(guān),看過(guò)谷歌司法部證詞的人可能對(duì)這兩個(gè)詞并不陌生。
以下是司法部律師Kenneth Dintzer對(duì)搜索質(zhì)量團(tuán)隊(duì)搜索副總裁Pandu Nayak的交叉詢問(wèn)的相關(guān)摘錄:
Q. 那么請(qǐng)?zhí)嵝盐乙幌拢琋avboost是否可以追溯到2005年?
A. 在這個(gè)范圍內(nèi),甚至可能更早。
Q. 它已經(jīng)更新過(guò)了,它已經(jīng)不是當(dāng)年的那個(gè)Navboost了?
A. 不是了
Q. 還有一個(gè)是glue,對(duì)嗎?
A. glue只是Navboost的另一個(gè)名稱,包括頁(yè)面上的所有其他功能。
Q. 好的。我本來(lái)打算稍后再談,但我們現(xiàn)在就可以談。就像我們討論過(guò)的那樣,Navboost可以生成網(wǎng)頁(yè)結(jié)果,對(duì)嗎?
A. 是的。
Q. glue還可以處理頁(yè)面上所有不是網(wǎng)頁(yè)結(jié)果的內(nèi)容,對(duì)嗎?
A. 沒(méi)錯(cuò)。
Q. 它們共同幫助找到最終顯示在我們搜索結(jié)果頁(yè)上的內(nèi)容并對(duì)其進(jìn)行排名?
A. 沒(méi)錯(cuò)。它們都是這方面的信號(hào),是的。
這份泄露的API文檔支持Nayak先生的證詞,并與Google的網(wǎng)站質(zhì)量專利保持一致。
谷歌似乎有辦法過(guò)濾掉他們不想計(jì)入排名系統(tǒng)的點(diǎn)擊量,并將他們希望計(jì)入排名系統(tǒng)的點(diǎn)擊量納入其中。
他們似乎還能衡量點(diǎn)擊時(shí)長(zhǎng)(pogo-sticking,指搜索者點(diǎn)擊結(jié)果后,因?qū)φ业降拇鸢覆粷M意而迅速點(diǎn)擊返回按鈕)和印象。
2. 征用Chrome的點(diǎn)擊流
谷歌代表多次表示,它不會(huì)使用Chrome數(shù)據(jù)對(duì)頁(yè)面進(jìn)行排名,但泄密文檔在有關(guān)網(wǎng)站如何在搜索中顯示的部分中,特別提到了Chrome。
泄露文件的匿名消息源稱,早在2005年,谷歌就希望獲得數(shù)十億互聯(lián)網(wǎng)用戶的完整點(diǎn)擊流,而通過(guò)Chrome瀏覽器,他們已經(jīng)得償所愿。
API文檔顯示,谷歌可以使用Chrome瀏覽器計(jì)算與單個(gè)頁(yè)面和整個(gè)域相關(guān)的幾類指標(biāo)。
這份文檔介紹了谷歌如何創(chuàng)建Sitelinks的相關(guān)功能,特別有趣。
它展示了一個(gè)名為topUrl的調(diào)用,即 「A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.」
據(jù)此可以推測(cè)出,谷歌很可能使用了 Chrome 瀏覽器中網(wǎng)頁(yè)的點(diǎn)擊次數(shù),并以此來(lái)確定網(wǎng)站上最受歡迎或是最重要的 URL,進(jìn)而計(jì)算出哪些URL應(yīng)包含在Sitelinks功能中。
在谷歌搜索結(jié)果中,它總能顯示用戶訪問(wèn)量最大的頁(yè)面,這是它通過(guò)跟蹤數(shù)十億Chrome用戶的點(diǎn)擊流得來(lái)的。
對(duì)于谷歌的這一行為,網(wǎng)友當(dāng)然表示不滿。
3. 為嚴(yán)肅話題創(chuàng)建白名單
我們不難通過(guò)「優(yōu)質(zhì)旅游網(wǎng)站」 模塊得出這樣一個(gè)推論——谷歌在旅游領(lǐng)域存在一個(gè)白名單,盡管尚不清楚這是否專門用于谷歌的「旅游」搜索選項(xiàng),還是更廣泛的網(wǎng)絡(luò)搜索。
此外,文檔中多處提到的 「isCovidLocalAuthority」(新冠本地權(quán)威)和 「isElectionAuthority」(選舉權(quán)威)進(jìn)一步表明,谷歌正在對(duì)特定域名進(jìn)行白名單管理,這些域名可能會(huì)在用戶搜索極具爭(zhēng)議的問(wèn)題時(shí)被優(yōu)先顯示。
例如,在2020年美國(guó)總統(tǒng)大選之后,某位候選人在沒(méi)有證據(jù)的情況下聲稱選票被偷,并鼓勵(lì)其追隨者沖擊國(guó)會(huì)山。
谷歌幾乎肯定會(huì)成為人們最先搜索這一事件相關(guān)信息的地方之一,如果他們的搜索引擎返回的是不準(zhǔn)確描述選舉證據(jù)的宣傳網(wǎng)站,這可能會(huì)直接導(dǎo)致更多的爭(zhēng)論、暴力,甚至是美國(guó)民主的終結(jié)。
從這個(gè)角度上來(lái)說(shuō),白名單有其現(xiàn)實(shí)意義。Rand Fishkin表示「我們這些希望自由公正的選舉繼續(xù)下去的人應(yīng)該非常感謝谷歌的工程師們?cè)谶@種情況下使用了白名單?!?/p>
4. 采用人工評(píng)估網(wǎng)站質(zhì)量
長(zhǎng)期以來(lái),谷歌一直有一個(gè)名為EWOK的質(zhì)量評(píng)級(jí)平臺(tái),我們現(xiàn)在有證據(jù)表明,搜索系統(tǒng)中使用了質(zhì)量評(píng)估者中的某些元素。
Rand Fishkin覺(jué)得有趣的是,EWOK質(zhì)量評(píng)估者生成的分?jǐn)?shù)和數(shù)據(jù)可能會(huì)直接參與谷歌的搜索系統(tǒng),而不僅僅是實(shí)驗(yàn)的訓(xùn)練集。
當(dāng)然,這些可能「只是用于測(cè)試」,但是當(dāng)瀏覽泄露的文檔時(shí),你就會(huì)發(fā)現(xiàn)當(dāng)這是真的,它會(huì)在注釋和模塊詳細(xì)信息中明確指出。
其中提到的「每份文檔相關(guān)性評(píng)級(jí)」即來(lái)自 EWOK 的評(píng)估,雖然沒(méi)有詳細(xì)的說(shuō)明,但我們不難想象,人類對(duì)網(wǎng)站的評(píng)估到底有多重要。
文檔還提到了「人工評(píng)級(jí)」(例如來(lái)自 EWOK 的評(píng)級(jí)),并指出它們「通常只填充在評(píng)估管道中」,這表明它們可能主要是該模塊中的訓(xùn)練數(shù)據(jù)。
但Rand Fishkin認(rèn)為這仍然是一個(gè)非常重要的角色,營(yíng)銷人員不應(yīng)忽視質(zhì)量評(píng)級(jí)者對(duì)其網(wǎng)站的良好感知和評(píng)級(jí)有多么重要。
5. 利用點(diǎn)擊數(shù)據(jù)確定權(quán)重
谷歌將鏈接索引分為三個(gè)等級(jí)(低、中、高質(zhì)量),點(diǎn)擊數(shù)據(jù)用于確定網(wǎng)站屬于哪個(gè)等級(jí)。
- 如果網(wǎng)站沒(méi)有被點(diǎn)擊,就會(huì)進(jìn)入低質(zhì)量索引,鏈接也會(huì)被忽略
- 如果網(wǎng)站來(lái)自可驗(yàn)證設(shè)備的點(diǎn)擊量很高,它就會(huì)進(jìn)入高質(zhì)量索引,并且鏈接會(huì)傳遞排名信號(hào)
一旦鏈接因?yàn)閷儆诟邔哟蔚乃饕蔀?“可信 ”鏈接,它就可以流動(dòng)PageRank和錨點(diǎn),或者被垃圾鏈接系統(tǒng)過(guò)濾/刪除。
來(lái)自低質(zhì)量鏈接索引的鏈接不會(huì)損害網(wǎng)站的排名,它們只會(huì)被忽略。
谷歌的搜索算法可能是互聯(lián)網(wǎng)上最重要的系統(tǒng),它決定了不同網(wǎng)站的生死存亡以及我們?cè)诰W(wǎng)上所能看到的內(nèi)容。
可它到底是如何對(duì)網(wǎng)站進(jìn)行排名的,長(zhǎng)期以來(lái)一直是個(gè)謎,記者、研究人員和從事SEO工作的人們都在不斷拼湊這個(gè)謎題的答案。
在這次泄漏事件中,谷歌依舊保持沉默,似乎會(huì)讓這個(gè)謎題長(zhǎng)久存在下去。
但這次谷歌有史以來(lái)最嚴(yán)重的泄密,還是撕開了一個(gè)裂縫,讓人們對(duì)搜索的工作原理有了前所未有的了解。
參考資料:
https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/