如果說(shuō)有什么發(fā)明拯救了互聯(lián)網(wǎng)?那一定是搜索引擎,否則互聯(lián)網(wǎng)中的信息越多,它本身崩潰得越快,因?yàn)槿藗冋业阶约盒枰男畔⒁簿驮诫y,使用體驗(yàn)也就越差。搜索的早期形態(tài)是啥?搜索經(jīng)歷的多少次變革?未來(lái)的搜索引擎將變成怎樣?不妨總結(jié)一下搜索引擎發(fā)展的歷史,發(fā)現(xiàn)其中的脈絡(luò)。
其實(shí),搜索的需求——從眾多東西(主要是信息)中尋找自己要的,人類一直都有,只不過(guò)在IT技術(shù)發(fā)展之前,所有信息都沒(méi)有數(shù)字化,搜索唯一可行的表現(xiàn)形式是紙質(zhì)的目錄、索引、電話簿。廣域網(wǎng)產(chǎn)生以后,搜索的需求存在,但技術(shù)沒(méi)有對(duì)應(yīng)的迅速發(fā)展,因此互聯(lián)網(wǎng)搜索的最早形式是網(wǎng)址簿。具體形式和電話簿、黃頁(yè)相似,記錄很多知名網(wǎng)站網(wǎng)址的一本書,大小視專業(yè)程度而定。筆者自己就買過(guò)一本普通網(wǎng)民適用的,大小薄厚類似一本新華字典,按網(wǎng)站內(nèi)容的不同分類。
紙質(zhì)的有了,網(wǎng)絡(luò)版的很快跟上。1994年,楊致遠(yuǎn)創(chuàng)建雅虎,并開(kāi)始人工搜集各類網(wǎng)站的網(wǎng)址,并將它們按一定規(guī)律分類、排序,網(wǎng)民可以只記住雅虎的網(wǎng)址,之后通過(guò)雅虎進(jìn)入各個(gè)門類的網(wǎng)站,紙質(zhì)的網(wǎng)址簿立即變得多余。部分互聯(lián)網(wǎng)業(yè)內(nèi)人士將雅虎用人工搜集網(wǎng)址并分類呈現(xiàn)的目錄式搜索稱為第一代搜索引擎,也有部分互聯(lián)網(wǎng)專家認(rèn)為雅虎這類做法并不能嚴(yán)格稱為搜索引擎,而應(yīng)算作最早的網(wǎng)址導(dǎo)航。筆者傾向于將其算作搜索實(shí)現(xiàn)形式中的一種,甚至包括網(wǎng)址導(dǎo)航也是如此。
但雅虎畢竟只是將紙質(zhì)目錄搬到了互聯(lián)網(wǎng)網(wǎng)頁(yè)上,肉眼查找和不同人對(duì)網(wǎng)站分類的理解都降低了這類搜索的使用效率。于是根據(jù)關(guān)鍵詞進(jìn)行自動(dòng)查找的功能也被應(yīng)用進(jìn)搜索引擎,這其實(shí)并不難實(shí)現(xiàn),因?yàn)楦鶕?jù)關(guān)鍵詞進(jìn)行全文檢索的技術(shù)甚至早在計(jì)算機(jī)剛剛被發(fā)明的上世紀(jì)50年代就已經(jīng)出現(xiàn)(國(guó)內(nèi)的中文全文檢索技術(shù)最早被作為748工程的一部分,于80年代后期基本完成,但被廣泛應(yīng)用已經(jīng)是90年代的事了)。
第一代搜索引擎唯一的問(wèn)題是,網(wǎng)址仍然由人工收集,效率低、易出錯(cuò)、不全面。于是互聯(lián)網(wǎng)急需一種替代人工收集網(wǎng)址的技術(shù),而說(shuō)到替代人工,人們必然會(huì)聯(lián)想到的是機(jī)器人,于是第二代搜索引擎所依仗的就是機(jī)器人,用程序鑄造、組裝的游走在互聯(lián)網(wǎng)中的機(jī)器人,現(xiàn)在它被人們熟知的名字是搜索爬蟲或者搜索引擎蜘蛛。事實(shí)上,這種技術(shù)的出現(xiàn)還早于楊致遠(yuǎn)的雅虎,甚至早于萬(wàn)維網(wǎng)的誕生。
1990蒙特利爾大學(xué)學(xué)生Alan Emtage發(fā)明的Archie。雖然當(dāng)時(shí)World Wide Web還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的FTP主機(jī)中,查詢起來(lái)非常不便,因此Alan Emtage想到了開(kāi)發(fā)一個(gè)可以以文件名查找文件的系統(tǒng),于是便有了Archie。Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá)System ComputingServices大學(xué)于1993年開(kāi)發(fā)了另一個(gè)與之非常相似的搜索工具,不過(guò)此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁(yè)。
現(xiàn)在的主流搜索引擎:谷歌、必應(yīng)、百度等均采用了搜索爬蟲抓取、下載網(wǎng)頁(yè),以取代人工,這些搜索爬蟲每一定天數(shù)(例如谷歌是28天)進(jìn)行一次全互聯(lián)網(wǎng)的抓取,將所有網(wǎng)頁(yè)結(jié)果下載至自己的服務(wù)器,等待再由人們通過(guò)輸入關(guān)鍵詞提起搜索申請(qǐng)。
機(jī)器人抓取網(wǎng)頁(yè)的工作效率明顯高于人工,再加上用關(guān)鍵詞進(jìn)行檢索,新一代搜索引擎的登場(chǎng)時(shí)間理應(yīng)早于目錄式搜索和網(wǎng)址導(dǎo)航才對(duì)。但問(wèn)題在于:互聯(lián)網(wǎng)中的信息實(shí)在太多了,搜索爬蟲拿回來(lái)的網(wǎng)頁(yè),人幾乎無(wú)法再次進(jìn)行分類,而僅僅經(jīng)由關(guān)鍵詞進(jìn)行檢索,人們依然要從一團(tuán)亂麻中肉眼查找自己想要的內(nèi)容,這個(gè)使用體驗(yàn)還不如直接使用目錄。
這個(gè)問(wèn)題的解決誕生了現(xiàn)今搜索領(lǐng)域的最強(qiáng)者,也是世界上最偉大的公司之一——谷歌。上世紀(jì)90年代后期,就在雅虎取得成功,讓人們看到搜索的巨大需求之后,當(dāng)時(shí)在斯坦福大學(xué)攻讀理工博士的Larry Page 和 Sergey Brin開(kāi)發(fā)出PageRank算法,用于衡量特定網(wǎng)頁(yè)相對(duì)于搜索引擎索引中的其他網(wǎng)頁(yè)而言的重要程度。這項(xiàng)算法基本可以理解為投票,最重要的部分是計(jì)算每個(gè)網(wǎng)頁(yè)與其他網(wǎng)頁(yè)之間鏈接的多少,鏈向某個(gè)搜索結(jié)果的網(wǎng)頁(yè)越多且權(quán)重越高,那么這個(gè)搜索結(jié)果也就越重要。谷歌用這個(gè)辦法解決了搜索結(jié)果排序的問(wèn)題,以此取代了目錄式的分類,也用搜索爬蟲加PageRank的辦法取代了雅虎最早提出的搜索引擎解決方案。部分業(yè)內(nèi)人士把谷歌為代表的這一代搜索引擎稱為第二代搜索引擎,也有人認(rèn)為這才是真正意義上的搜索引擎,筆者比較支持前一種說(shuō)法。
中國(guó)的搜索引擎歷史基本是直接從第二代搜索引擎開(kāi)始的,時(shí)間是1999年,百度、中搜等老牌搜索引擎廠商從一開(kāi)始就采用了搜索爬蟲和排序算法的組合(當(dāng)時(shí)還有3721提供網(wǎng)址導(dǎo)航服務(wù),但時(shí)間與百度、中搜等幾乎重合)。與谷歌、雅虎不同,當(dāng)時(shí)的百度、中搜,都主要為門戶網(wǎng)站提供搜索技術(shù)的后臺(tái)服務(wù),而沒(méi)有自己的呈現(xiàn)網(wǎng)站。直到谷歌和雅虎在本世紀(jì)初進(jìn)入中國(guó),百度、中搜以及后來(lái)的搜搜、搜狗和再后來(lái)的360才開(kāi)始有了自己的搜索引擎網(wǎng)站。
歷史似乎到此結(jié)束,但以上說(shuō)到的最晚時(shí)間點(diǎn)距現(xiàn)在還有十年之久,搜素引擎在這十年也并非一成不變。