中文搜索引擎的十大誤區(qū)
...
誤區(qū)1、網(wǎng)站目錄就是 搜索引擎
網(wǎng)站目錄通常是經(jīng)過人工分類的有系統(tǒng)的網(wǎng)站列表,通常附帶有搜索功能。網(wǎng)站目錄就是搜索引擎的名詞始于雅虎,雅虎初創(chuàng)時就是只有一個網(wǎng)站目錄。當然很快就通過外包的形式增加了網(wǎng)頁級的搜索。中文網(wǎng)站提供目錄搜索的遠多于提供網(wǎng)頁搜索的,加之媒體的各種炒作,許多網(wǎng)民誤以為網(wǎng)站目錄的搜索功能就是搜索引擎。
在美國,因特網(wǎng)搜索引擎通常指的是收集了因特網(wǎng)上幾千萬到幾億個網(wǎng)頁并對網(wǎng)頁中的每一個詞進行索引的搜索服務系統(tǒng),是基于網(wǎng)頁的全文檢索系統(tǒng)。
誤區(qū)2、搜索引擎就是門戶站點
如果你要提供搜索服務,大家就認為你是一個門戶網(wǎng)站,你就要吸引用戶、提高頁視率(PageView)。實際上,搜索引擎完全可以為內(nèi)容提供商(ICP)、門戶網(wǎng)站提供專業(yè)的搜索服務,而不必直接面對用戶,這是一種典型的應用服務提供(ASP)模式。
誤區(qū)3、搜索引擎的概念已經(jīng)過時
搜索引擎是互聯(lián)網(wǎng)上最先商業(yè)化的一個應用服務,它對于幫助網(wǎng)民快速尋找到所需要的信息非常關鍵。因特網(wǎng)搜索引擎是一個全自動的軟件服務,并且非常容易在搜索結(jié)果網(wǎng)頁中插入具有很高針對性的廣告,CPM 最高可達70美元;所以一旦投入運轉(zhuǎn),其收益與成本的比率遠高于一般的網(wǎng)站內(nèi)容服務。根據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)2000年1月的統(tǒng)計結(jié)果,在中國網(wǎng)民中,搜索是排在電子郵件之后的第二大互聯(lián)網(wǎng)應用。
誤區(qū)4、中文搜索引擎技術(shù)已經(jīng)成熟
不要說中文,即使英文的搜索引擎也沒有發(fā)展成熟。這一方面表現(xiàn)在新的搜索引擎公司層出不窮,如Google, ASK Jeeves等;另一方面更表現(xiàn)在美國前三大網(wǎng)站都外包了它們的網(wǎng)頁搜索部分。實際上,美國在線、雅虎和微軟網(wǎng)絡的搜索服務都是由一家叫Inktomi 的公司提供的。這是因為搜索引擎技術(shù)變化非??欤@些網(wǎng)站無法自行跟蹤最前沿的技術(shù)。之所以有人會有搜索引擎技術(shù)已經(jīng)成熟的概念,其實是因為網(wǎng)站門戶公司意識到了它們的長處并不是搜索技術(shù)的創(chuàng)新,而是互聯(lián)網(wǎng)上大眾品牌的建立。
中文搜索引擎技術(shù)出現(xiàn)的時間并不比英文的晚多少,然而發(fā)展速度卻遠遠趕不上英文,這是由于網(wǎng)頁級搜索引擎的開發(fā)難度相當大,該方面的專業(yè)人才奇缺,有開發(fā)這種搜索引擎經(jīng)驗的人,即使在硅谷也屬鳳毛麟角,開發(fā)所需要的硬件要求也比一般的網(wǎng)頁制作高出很多。 百度公司結(jié)合硅谷搜索引擎人才精英,依托北京最優(yōu)秀的軟件人才,開發(fā)了大型商業(yè)化的中文搜索引擎,中文搜索從此與英文站在了同一起跑線上。
誤區(qū)5、中文搜索引擎速度很慢
某些中文網(wǎng)站的網(wǎng)頁搜索服務外包給了一些服務器在境外的應用服務提供商(ASP),如Altavista 或Openfind等, 由于用戶搜索需要占用出國帶寬,因而速度極慢。這不是中文搜索引擎的錯,而是這些網(wǎng)站沒有選對ASP 所致。
誤區(qū)6、中英文混合檢索詞是不被支持的
當你輸入“MP3” 時,有些網(wǎng)站會認為你在查找英文網(wǎng)頁,進而自動將你送到一個英文搜索引擎上;更多的網(wǎng)頁搜索服務不能對“甲A”、“F-1一級方程式”等中英混合查詢作出恰當?shù)姆磻?。然而搜索技術(shù)并非對此無能為力,百度搜索就完全解決了中英文混查的問題。
誤區(qū)7、中文搜索引擎的相關性無法與英文相媲美
中文與英文最大的不同之處在于中文中有詞的概念,檢索字串與網(wǎng)頁中文字的簡單匹配并不見得就是語義上的匹配;要想提高中文搜索的相關性,必須結(jié)合中文詞和中文字,并使用一些先進的算法,如新一代信息檢索(IR)算法、超鏈分析(Link Analysis)等。中文搜索也有許多英文搜索望塵莫及之處,如中文網(wǎng)頁極少有針對搜索引擎的欺騙(Spamming)行為,中文沒有單復數(shù)、時態(tài)等的變化,大多數(shù)先進的算法也完全適用于中文。中文搜索的相關性完全可以與英文媲美。百度搜索使用了目前國際上先進的搜索引擎技術(shù),并結(jié)合中文的語言特點和文化特點,成功地解決了中文搜索的相關性問題。
誤區(qū)8、用戶要找的信息在網(wǎng)上不存在
目前大多數(shù)的中文搜索引擎都收集了較少數(shù)量的網(wǎng)頁,收集上百萬的就算是信息量很大了;可是隨著中國互聯(lián)網(wǎng)的繁榮、政府、企業(yè)和各行各業(yè)對互聯(lián)網(wǎng)的重視,以及大量風險投資的進入,中文互聯(lián)網(wǎng)的內(nèi)容日益豐富,網(wǎng)頁數(shù)量激增。另外很多搜索引擎不支持新的中文編碼標準,如“GBK”。例如“朱镕基”的“镕”字不在GB2312的字符集中,但是卻在GBK編碼中可以找到,許多搜索引擎由于不支持GBK,因而用“朱镕基”無法找到有關的網(wǎng)頁。所以許多網(wǎng)上存在的信息在當前的主要搜索引擎中無法找到很可能是因為您用的搜索引擎不好,而不是因為您要找的信息在網(wǎng)上不存在。
誤區(qū)9、搜索引擎數(shù)據(jù)更新最快要30天
對于那些依靠海外服務器提供檢索的網(wǎng)站來說,這也許是對的; 網(wǎng)易掌門丁磊辭職的消息傳出后的三個星期內(nèi),各大門戶網(wǎng)站的網(wǎng)頁搜索服務都無法查到任何相關的網(wǎng)頁。但這絕不是說及時更新數(shù)據(jù)是做不到的。百度搜索就巧妙地解決了數(shù)據(jù)更新的瓶頸,整個中文網(wǎng)頁的數(shù)據(jù)庫可以最快每天更新一次。
誤區(qū)10、搜索引擎不能查找動態(tài)生成的網(wǎng)頁
目前世界上沒有一家主要的搜索引擎支持動態(tài)網(wǎng)頁,因為大多數(shù)負責搜索網(wǎng)頁的蜘蛛軟件不敢去碰動態(tài)網(wǎng)頁,怕被變化無窮的動態(tài)系統(tǒng)黑洞吸進去出不來。然而,網(wǎng)站使用動態(tài)網(wǎng)頁生成工具乃是大勢所趨,ASP、 PHP、 JSP 等編程工具日益流行,解決動態(tài)網(wǎng)頁查找的問題已經(jīng)是人心所向。百度在這一方面又在國際互聯(lián)網(wǎng)界首開先河,成功解決了動態(tài)網(wǎng)頁的收集和索引問題,用搜索引擎來查找動態(tài)生成的網(wǎng)頁已經(jīng)不是神話。
上一條:網(wǎng)絡營銷:功夫在詩外
下一條:ASP字符串函數(shù)大全