|
 |
當(dāng)前位置:首 頁 > 搜索引擎的技術(shù)發(fā)展趨勢 |
|
搜索引擎的技術(shù)發(fā)展趨勢 |
發(fā)布日期:2007-5-25 |
關(guān)鍵詞:發(fā)展趨勢 |
搜索引擎經(jīng)過幾年的發(fā)展和摸索,越來越貼近人們的需求,搜索引擎的技術(shù)也得到了很大的發(fā)展。搜索引擎的最新技術(shù)發(fā)展包括以下幾個(gè)方面:
一、提高搜索引擎對用戶檢索提問的理解
為了提高搜索引擎對用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“how can kill virus of computer?”。搜索引擎在對提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。自然語言的優(yōu)勢在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會用“virus”這個(gè)詞來檢索,結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“how can kill virus of computer?”,搜索引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。
二、對檢索結(jié)果進(jìn)行處理
1)基于鏈接評價(jià)的搜索引擎
基于鏈接評價(jià)的搜索引擎的優(yōu)秀代表是Googel(http://www.googel.com),它獨(dú)創(chuàng)的“鏈接評價(jià)體系”是基于這樣一種認(rèn)識,一個(gè)網(wǎng)頁的重要性取決于它被其它網(wǎng)頁鏈接的數(shù)量,特別是一些已經(jīng)被認(rèn)定是“重要”的網(wǎng)頁的鏈接數(shù)量。這種評價(jià)體制與《科技引文索引》的思路非常相似,但是由于互聯(lián)網(wǎng)是在一個(gè)商業(yè)化的環(huán)境中發(fā)展起來的,一個(gè)網(wǎng)站的被鏈接數(shù)量還與它的商業(yè)推廣有著密切的聯(lián)系,因此這種評價(jià)體制在某種程度上缺乏客觀性。
2)基于訪問大眾性的搜索引擎
基于訪問大眾性的搜索引擎的代表是direct hit,它的基本理念是多數(shù)人選擇訪問的網(wǎng)站就是最重要的網(wǎng)站。根據(jù)以前成千上萬的網(wǎng)絡(luò)用戶在檢索結(jié)果中實(shí)際所挑選并訪問的網(wǎng)站和他們在這些網(wǎng)站上花費(fèi)的時(shí)間來統(tǒng)計(jì)確定有關(guān)網(wǎng)站的重要性 排名,并以此來確定哪些網(wǎng)站最符合用戶的檢索要求。因此具有典型的趨眾性特點(diǎn)。這種評價(jià)體制與基于鏈接評價(jià)的搜索引擎有著同樣的缺點(diǎn)。
3)去掉檢索結(jié)果中附加的多余信息
有調(diào)查指出,過多的附加信息加重了用戶的信息負(fù)擔(dān),為了去掉這些過多的附加信息,可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。
三、確定搜索引擎信息搜集范圍,提高搜索引擎的針對性
1)垂直主題搜索引擎
網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以十倍速的增長,一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地,比如象股票、天氣、新聞等類的搜索引擎,具有很高的針對性,用戶對查詢結(jié)果的滿意度較高。作者認(rèn)為,垂直主題有著極大的發(fā)展空間。
2)非www信息的搜索
提供FTP等類信息的檢索
3)多媒體搜索引擎
多媒體檢索主要包括聲音、圖像的檢索。
四、將搜索引擎的技術(shù)開發(fā)重點(diǎn)放在對檢索結(jié)果的處理上,提供更優(yōu)化的檢索結(jié)果
1)純凈搜索引擎
這類搜索引擎沒有自己的信息采集系統(tǒng),利用別人現(xiàn)有的索引數(shù)據(jù)庫,主要關(guān)注檢索的理念、技術(shù)和機(jī)制等。
2)元搜索引擎
現(xiàn)在出現(xiàn)了許多的搜索引擎,其收集信息的范圍、搜索機(jī)制、算法等都不同,用戶不得不去學(xué)習(xí)多個(gè)搜索引擎的用法。每個(gè)搜索引擎平均只能涉及到整個(gè)www資源的30-50%(search engine watch數(shù)據(jù)),這樣導(dǎo)致同一個(gè)搜索請求在不同搜索引擎中獲得的查詢結(jié)果的重復(fù)率不足34%,而每一個(gè)搜索引擎的查準(zhǔn)率不到45%。
元搜索引擎(metasearch enging)是將用戶提交的檢索請求到多個(gè)獨(dú)立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個(gè)性搜索功能的設(shè)置和用戶檢索界面的友好性上,查全率和查準(zhǔn)率都比較高。目前比較成功的元搜索引擎有metacrawler、dopile、ixquick等。
| |
|
上一條:
互聯(lián)網(wǎng)需要全文檢索 |
|
下一條:
主要中文網(wǎng)頁搜索引擎介紹
|
|
 |
|