信息的迅速增長必然需要強大的信息檢索工具,而在信息檢索工具中,全文檢索是最具通用性和實用性的;ヂ(lián)網(wǎng)迅速發(fā)展所代表的信息爆炸對全文檢索技術(shù)又提出了新的要求。
應(yīng)用領(lǐng)域
互聯(lián)網(wǎng)的普及,使得全文檢索技術(shù)真正成熟起來,其應(yīng)用范圍已經(jīng)擴展到Internet的各個領(lǐng)域:
Internet搜索引擎
Internet搜索引擎包括三個部分:收集網(wǎng)頁的機器人、分類和索引及檢索引擎,全文檢索技術(shù)是搜索引擎的核心支撐技術(shù)。搜索引擎比傳統(tǒng)的信息檢索更為復(fù)雜,表現(xiàn)在:
信息是分布在Web空間的,要求系統(tǒng)對平臺、網(wǎng)絡(luò)等各種復(fù)雜環(huán)境的適應(yīng)能力強;信息不穩(wěn)定,動態(tài)性強,因此要求系統(tǒng)的動態(tài)索引技術(shù)具有超級性能;信息是海量的,要求檢索引擎具有先進的查詢算法,并且對相關(guān)排序要求很高;由于搜索引擎的用戶是普通用戶,因此使用知識詞典進行啟發(fā)式檢索就顯得特別重要;相關(guān)排序(Relevance Ranking)和相關(guān)反饋(Relevance Feedback)技術(shù)對Internet搜索特別重要。一次最普通的檢索可能得到成千上萬的結(jié)果。用戶應(yīng)該首先得到最相關(guān)的結(jié)果,可惜的是,單純基于IDF的相關(guān)性模型,很難得到理想的結(jié)果,應(yīng)該很好地利用HTML文檔的"結(jié)構(gòu)特征"。相關(guān)反饋能夠根據(jù)用戶對檢索引擎的命中結(jié)果的判別執(zhí)行更加符合用戶意圖的查詢。
.COM網(wǎng)站的站點檢索
一個好的檢索引擎是一個理想站點的關(guān)鍵。很多人在訪問一個站點時喜歡使用站點檢索,站點檢索應(yīng)是分類目錄導(dǎo)航和全文檢索的完美結(jié)合,具體包括以下幾個方面:
分類目錄導(dǎo)航的關(guān)鍵是檢索范圍,檢索范圍的限制能使得檢索結(jié)果不會太多、太濫;全文檢索對于站點檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網(wǎng)頁;有時利用分類目錄導(dǎo)航和全文檢索還很難定位到所要的信息,這時就要組合檢索輔助;必須有相關(guān)排序功能,因為當檢索結(jié)果太多時,用戶不可能一一瀏覽,大多數(shù)用戶只瀏覽前面幾條,沒有相關(guān)排序,可能準確的檢索結(jié)果排在后面,用戶不能瀏覽到,而排在前面的檢索結(jié)果卻相關(guān)性很少,造成用戶的錯覺。
此外,我們還要考慮HTML/XML的特殊性、支持大量并發(fā)用戶突發(fā)訪問、Web站點的動態(tài)特性、要求索引維護效率很高等方面。
企業(yè)信息門戶的檢索引擎
根據(jù)未來協(xié)會經(jīng)濟學(xué)家Tim Oren的理論:你與消費者甚至競爭者分享的東西越多,你就越成功。電子化企業(yè)應(yīng)以建立企業(yè)信息門戶為重點,把企業(yè)信息庫的信息發(fā)布到公司的Internet/Intranet Web站點上,與Intranet的同事共享公司信息,或者與公司的客戶/合作伙伴分享公司信息。企業(yè)信息門戶的一個核心問題是建立一個高效的知識檢索解決方案,在該解決方案中,對信息檢索的要求包括:
* 跨越所有的數(shù)據(jù)源。包括文件系統(tǒng)、消息系統(tǒng)(E-mail System)、新聞組、各種關(guān)系數(shù)據(jù)庫管理系統(tǒng)以及Web網(wǎng)站等,支持各種數(shù)據(jù)和信息格式。
* 檢索結(jié)果需要按照商業(yè)分類規(guī)則(Business Classification Rules)進行排列。對于用戶某個特殊的知識檢索請求,把所有不同信息類別中的命中結(jié)果按照相關(guān)性或分類排列。
* 能夠瀏覽不同格式的信息。用戶不需要安裝產(chǎn)生這些信息和知識的原始軟件。
電子商務(wù)網(wǎng)站的內(nèi)容檢索引擎
全文檢索等信息檢索手段對于一個電子商務(wù)站點是很重要的,借助信息檢索技術(shù)可以幫助客戶快速定位到所要的信息或產(chǎn)品。檢索成為商機,成為一筆業(yè)務(wù)成功的一個要素,如拍賣行電子商務(wù)站點,客戶通常根據(jù)關(guān)鍵詞或者摘要中的關(guān)鍵詞來查找所要的物品。在電子商務(wù)系統(tǒng)中,數(shù)據(jù)全部在具有嚴格安全控制的數(shù)據(jù)庫中,信息檢索不是靜態(tài)網(wǎng)頁,而是動態(tài)生成網(wǎng)頁,對電子商務(wù)站點的系統(tǒng)資源開銷是很大的。大量并發(fā)用戶突發(fā)訪問情況下的可靠性,是電子商務(wù)對全文檢索系統(tǒng)的基本要求。
Internet時代信息收集和交換的桌面平臺
Internet時代,需要這么一個信息收集和交換的桌面平臺:它不僅能夠進行桌面文檔的管理和Internet信息的收集,而且它還可以作為信息交換的桌面平臺。
* 桌面文檔的管理:管理PC桌面上的文件, 并加以歸檔分類?梢怨芾淼奈募(yīng)包括Text、 HTML/XML、 PDF、 Microsoft Office、 WPS、S2/PS2/PS等流行格式。
* Internet信息的收集:使用IE等瀏覽器瀏覽Internet網(wǎng)頁時,能夠把要保存的網(wǎng)頁拖入本地PC桌面上的個人資料庫, 并加以歸檔分類以便日后再利用。
* 作為B2C/C2C信息交換的桌面平臺:個人或企業(yè)可通過它交換和銷售資料庫。
發(fā)展趨勢
全文檢索(Full Text Retrieval)在技術(shù)上日趨成熟。中文全文檢索技術(shù)的研發(fā)始于1987年左右,目前已經(jīng)商品化的軟件有近10種。可喜的是,國內(nèi)廠商自主開發(fā)的全文檢索系統(tǒng)居于領(lǐng)先地位,市場占有率超過90%以上,包括fullsearcher、TRS、Quick IMS、南辰、 天宇、I-Search等。自主中文全文檢索技術(shù)已經(jīng)達到了較高水平,在傳統(tǒng)市場也獲得了很高的占有率,但是要在整體上提高中文全文檢索系統(tǒng)的水平和可用性,必須在如下幾個方面有突破:
(1) 中文自然語言處理技術(shù) 無論從數(shù)據(jù)挖掘角度來提高全文檢索的查全率和查準率,還是提供更易使用的自然語言查詢接口方面,中文自然語言處理仍然是關(guān)鍵因素,這也是中文全文檢索系統(tǒng)領(lǐng)先于國外同類產(chǎn)品的問題所在。 (2) 全文檢索系統(tǒng)的評價 與其他領(lǐng)域一樣,我國全文檢索技術(shù)的研究和系統(tǒng)開發(fā)缺乏科學(xué)的評價,國際上TREC Conference(http://trec.nist.gov) 被認為是最具權(quán)威的信息檢索技術(shù)評測規(guī)范,實驗室系統(tǒng)、商業(yè)系統(tǒng)均積極參加。但國內(nèi)的系統(tǒng)至今沒有參與,要得到國際上的認可,就必須參加TREC。 (3)系統(tǒng)的可靠性 沒有99.999%以上的可靠性,就無法適應(yīng)NonStop eBusiness(永不停頓電子商務(wù))等關(guān)鍵業(yè)務(wù)的苛刻需求。 (4)系統(tǒng)的響應(yīng)速度 分析用戶檢索表達式的使用頻度,大大加速在子集里檢索的速度。無論數(shù)據(jù)庫多大,檢索詞的檢索速度均在1秒之內(nèi)。
最新進展
以中文全文檢索為核心開發(fā)的fullsearcher檢索系統(tǒng),可以廣泛地應(yīng)用于各種信息數(shù)據(jù)庫、信息門戶的建設(shè), 以及從Web站點檢索、Internet搜索引擎到電子商務(wù)等各種應(yīng)用中文信息的發(fā)布檢索。在眾多的中文全文檢索軟件中,其最新的進展表現(xiàn)在: 。1)領(lǐng)先的中文信息處理技術(shù) 內(nèi)嵌漢語自動分詞系統(tǒng),支持按詞索引、按字索引、按關(guān)鍵詞索引、字詞混合索引,大大提高了檢索的準確性和響應(yīng)時間。 (2)檢索信息快、準而且全 基于成本優(yōu)化的查詢算法,使得G級數(shù)據(jù)庫查詢速度達到亞秒級,并支持大量并發(fā)用戶同時訪問。允許使用文中的任意字、詞、句和片段進行檢索,提供了基于文獻內(nèi)容而不僅僅是文獻外部特征的全文檢索手段。TRS所提供的按詞和按用戶自定義關(guān)鍵詞進行索引和檢索,以及基于知識詞典的擴展檢索功能,滿足了特殊應(yīng)用領(lǐng)域的高查準率和高查全率的要求。 (3)檢索功能強大 全方位檢索手段,支持與搜索、去除搜索等標準的國際搜索語法。另外拼音搜索、南方音模糊搜索、多字漏字錯字模糊搜索、對檢索結(jié)果按與檢索表達式的相關(guān)性和重要性程序排序等。
詳情請點擊查看“全文檢索者搜索軟件系列介紹”
全文檢索已經(jīng)成為網(wǎng)站的必備功能,隨著政府上網(wǎng)、企業(yè)上網(wǎng)的深入開展,網(wǎng)上中文信息和電子商務(wù)應(yīng)用的不斷豐富,必然對基于互聯(lián)網(wǎng)的中文全文檢索技術(shù)提出更高的要求。技術(shù)的進步是沒有終點的,更快更準永遠是全文檢索技術(shù)的追求。 |