国产一区二区三区视频,亚洲精品无码成人A片在线牛奶,99精品视频在线观看,免费黃色三級片在线观看18

国产精成人品麻豆,无码秘 蜜桃一区二区
建站流程 建站意向表 客戶案例 付款方式 聯(lián)系我們 加入收藏
河南鄭州網(wǎng)站建設(shè)銷售咨詢電話:13073728811(24小時值班)  客服電話0371-60988783
首 頁網(wǎng)站建設(shè)網(wǎng)站推廣 5107網(wǎng)站伴侶 域名注冊 虛擬主機(jī) 企業(yè)郵局 關(guān)于我們 合作代理 網(wǎng)上商店 企業(yè)郵箱
征途新聞
公司新聞
行業(yè)新聞
服務(wù)項(xiàng)目
網(wǎng)站建設(shè) 網(wǎng)站推廣
域名注冊 虛擬主機(jī)
網(wǎng)站伴侶 運(yùn)營維護(hù)
聯(lián)系我們

聯(lián)系電話:
0371-60273020       60273015
      60273016
      60273017
傳    真:
0371-60273018

 
當(dāng)前位置:首 頁 > 中文搜索引擎技術(shù)揭密:中
中文搜索引擎技術(shù)揭密:中文分詞
發(fā)布日期:2007-5-25
關(guān)鍵詞:中文搜索引擎技術(shù)揭密


    信息的飛速增長,使搜索引擎成為人們查找信息的首選工具,Google、百度、中國搜索等大型搜索引擎一直是人們討論的話題。隨著搜索市場價值的不斷增加,越來越多的公司開發(fā)出自己的搜索引擎,阿里巴巴的商機(jī)搜索、8848的購物搜索等也陸續(xù)面世,自然,搜索引擎技術(shù)也成為技術(shù)人員關(guān)注的熱點(diǎn)。


    搜索引擎技術(shù)的研究,國外比中國要早近十年,從最早的Archie,到后來的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎發(fā)展至今,已經(jīng)有十幾年的歷史,而國內(nèi)開始研究搜索引擎是在上世紀(jì)末本世紀(jì)初。在許多領(lǐng)域,都是國外的產(chǎn)品和技術(shù)一統(tǒng)天下,特別是當(dāng)某種技術(shù)在國外研究多年而國內(nèi)才開始的情況下。例如操作系統(tǒng)、字處理軟件、瀏覽器等等,但搜索引擎卻是個例外。雖然在國外搜索引擎技術(shù)早就開始研究,但在國內(nèi)還是陸續(xù)涌現(xiàn)出優(yōu)秀的搜索引擎,像百度(http://www.baidu.com)、中搜(http://www.zhongsou.com)等。目前在中文搜索引擎領(lǐng)域,國內(nèi)的搜索引擎已經(jīng)和國外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面,有一個重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對于計算機(jī)涉及的技術(shù)就是中文分詞。


    什么是中文分詞


    眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:“我是一個學(xué)生”。計算機(jī)可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學(xué)生,分詞的結(jié)果是:我 是 一個 學(xué)生。


    中文分詞和搜索引擎


    中文分詞到底對搜索引擎有多大影響?對于搜索引擎來說,最重要的并不是找到所有結(jié)果,因?yàn)樵谏习賰|的網(wǎng)頁中找到所有結(jié)果沒有太多的意義,沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序。筆者最近替朋友找一些關(guān)于日本和服的資料,在搜索引擎上輸入“和服”,得到的結(jié)果就發(fā)現(xiàn)了很多問題。下面就以這個例子來說明分詞對搜索結(jié)果的影響,在現(xiàn)有三個中文搜索引擎上做測試,測試方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)、中搜(http://www.zhongsou.com)上以“和服”為關(guān)鍵詞進(jìn)行搜索:


    在Google上輸入“和服”搜索所有中文簡體網(wǎng)頁,總共結(jié)果507,000條,前20條結(jié)果中有14條與和服一點(diǎn)關(guān)系都沒有。在第一頁就有以下錯誤:


    “通信信息報:瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場”


    “使用純HTML的通用數(shù)據(jù)管理和服務(wù)- 開發(fā)者- ZDNet ...”


    “陳慧琳《心口不一》化妝和服裝自己包辦”


    “::外交部:中國境外領(lǐng)事保護(hù)和服務(wù)指南(2003年版) ...”


    “產(chǎn)品和服務(wù)”


    等等。第一頁只有三篇是真正在講“和服”的結(jié)果。


    在百度上輸入“和服”搜索網(wǎng)頁,總共結(jié)果為287,000條,前20條結(jié)果中有6條與和服一點(diǎn)關(guān)系都沒有。在第一頁有以下錯誤:


    “福建省晉江市恒和服裝有限公司系獨(dú)資企業(yè)”


    “關(guān)于商品和服務(wù)實(shí)行明碼標(biāo)價的規(guī)定”


    “青島東和服裝設(shè)備”


    在中搜上輸入“和服”搜索網(wǎng)頁,總共結(jié)果為26,917條,前20條結(jié)果都是與和服相關(guān)的網(wǎng)頁。


    這次搜索引擎結(jié)果中的錯誤,就是由于分詞的不準(zhǔn)確所造成的。通過筆者的了解,Google的中文分詞技術(shù)采用的是美國一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分詞技術(shù),百度使用的是自己公司開發(fā)的分詞技術(shù),中搜使用的是國內(nèi)海量科技(http://www.hylanda.com)提供的分詞技術(shù)。由此可見,中文分詞的準(zhǔn)確度,對搜索引擎結(jié)果相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系。


    中文分詞技術(shù)


    中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機(jī)也能理解?其處理過程就是分詞算法。


    現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。


    1、基于字符串匹配的分詞方法


    這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最。ㄗ疃蹋┢ヅ;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:


    1)正向最大匹配法(由左到右的方向);


    2)逆向最大匹配法(由右到左的方向);


    3)最少切分(使每一句中切出的詞數(shù)最。


    還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。


    一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。


    對于機(jī)械分詞方法,可以建立一個一般的模型,在這方面有專業(yè)的學(xué)術(shù)論文,這里不做詳細(xì)論述。


    2、基于理解的分詞方法


    這種分詞方法是通過讓計算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。


    3、基于統(tǒng)計的分詞方法


    從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度?梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算兩個漢字X、Y的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便可認(rèn)為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實(shí)際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點(diǎn)。


    到底哪種分詞算法的準(zhǔn)確度更高,目前并無定論。對于任何一個成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)方概念,即用不同的藥才綜合起來去醫(yī)治疾病,同樣,對于中文詞的識別,需要多種算法來處理不同的問題。


    分詞中的難題


    有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計算機(jī)理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。


    1、歧義識別


    歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個短語就可以分成“表面 的”和“表 面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,前面舉的“和服”的例子,其實(shí)就是因?yàn)榻徊嫫缌x引起的錯誤!盎瘖y和服裝”可以分成“化妝 和 服裝”或者“化妝 和服 裝”。由于沒有人的知識去理解,計算機(jī)很難知道到底哪個方案正確。


    交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個句子來判斷了。例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機(jī)又如何去識別?


    如果交叉歧義和組合歧義計算機(jī)都能解決的話,在歧義中還有一個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。


    2、新詞識別


    新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個詞,因?yàn)槭且粋人的名字,但要是讓計算機(jī)去識別就困難了。如果把“王軍虎”做為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會存在問題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞?


    新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的新詞識別十分重要。目前新詞識別準(zhǔn)確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標(biāo)志之一。


    中文分詞的應(yīng)用


    目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因?yàn)橹形谋匦栌蟹衷~這道工序。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。因?yàn)橹形男枰衷~,可能會影響一些研究,但同時也為一些企業(yè)帶來機(jī)會,因?yàn)閲獾挠嬎銠C(jī)處理技術(shù)要想進(jìn)入中國市場,首先也是要解決中文分詞問題。在中文研究方面,相比外國人來說,中國人有十分明顯的優(yōu)勢。


    分詞準(zhǔn)確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。目前研究中文分詞的大多是科研院校,清華、北大、中科院、北京語言學(xué)院、東北大學(xué)、IBM研究院、微軟中國研究院等都有自己的研究隊(duì)伍,而真正專業(yè)研究中文分詞的商業(yè)公司除了海量科技以外,幾乎沒有了?蒲性盒Q芯康募夹g(shù),大部分不能很快產(chǎn)品化,而一個專業(yè)公司的力量畢竟有限,看來中文分詞技術(shù)要想更好的服務(wù)于更多的產(chǎn)品,還有很長一段路。

上一條: 互聯(lián)網(wǎng)需要全文檢索
  下一條: 沒有了
征途介紹 | 征途新聞 | 客戶服務(wù) | 版權(quán)聲明 | 友情鏈接 | 聯(lián)系我們 | 網(wǎng)站建設(shè) | 網(wǎng)站推廣
版權(quán)所有:鄭州征途信息技術(shù)有限公司 地址:鄭州市管城區(qū)地鐵2號線二里崗B口斜對面中國郵政鄭州跨境電商產(chǎn)業(yè)園2樓210
聯(lián)系電話:0371-60988783 13073728811 豫ICP備19037742號-3

本站關(guān)鍵詞:鄭州網(wǎng)站建設(shè)公司 鄭州網(wǎng)站建設(shè) 鄭州電子商務(wù) 鄭州網(wǎng)站設(shè)計 鄭州網(wǎng)站策劃 河南鄭州網(wǎng)站建設(shè) 鄭州網(wǎng)站制作 鄭州建網(wǎng)站
鄭州網(wǎng)站制作 鄭州做網(wǎng)站的公司 網(wǎng)站托管 鄭州 鄭州網(wǎng)絡(luò)公司 新鄉(xiāng)網(wǎng)絡(luò)公司 河南網(wǎng)絡(luò)公司 洛陽網(wǎng)絡(luò)公司 網(wǎng)站建設(shè) 電子商務(wù)網(wǎng)站
建網(wǎng)站 網(wǎng)站設(shè)計 鄭州虛擬主機(jī) 新鄉(xiāng)網(wǎng)站建設(shè) 鄭州 網(wǎng)站制作 安陽網(wǎng)絡(luò)公司 焦作網(wǎng)絡(luò)公司 網(wǎng)頁設(shè)計 鄭州網(wǎng)頁設(shè)計 鄭州網(wǎng)站制作 在線客服
網(wǎng)頁制作 網(wǎng)站制作 河南網(wǎng)站建設(shè) 烽火臺 網(wǎng)絡(luò)推廣 鄭州網(wǎng)站推廣 網(wǎng)站建設(shè)方案 網(wǎng)絡(luò)營銷 河南網(wǎng)站建設(shè)公司 鄭州5107網(wǎng)站伴侶 

红桃视频成人免费无码 | 久产久人精午夜精国 | 国产日韩欧美在线观看 | 国产91 丝袜在线播放 | 久久久亚洲AV无码午 | 丰满老妇高潮一级A片 | 精品女同A片中文字幕 | 国产亚洲综合一区二区 | 国产精品无码免费视频 | 国产做a一级毛片久久 | 国产黃色A片三級三級三級狼狈 | 色欲蜜乳熟妇精品久久 | 天天摸天天日天天碰 | 国产在线拍偷自揄拍精品 | 国产黑料网爆AV在线 | 国精品无码一区二区 | 一本色道**综合**人妻 | 成人无码区免费A片久久鸭 国产精品无码一级毛片古代 | 亚洲精品午夜国产va久久成人 | 一级A婬片试看26分钟 | 亚洲中文久久久精采av | 91在线无码精品秘 色 | 中文字幕一二三区 | 99国产精品在线观看 | 91性高潮久久久久久久 | 在线观看成人免费视频 | 免费国产传媒av在线观看 | 国产精品 久久久精品软件 中文字幕在线观看一区二区 | 9l视频自拍蝌蚪9l视频在线看 | 丰满少妇一级毛片视频 | www.国产精品.com | 中文字幕人妻无码精品一区二区 | 午夜国产A久久片亚洲最大 影音先锋中文字幕在线观看 | 91精品国产92久久久久无码观看 | 97精品久久久久久久 | 美女性感黄色免费网站 | 欧美掇BBBBB掇BBBBB | 老色鬼AV成人 在线 东北农村精选一区二区 | 欧美一级A片久久久 | 成人A片在线免费观看 | 色哟哟www在线观看 后人翘臀少妇在线观看 |