注意:原創(chuàng)文章,無(wú)版權(quán),可以任意轉(zhuǎn)載,但必須完整轉(zhuǎn)載全文、url和內(nèi)部解釋性鏈接
WEB結(jié)構(gòu)化信息抽取就是將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。是垂直搜索引擎和通用搜索引擎最大的差別。 如:比較購(gòu)物搜索那就需要抓取網(wǎng)頁(yè)后,對(duì)網(wǎng)頁(yè)中的商品信息進(jìn)行抽取,抽取出商品名稱(chēng)、價(jià)格、簡(jiǎn)介……甚至可以進(jìn)一步將筆記本簡(jiǎn)介細(xì)分成“品牌、型號(hào)、CPU、內(nèi)存、硬盤(pán)、顯示屏、……” 房產(chǎn)信息搜索那就應(yīng)該抽取出那應(yīng)該抽取出:類(lèi)型、地域、地址、房型、面積、裝修情況、租金、聯(lián)系人、聯(lián)系電話(huà)…… 公司企業(yè)信息搜索那就應(yīng)該抽取出:公司名稱(chēng)、地址、電話(huà)、聯(lián)系人…… ………… 結(jié)構(gòu)化信息抽取有兩種方式可以實(shí)現(xiàn),比較簡(jiǎn)單的是模板方式,還有一種是對(duì)網(wǎng)頁(yè)不依賴(lài)的網(wǎng)頁(yè)庫(kù)級(jí)的結(jié)構(gòu)化信息抽取方式。
模板方式是事先對(duì)特定的網(wǎng)頁(yè)進(jìn)行配置模板,抽取模板中設(shè)置好的需要的信息,可以針對(duì)有限個(gè)網(wǎng)站的信息進(jìn)行精確的采集。 特點(diǎn):簡(jiǎn)單、精確、技術(shù)難度低、方便快速部署。 缺點(diǎn):需要針對(duì)每一個(gè)信息源的網(wǎng)站模板進(jìn)行單獨(dú)的設(shè)定在信息源多樣性的情況下維護(hù)量巨大是不可完成的維護(hù)量。所以這種方式適合少量信息源的信息處理,不是搜索引擎級(jí)的應(yīng)用,很難滿(mǎn)足用戶(hù)對(duì)查全率的需求。
網(wǎng)頁(yè)庫(kù)結(jié)構(gòu)化信息抽取是采用頁(yè)面結(jié)構(gòu)分析與智能節(jié)點(diǎn)分析轉(zhuǎn)換的方法,自動(dòng)抽取結(jié)構(gòu)化的數(shù)據(jù)。 特點(diǎn):可對(duì)任意的正常網(wǎng)頁(yè)進(jìn)行抽取,完全自動(dòng)化,不用對(duì)具體網(wǎng)站事先生成模板,對(duì)每個(gè)網(wǎng)頁(yè)自動(dòng)實(shí)時(shí)得生成抽取規(guī)則,完全不需要人工干預(yù)。智能抽取準(zhǔn)確率高,不是機(jī)械的匹配,采用智能分析技術(shù),準(zhǔn)確率能達(dá)到98%以上。能保證較快處理速度,由于采用頁(yè)面的智能分析技術(shù),先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好,易于維護(hù),只需設(shè)定參數(shù)、配置相應(yīng)的特征就能改進(jìn)相應(yīng)的抽取性能;一般的非專(zhuān)業(yè)人員經(jīng)過(guò)簡(jiǎn)單培訓(xùn)就能維護(hù)。 缺點(diǎn):技術(shù)難度高,前期研發(fā)成本高,周期長(zhǎng)。適合網(wǎng)頁(yè)庫(kù)級(jí)別結(jié)構(gòu)化數(shù)據(jù)采集和搜索的高端應(yīng)用。
我們的技術(shù)是對(duì)網(wǎng)頁(yè)不依賴(lài)的web結(jié)構(gòu)化信息抽取技術(shù),適合高端的垂直搜索應(yīng)用或者高端的競(jìng)爭(zhēng)情報(bào)分析系統(tǒng)。
|