国产一区二区三区视频,亚洲精品无码成人A片在线牛奶,99精品视频在线观看,免费黃色三級片在线观看18

特大肥婆BBBWBBBw,亚洲激情在线视频,亚洲国产精品无码

建站流程

河南鄭州網(wǎng)站建設(shè)銷(xiāo)售咨詢(xún)電話(huà)：13073728811(24小時(shí)值班) 客服電話(huà)0371-60988783

首頁(yè)網(wǎng)站建設(shè)網(wǎng)站推廣 5107網(wǎng)站伴侶域名注冊(cè) 虛擬主機(jī) 企業(yè)郵局關(guān)于我們合作代理網(wǎng)上商店企業(yè)郵箱

征途新聞

公司新聞

行業(yè)新聞

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)	網(wǎng)站推廣
域名注冊(cè)	虛擬主機(jī)
網(wǎng)站伴侶	運(yùn)營(yíng)維護(hù)

聯(lián)系我們

聯(lián)系電話(huà)：
0371－60273020       60273015
      60273016
      60273017
傳    真：
0371－60273018

當(dāng)前位置：首頁(yè) > WEB網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取

WEB網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取技術(shù)介紹(網(wǎng)頁(yè)庫(kù)級(jí))

發(fā)布日期：2007-5-25

關(guān)鍵詞：結(jié)構(gòu)化信息抽取，信息抽取

注意：原創(chuàng)文章，無(wú)版權(quán)，可以任意轉(zhuǎn)載，但必須完整轉(zhuǎn)載全文、url和內(nèi)部解釋性鏈接

WEB結(jié)構(gòu)化信息抽取就是將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。是垂直搜索引擎和通用搜索引擎最大的差別。
　　如：比較購(gòu)物搜索那就需要抓取網(wǎng)頁(yè)后，對(duì)網(wǎng)頁(yè)中的商品信息進(jìn)行抽取，抽取出商品名稱(chēng)、價(jià)格、簡(jiǎn)介……甚至可以進(jìn)一步將筆記本簡(jiǎn)介細(xì)分成“品牌、型號(hào)、CPU、內(nèi)存、硬盤(pán)、顯示屏、……”
　　房產(chǎn)信息搜索那就應(yīng)該抽取出那應(yīng)該抽取出：類(lèi)型、地域、地址、房型、面積、裝修情況、租金、聯(lián)系人、聯(lián)系電話(huà)……
　　公司企業(yè)信息搜索那就應(yīng)該抽取出：公司名稱(chēng)、地址、電話(huà)、聯(lián)系人……
　　…………
　　結(jié)構(gòu)化信息抽取有兩種方式可以實(shí)現(xiàn)，比較簡(jiǎn)單的是模板方式，還有一種是對(duì)網(wǎng)頁(yè)不依賴(lài)的網(wǎng)頁(yè)庫(kù)級(jí)的結(jié)構(gòu)化信息抽取方式。

　　模板方式是事先對(duì)特定的網(wǎng)頁(yè)進(jìn)行配置模板，抽取模板中設(shè)置好的需要的信息，可以針對(duì)有限個(gè)網(wǎng)站的信息進(jìn)行精確的采集。
　　特點(diǎn)：簡(jiǎn)單、精確、技術(shù)難度低、方便快速部署。
　　缺點(diǎn)：需要針對(duì)每一個(gè)信息源的網(wǎng)站模板進(jìn)行單獨(dú)的設(shè)定在信息源多樣性的情況下維護(hù)量巨大是不可完成的維護(hù)量。所以這種方式適合少量信息源的信息處理，不是搜索引擎級(jí)的應(yīng)用，很難滿(mǎn)足用戶(hù)對(duì)查全率的需求。

網(wǎng)頁(yè)庫(kù)結(jié)構(gòu)化信息抽取是采用頁(yè)面結(jié)構(gòu)分析與智能節(jié)點(diǎn)分析轉(zhuǎn)換的方法，自動(dòng)抽取結(jié)構(gòu)化的數(shù)據(jù)。
　　特點(diǎn)：可對(duì)任意的正常網(wǎng)頁(yè)進(jìn)行抽取，完全自動(dòng)化，不用對(duì)具體網(wǎng)站事先生成模板，對(duì)每個(gè)網(wǎng)頁(yè)自動(dòng)實(shí)時(shí)得生成抽取規(guī)則，完全不需要人工干預(yù)。智能抽取準(zhǔn)確率高，不是機(jī)械的匹配，采用智能分析技術(shù)，準(zhǔn)確率能達(dá)到98%以上。能保證較快處理速度，由于采用頁(yè)面的智能分析技術(shù)，先去除了垃圾塊，降低分析的壓力，是處理速度大大提高。通用性較好，易于維護(hù)，只需設(shè)定參數(shù)、配置相應(yīng)的特征就能改進(jìn)相應(yīng)的抽取性能；一般的非專(zhuān)業(yè)人員經(jīng)過(guò)簡(jiǎn)單培訓(xùn)就能維護(hù)。
　　缺點(diǎn)：技術(shù)難度高，前期研發(fā)成本高，周期長(zhǎng)。適合網(wǎng)頁(yè)庫(kù)級(jí)別結(jié)構(gòu)化數(shù)據(jù)采集和搜索的高端應(yīng)用。

我們的技術(shù)是對(duì)網(wǎng)頁(yè)不依賴(lài)的web結(jié)構(gòu)化信息抽取技術(shù)，適合高端的垂直搜索應(yīng)用或者高端的競(jìng)爭(zhēng)情報(bào)分析系統(tǒng)。

上一條: 全套垂直搜索引擎技術(shù)

下一條: 什么是垂直搜索？[原創(chuàng)]

版權(quán)所有：鄭州征途信息技術(shù)有限公司地址：鄭州市管城區(qū)地鐵2號(hào)線(xiàn)二里崗B口斜對(duì)面中國(guó)郵政鄭州跨境電商產(chǎn)業(yè)園2樓210
聯(lián)系電話(huà)：0371-60988783 13073728811 豫ICP備19037742號(hào)-3

本站關(guān)鍵詞：鄭州網(wǎng)站建設(shè)公司　鄭州網(wǎng)站建設(shè)　鄭州電子商務(wù)　鄭州網(wǎng)站設(shè)計(jì) 鄭州網(wǎng)站策劃　河南鄭州網(wǎng)站建設(shè)　鄭州網(wǎng)站制作　鄭州建網(wǎng)站
鄭州網(wǎng)站制作　鄭州做網(wǎng)站的公司　網(wǎng)站托管　鄭州　鄭州網(wǎng)絡(luò)公司　新鄉(xiāng)網(wǎng)絡(luò)公司　河南網(wǎng)絡(luò)公司　洛陽(yáng)網(wǎng)絡(luò)公司　網(wǎng)站建設(shè)　電子商務(wù)網(wǎng)站
建網(wǎng)站網(wǎng)站設(shè)計(jì) 鄭州虛擬主機(jī) 新鄉(xiāng)網(wǎng)站建設(shè) 鄭州網(wǎng)站制作安陽(yáng)網(wǎng)絡(luò)公司焦作網(wǎng)絡(luò)公司網(wǎng)頁(yè)設(shè)計(jì) 鄭州網(wǎng)頁(yè)設(shè)計(jì) 鄭州網(wǎng)站制作在線(xiàn)客服
網(wǎng)頁(yè)制作網(wǎng)站制作河南網(wǎng)站建設(shè) 烽火臺(tái)　網(wǎng)絡(luò)推廣鄭州網(wǎng)站推廣　網(wǎng)站建設(shè)方案　網(wǎng)絡(luò)營(yíng)銷(xiāo)　河南網(wǎng)站建設(shè)公司　鄭州5107網(wǎng)站伴侶