一、互聯(lián)網(wǎng)信息采集與處理檢索系統(tǒng)
1. 新聞搜索引擎SPIDER
2. 網(wǎng)頁(yè)搜索引擎SPIDER
3. 定向?qū)I(yè)搜索SPIDER
4. 基于視覺(jué)的正文智能提取模塊(自動(dòng)正文提。
5. 智能摘要提取模塊
6. 去重模塊
7. 智能分類模塊
8. 檢索前端類聚模塊
9. 分詞模塊
10. 索引模塊
11. 最大可支持10TB以上數(shù)據(jù)容量,可分層建索引庫(kù)、分布索引、分布檢索、分布采集處理。
二、WEB結(jié)構(gòu)化信息抽取技術(shù)(格式化數(shù)據(jù)抽。
應(yīng)用于垂直搜索引擎的重要技術(shù),抽取出結(jié)構(gòu)化數(shù)據(jù),對(duì)具體網(wǎng)頁(yè)無(wú)依賴,直接針對(duì)數(shù)據(jù)類型進(jìn)行抽取。
元數(shù)據(jù)(結(jié)構(gòu)化信息提。 采集技術(shù):模板方式,作為 WEB結(jié)構(gòu)化信息抽取技術(shù)的補(bǔ)充。
三、自然語(yǔ)言的結(jié)構(gòu)化信息抽取技術(shù)
應(yīng)用于垂直搜索引擎,情報(bào)分析處理(科研產(chǎn)品)
|