国产一区二区三区视频,亚洲精品无码成人A片在线牛奶,99精品视频在线观看,免费黃色三級片在线观看18

色综合天天综合网国产成人网,国产毛片一区二区,91久久久无码精品不卡A片直播

建站流程

河南鄭州網(wǎng)站建設(shè)銷售咨詢電話：13073728811(24小時值班) 客服電話0371-60988783

首頁網(wǎng)站建設(shè)網(wǎng)站推廣 5107網(wǎng)站伴侶域名注冊虛擬主機(jī) 企業(yè)郵局關(guān)于我們合作代理網(wǎng)上商店企業(yè)郵箱

征途新聞

公司新聞

行業(yè)新聞

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)	網(wǎng)站推廣
域名注冊	虛擬主機(jī)
網(wǎng)站伴侶	運(yùn)營維護(hù)

聯(lián)系我們

聯(lián)系電話：
0371－60273020       60273015
      60273016
      60273017
傳    真：
0371－60273018

當(dāng)前位置：首頁 > 中文搜索引擎技術(shù)揭密:排

中文搜索引擎技術(shù)揭密:排序技術(shù)

發(fā)布日期：2007-5-25

關(guān)鍵詞：中文搜索引擎技術(shù)揭密

隨著“眼球經(jīng)濟(jì)”席卷互聯(lián)網(wǎng)，成千上萬的資金迅速流向最能吸引瀏覽著眼球的搜索引擎市場。有大量調(diào)查顯示搜索引擎市場正處在高速發(fā)展時期，成為了未來幾年內(nèi)最具發(fā)展?jié)摿Φ漠a(chǎn)業(yè)之一。隨著Google、百度、中國搜索等各具特色的搜索引擎逐漸成為人們最常用的網(wǎng)絡(luò)工具，企業(yè)對搜索引擎的注意力也從“觀察”升級為“動武”。

隨著市場容量和使用者人數(shù)的不斷激增，如何完善搜索功能使之更加公平、公開、標(biāo)準(zhǔn)和人性化也就隨之成為了一個備受關(guān)注的話題。但是有一個矛盾體在這其中不斷的顯現(xiàn)出來：收費(fèi)可以為搜索引擎公司帶來利潤，但同時會降低訪問者的體驗(yàn)滿意度。如何權(quán)衡金錢和用戶需求之間的天平呢？

Google成功的秘密

到2004年為止，Google（ http://www.google.com ）已經(jīng)連續(xù)兩年被評為全球第一品牌，Google成立僅五年時間，最初只是兩個斯坦福大學(xué)學(xué)生的研究項(xiàng)目。這不能不說是一個奇跡，就像比爾?蓋茨創(chuàng)制奇跡一樣。比爾?蓋茨能創(chuàng)造奇跡，是因?yàn)樗礈?zhǔn)了個人計算機(jī)軟件市場的趨勢，所以創(chuàng)建的公司叫Microsoft（微軟）：Micro（�。㏒oft（軟件）。那么Google呢？在Google出來之前已經(jīng)有一些很有成就的搜索引擎公司，其實(shí)力也很強(qiáng)，看來不只是Google看見了搜索的趨勢。Google究竟成功的秘密在哪兒？

Google的成功有許多因素，最重要的是Google對搜索結(jié)果的排序比其它搜索引擎都要好。Google保證讓絕大部分用搜索的人，都能在搜索結(jié)果的第一頁找到他想要的結(jié)果�？蛻舻玫搅藵M足，下一次還過來，而且會向其他人介紹，這一來一往，使用的人就多了。所以Google在沒有做任何廣告的前提下，讓自己成為了全球最大的品牌。Google究竟采用了哪種排序技術(shù)？PageRank，即網(wǎng)頁級別。

Google有一個創(chuàng)始人叫Larry Page，據(jù)說PageRank的專利是他申請的，于是依據(jù)他的名字就有了Page Rank。國內(nèi)也有一家很成功的搜索引擎公司，叫百度（ http://www.baidu.com ）。百度的創(chuàng)始人李彥宏說，早在1996年他就申請了名為超鏈分析的專利，PageRank的原理和超鏈分析的原理是一樣的，而且PageRank目前還在Paten-pending（專利申請中）。言下之意是這里面存在專利所有權(quán)的問題。這里不討論專利所有權(quán)，只是從中可看出，成功搜索引擎的排序技術(shù)，就其原理上來說都差不多，那就是鏈接分析。超鏈分析和PageRank都屬于鏈接分析。

鏈接分析到底為何物？由于李彥宏的超鏈分析沒有具體的介紹，筆者唯一看過的就是在美國專利局網(wǎng)站上關(guān)于李彥宏的專利介紹。PageRank的介紹倒是不少，而且目前Google畢竟是全球最大的搜索引擎，這里以PageRank為代表，詳細(xì)介紹鏈接分析的原理。

PageRank揭密

PageRank的原理類似于科技論文中的引用機(jī)制：誰的論文被引用次數(shù)多，誰就是權(quán)威。說的更白話一點(diǎn)：張三在談話中提到了張曼玉，李四在談話中也提到張曼玉，王五在談話中還提到張曼玉，這就說明張曼玉一定是很有名的人。在互聯(lián)網(wǎng)上，鏈接就相當(dāng)于“引用”，在B網(wǎng)頁中鏈接了A，相當(dāng)于B在談話時提到了A，如果在C、D、E、F中都鏈接了A，那么說明A網(wǎng)頁是最重要的，A網(wǎng)頁的PageRank值也就最高。

如何計算PageRank值有一個簡單的公式：

其中：系數(shù)為一個大于0，小于1的數(shù)。一般設(shè)置為0.85。網(wǎng)頁1、網(wǎng)頁2至網(wǎng)頁N表示所有鏈接指向A的網(wǎng)頁。

由以上公式可以看出三點(diǎn) ：

1、鏈接指向A的網(wǎng)頁越多，A的級別越高。即A的級別和指向A的網(wǎng)頁個數(shù)成正比，在公式中表示，N越大， A的級別越高；

2、鏈接指向A的網(wǎng)頁，其網(wǎng)頁級別越高， A的級別也越高。即A的級別和指向A的網(wǎng)頁自己的網(wǎng)頁級別成正比，在公式中表示，網(wǎng)頁N級別越高， A的級別也越高；

3、鏈接指向A的網(wǎng)頁，其鏈出的個數(shù)越多，A的級別越低。即A的級別和指向A的網(wǎng)頁自己的網(wǎng)頁鏈出個數(shù)成反比，在公式中現(xiàn)實(shí)，網(wǎng)頁N鏈出個數(shù)越多，A的級別越低。

每個網(wǎng)頁有一個PageRank值，這樣形成一個巨大的方程組，對這個方程組求解，就能得到每個網(wǎng)頁的PageRank值。互聯(lián)網(wǎng)上有上百億個網(wǎng)頁，那么這個方程組就有上百億個未知數(shù)，這個方程雖然是有解，但計算畢竟太復(fù)雜了，不可能把這所有的頁面放在一起去求解的。對具體的計算方法有興趣的朋友可以去參考一些數(shù)值計算方面的書。

總之，PageRank有效地利用了互聯(lián)網(wǎng)所擁有的龐大鏈接構(gòu)造的特性。從網(wǎng)頁A導(dǎo)向網(wǎng)頁B的鏈接，用Google創(chuàng)始人的話講，是頁面A對頁面B的支持投票，Google根據(jù)這個投票數(shù)來判斷頁面的重要性，但Google除了看投票數(shù)（鏈接數(shù)）以外，對投票者（鏈接的頁面）也進(jìn)行分析�！钢匾浴垢叩捻撁嫠兜钠钡脑u價會更高，因?yàn)榻邮苓@個投票頁面會被理解為「重要的物品」。從新浪、雅虎、微軟的首頁都有我網(wǎng)頁的三個鏈接的話，可能比我在其他網(wǎng)站找三十個鏈接還強(qiáng)。如果還有人不理解這個原理，就去想想有句成語叫：三人成虎。如果有三個人都說北京大街上有老虎，那么許多人會認(rèn)為有老虎，如果這三個人都是國家領(lǐng)導(dǎo)人的話，那么所有人都會認(rèn)為北京大街上有老虎。

每個網(wǎng)頁都會有PageRank值，如果大家想知道自己網(wǎng)站的網(wǎng)頁P(yáng)ageRank值是多少，最簡單的辦法就是下載一個Google的免費(fèi)工具欄（ http://toolbar.google.com/ ），

每當(dāng)你打開一個網(wǎng)頁，都可以很清楚的看見此網(wǎng)頁的PageRank值。當(dāng)然這個值是一個大概數(shù)字。

據(jù)Google技術(shù)負(fù)責(zé)人介紹，Google除了用PageRank衡量網(wǎng)頁的重要程度以外，還有其它上百種因素來參與排序。其它搜索引擎也是如此，不可能按照某一種規(guī)則來進(jìn)行搜索結(jié)果的排序。

其他方法

HillTop算法：

HillTop同樣是一項(xiàng)搜索引擎結(jié)果排序的專利，是Google的一個工程師Bharat在2001年獲得的專利。Google的排序規(guī)則經(jīng)常在變化，但變化最大的一次也就是基于HillTop算法進(jìn)行了優(yōu)化。HillTop究竟原理如何，值得Google如此青睞？

其實(shí)HillTop算法的指導(dǎo)思想和PageRank的是一致的，都是通過網(wǎng)頁被鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。但HillTop認(rèn)為只計算來自具有相同主題的相關(guān)文檔鏈接對于搜索者的價值會更大：即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計算的貢獻(xiàn)比主題不相關(guān)的鏈接價值要更高。如果網(wǎng)站是介紹“服裝”的，有10個鏈接都是從“服裝”相關(guān)的網(wǎng)站鏈接過來，那這10個鏈接比另外10個從“電器”相關(guān)網(wǎng)站鏈接過來的貢獻(xiàn)要大。Bharat稱這種對主題有影響的文檔為“專家”文檔，從這些專家文檔頁面到目標(biāo)文檔的鏈接決定了被鏈接網(wǎng)頁“權(quán)重得分”的主要部分。

與PageRank結(jié)合HillTop算法確定網(wǎng)頁與搜索關(guān)鍵詞的匹配程度的基本排序過程取代了過份依靠PageRank的值去尋找那些權(quán)威頁面的方法。這對于兩個具有同樣主題而且PR相近的網(wǎng)頁排序過程中，HillTop算法就顯得非常的重要了。HillTop同時也避免了許多想通過增加許多無效鏈接來提高網(wǎng)頁P(yáng)ageRank值的做弊方法。

錨文本（Anchor Text）

錨文本名字聽起來難以理解，實(shí)際上錨文本就是鏈接文本。例如，在個人網(wǎng)站上把中央電視臺（ www.cctv.com ）做為新聞頻道的鏈接，訪問者通過點(diǎn)擊網(wǎng)站上的“新聞頻道”就能進(jìn)入 http://www.cctv.com 網(wǎng)站，那么“新聞頻道”就是中央電視臺網(wǎng)站首頁的錨文本。

錨文本可以做為錨文本所在的頁面的內(nèi)容的評估。正常來講，頁面中增加的鏈接都會和頁面本身的內(nèi)容有一定的關(guān)系。服裝的行業(yè)網(wǎng)站上會增加一些同行網(wǎng)站的鏈接或者一些做服裝的知名企業(yè)的鏈接；另一方面，錨文本能做為對所指向頁面的評估。錨文本能精確的描述所指向頁面的內(nèi)容，個人網(wǎng)站上增加Google的鏈接，錨文本為“搜索引擎”。這樣通過錨文本本身就能知道，Google是搜索引擎。

錨文本對搜索引擎起的作用還表現(xiàn)為可以收集一些搜索引擎不能索引的文件。例如，網(wǎng)站上增加了一張張曼玉的照片，格式為jpg文件，搜索引擎目前很難索引（一般只處理文本）。若這張照片鏈接的錨文本為“張曼玉的照片”，那么搜索引擎就能識別這張圖片是張曼玉的照片，以后訪問者搜索“張曼玉”的時候，這張圖片就能被搜索到。

由此可見，在網(wǎng)頁設(shè)計中選擇合適的錨文本，會讓所在網(wǎng)頁和所指向網(wǎng)頁的重要程度有所提升。

頁面版式

每個網(wǎng)頁都有版式，包括標(biāo)題、字體、標(biāo)簽等等。搜索引擎也會利用這些版式來識別搜索詞與頁面內(nèi)容的相關(guān)程度。以靜態(tài)的html格式的網(wǎng)頁為例，搜索引擎通過網(wǎng)絡(luò)蜘蛛把網(wǎng)頁抓取下來后，需要提取里面的正文內(nèi)容，過濾其他html代碼。在提取內(nèi)容的時候，搜索引擎就可以記錄所有版式信息，包括：哪些詞是在標(biāo)題中出現(xiàn)，哪些詞是在正文中出現(xiàn)，哪些詞的字體比其他的字體大，哪些詞是加粗過，哪些詞是用KeyWord標(biāo)識過的等等。這樣在搜索結(jié)果中就可以根據(jù)這些信息來確定所搜索的結(jié)果和搜索詞的相關(guān)程度。例如搜索“毛澤東”，假如有兩個結(jié)果，一篇文章標(biāo)題是《毛澤東的一生》，另一篇文章的標(biāo)題是《江青的一生》但內(nèi)容有提到毛澤東，這時搜索引擎會認(rèn)為前者比較重要，因?yàn)椤懊珴蓶|”在標(biāo)題里出現(xiàn)了。

因此，合理的利用網(wǎng)頁的頁面版式，會提升網(wǎng)頁在搜索結(jié)果頁的排序位置。

收費(fèi)排名

應(yīng)該說收費(fèi)排名并不屬于排序技術(shù)（這里指的收費(fèi)排名也包括競價排名），而是一種搜索引擎的贏利模式。但收費(fèi)排名已經(jīng)最直接的影響到了搜索引擎的排序，在此也略做說明。

用戶可以購買某個關(guān)鍵詞的排名，只要向搜索引擎公司交納一定的費(fèi)用，就可以讓用戶的網(wǎng)站排在搜索結(jié)果的前幾位，按照不同關(guān)鍵詞、不同位置、時間長短來定義價格。價格從幾千元到幾十萬元不等（像“六合彩”在3721上的排名費(fèi)用大多是幾十萬）。

收費(fèi)排名一方面給搜索引擎公司帶來收益，一方面給企業(yè)帶來訪問量，另外對訪問者也有一定好處。因?yàn)樵L問者想找“西服”，企業(yè)想賣“西服”，于是出錢讓訪問者能找到他，這樣，買家和賣家能馬上見面。但收費(fèi)排名給訪問者帶來更多的卻是不真實(shí)，結(jié)果排序已經(jīng)失去了公正性，有時候還帶來大量垃圾。在百度搜索引擎上搜索“ 星球 ”，排在第一位的是一家做石墨的公司，排在第二位的居然是“想找星球？上易趣吧！”（見下圖）。真有些讓訪問者哭笑不得。

中文搜索引擎技術(shù)揭密：排序技術(shù)

當(dāng)然，對于企業(yè)來說，收費(fèi)排名是提升網(wǎng)站在搜索引擎中排名的最直接和最簡單的辦法。如今，如何提升網(wǎng)頁在搜索引擎中的排序，已經(jīng)形成了一門職業(yè)，叫SEO（Search Engine Optimization），即搜索引擎優(yōu)化。SEO是針對搜索引擎排序的技術(shù)，通過修改網(wǎng)頁（或者網(wǎng)站）結(jié)構(gòu)和主動增加網(wǎng)站鏈接等方法來讓搜索引擎認(rèn)為這些網(wǎng)頁是很重要的，從而提升網(wǎng)頁在搜索引擎結(jié)果中的排序。

排序技術(shù)的發(fā)展趨勢

各種搜索引擎的技術(shù)改進(jìn)和優(yōu)化，都直接反應(yīng)到搜索結(jié)果的排序上。許多搜索引擎都在進(jìn)一步研究新的排序方法，來提升客戶的滿意度。專業(yè)人士認(rèn)為，目前的搜索引擎排序算法上還存在兩大不足。

一、沒有真正解決相關(guān)性。

相關(guān)性是指搜索詞和頁面的相關(guān)程度。僅僅通過鏈接、字體、位置等表面特征，不能真正判斷搜索詞和文章的相關(guān)性，更何況許多時候這些特征不會都同時存在。這也是許多對搜索引擎做弊方法能有效的原因。另外，有些文章中沒有出現(xiàn)搜索詞，但說的就是和搜索詞十分相關(guān)的內(nèi)容，例如搜索“恐怖分子”，但有網(wǎng)頁是介紹本拉登的一些破壞行動，文中沒有出現(xiàn)“恐怖分子”的子眼，搜索引擎就無法搜索到該網(wǎng)頁。表面特征只能治標(biāo)，不能治本。治本的方法應(yīng)該是增加語意理解，例如主題詞和關(guān)鍵詞的提取，從語意上分析，得出搜索詞和網(wǎng)頁的相關(guān)程度，分析的越準(zhǔn)，效果就會越好。

二、搜索結(jié)果的單一化。

在搜索引擎上，任何人搜索同一個詞的結(jié)果都是一樣。這樣明顯不能滿足訪問者�？茖W(xué)家搜索“星球”，可能是希望了解星球的知識，但普通人可能是想找“星球大戰(zhàn)”電影，但搜索引擎所給的都是一樣的結(jié)果。如何滿足這些不同類型的訪問者，需要對搜索結(jié)果的個性化。國外vivisimo公司（ http://www.vivisimo.com ）就是想解決這個問題，他們采用對搜索結(jié)果自動聚類的辦法來滿足不同類型客戶的需要。搜索結(jié)果排序如果要實(shí)現(xiàn)從單一化到個性化，vivisimo已經(jīng)邁出了一步，但最理想的結(jié)果應(yīng)該是針對每個訪問者，排序結(jié)果直接和他們的搜索習(xí)慣和意愿有關(guān)。搜索“體育”，對喜歡足球的人應(yīng)該把足球的相關(guān)結(jié)果排在前面，對喜歡籃球的人應(yīng)該把籃球的相關(guān)結(jié)果排在前面。

搜索引擎的排序技術(shù)應(yīng)該也會朝著解決這兩個不足的方向發(fā)展：語意相關(guān)性和排序個性化。前者需要完善的自然語言處理技術(shù)，后者需要記錄龐大訪問者信息和復(fù)雜的計算，要達(dá)到其中任何一個的要求均非易事，如何解決這些難題，任務(wù)落在了科學(xué)家和工程師們的肩上，哪個搜索引擎解決了這些問題，她可能會稱為下一個搜索世界的霸主。

上一條: 互聯(lián)網(wǎng)需要全文檢索

下一條: 中文搜索引擎技術(shù)揭密:網(wǎng)絡(luò)蜘蛛

版權(quán)所有：鄭州征途信息技術(shù)有限公司地址：鄭州市管城區(qū)地鐵2號線二里崗B口斜對面中國郵政鄭州跨境電商產(chǎn)業(yè)園2樓210
聯(lián)系電話：0371-60988783 13073728811 豫ICP備19037742號-3

本站關(guān)鍵詞：鄭州網(wǎng)站建設(shè)公司　鄭州網(wǎng)站建設(shè)　鄭州電子商務(wù)　鄭州網(wǎng)站設(shè)計鄭州網(wǎng)站策劃　河南鄭州網(wǎng)站建設(shè)　鄭州網(wǎng)站制作　鄭州建網(wǎng)站
鄭州網(wǎng)站制作　鄭州做網(wǎng)站的公司　網(wǎng)站托管　鄭州　鄭州網(wǎng)絡(luò)公司　新鄉(xiāng)網(wǎng)絡(luò)公司　河南網(wǎng)絡(luò)公司　洛陽網(wǎng)絡(luò)公司　網(wǎng)站建設(shè)　電子商務(wù)網(wǎng)站
建網(wǎng)站網(wǎng)站設(shè)計鄭州虛擬主機(jī) 新鄉(xiāng)網(wǎng)站建設(shè) 鄭州網(wǎng)站制作安陽網(wǎng)絡(luò)公司焦作網(wǎng)絡(luò)公司網(wǎng)頁設(shè)計鄭州網(wǎng)頁設(shè)計鄭州網(wǎng)站制作在線客服
網(wǎng)頁制作網(wǎng)站制作河南網(wǎng)站建設(shè) 烽火臺　網(wǎng)絡(luò)推廣鄭州網(wǎng)站推廣　網(wǎng)站建設(shè)方案　網(wǎng)絡(luò)營銷　河南網(wǎng)站建設(shè)公司　鄭州5107網(wǎng)站伴侶