国产一区二区三区视频,亚洲精品无码成人A片在线牛奶,99精品视频在线观看,免费黃色三級片在线观看18

色综合天天综合网国产成人网,国产毛片一区二区,91久久久无码精品不卡A片直播
建站流程 建站意向表 客戶案例 付款方式 聯(lián)系我們 加入收藏
河南鄭州網(wǎng)站建設(shè)銷售咨詢電話:13073728811(24小時值班)  客服電話0371-60988783
首 頁網(wǎng)站建設(shè)網(wǎng)站推廣 5107網(wǎng)站伴侶 域名注冊 虛擬主機(jī) 企業(yè)郵局 關(guān)于我們 合作代理 網(wǎng)上商店 企業(yè)郵箱
征途新聞
公司新聞
行業(yè)新聞
服務(wù)項(xiàng)目
網(wǎng)站建設(shè) 網(wǎng)站推廣
域名注冊 虛擬主機(jī)
網(wǎng)站伴侶 運(yùn)營維護(hù)
聯(lián)系我們

聯(lián)系電話:
0371-60273020       60273015
      60273016
      60273017
傳    真:
0371-60273018

 
當(dāng)前位置:首 頁 > 中文搜索引擎技術(shù)揭密:排
中文搜索引擎技術(shù)揭密:排序技術(shù)
發(fā)布日期:2007-5-25
關(guān)鍵詞:中文搜索引擎技術(shù)揭密

    隨著“眼球經(jīng)濟(jì)”席卷互聯(lián)網(wǎng),成千上萬的資金迅速流向最能吸引瀏覽著眼球的搜索引擎市場。有大量調(diào)查顯示搜索引擎市場正處在高速發(fā)展時期,成為了未來幾年內(nèi)最具發(fā)展?jié)摿Φ漠a(chǎn)業(yè)之一。隨著Google、百度、中國搜索等各具特色的搜索引擎逐漸成為人們最常用的網(wǎng)絡(luò)工具,企業(yè)對搜索引擎的注意力也從“觀察”升級為“動武”。


    隨著市場容量和使用者人數(shù)的不斷激增,如何完善搜索功能使之更加公平、公開、標(biāo)準(zhǔn)和人性化也就隨之成為了一個備受關(guān)注的話題。但是有一個矛盾體在這其中不斷的顯現(xiàn)出來:收費(fèi)可以為搜索引擎公司帶來利潤,但同時會降低訪問者的體驗(yàn)滿意度。如何權(quán)衡金錢和用戶需求之間的天平呢?


Google成功的秘密


    到2004年為止,Google( http://www.google.com )已經(jīng)連續(xù)兩年被評為全球第一品牌,Google成立僅五年時間,最初只是兩個斯坦福大學(xué)學(xué)生的研究項(xiàng)目。這不能不說是一個奇跡,就像比爾?蓋茨創(chuàng)制奇跡一樣。比爾?蓋茨能創(chuàng)造奇跡,是因?yàn)樗礈?zhǔn)了個人計算機(jī)軟件市場的趨勢,所以創(chuàng)建的公司叫Microsoft(微軟):Micro(。㏒oft(軟件)。那么Google呢?在Google出來之前已經(jīng)有一些很有成就的搜索引擎公司,其實(shí)力也很強(qiáng),看來不只是Google看見了搜索的趨勢。Google究竟成功的秘密在哪兒?


    Google的成功有許多因素,最重要的是Google對搜索結(jié)果的排序比其它搜索引擎都要好。Google保證讓絕大部分用搜索的人,都能在搜索結(jié)果的第一頁找到他想要的結(jié)果?蛻舻玫搅藵M足,下一次還過來,而且會向其他人介紹,這一來一往,使用的人就多了。所以Google在沒有做任何廣告的前提下,讓自己成為了全球最大的品牌。Google究竟采用了哪種排序技術(shù)?PageRank,即網(wǎng)頁級別。


    Google有一個創(chuàng)始人叫Larry Page,據(jù)說PageRank的專利是他申請的,于是依據(jù)他的名字就有了Page Rank。國內(nèi)也有一家很成功的搜索引擎公司,叫百度( http://www.baidu.com )。百度的創(chuàng)始人李彥宏說,早在1996年他就申請了名為超鏈分析的專利,PageRank的原理和超鏈分析的原理是一樣的,而且PageRank目前還在Paten-pending(專利申請中)。言下之意是這里面存在專利所有權(quán)的問題。這里不討論專利所有權(quán),只是從中可看出,成功搜索引擎的排序技術(shù),就其原理上來說都差不多,那就是鏈接分析。超鏈分析和PageRank都屬于鏈接分析。


    鏈接分析到底為何物?由于李彥宏的超鏈分析沒有具體的介紹,筆者唯一看過的就是在美國專利局網(wǎng)站上關(guān)于李彥宏的專利介紹。PageRank的介紹倒是不少,而且目前Google畢竟是全球最大的搜索引擎,這里以PageRank為代表,詳細(xì)介紹鏈接分析的原理。


 


PageRank揭密


    PageRank的原理類似于科技論文中的引用機(jī)制:誰的論文被引用次數(shù)多,誰就是權(quán)威。說的更白話一點(diǎn):張三在談話中提到了張曼玉,李四在談話中也提到張曼玉,王五在談話中還提到張曼玉,這就說明張曼玉一定是很有名的人。在互聯(lián)網(wǎng)上,鏈接就相當(dāng)于“引用”,在B網(wǎng)頁中鏈接了A,相當(dāng)于B在談話時提到了A,如果在C、D、E、F中都鏈接了A,那么說明A網(wǎng)頁是最重要的,A網(wǎng)頁的PageRank值也就最高。


    如何計算PageRank值有一個簡單的公式 :


中文搜索引擎技術(shù)揭密:排序技術(shù)


    其中:系數(shù)為一個大于0,小于1的數(shù)。一般設(shè)置為0.85。網(wǎng)頁1、網(wǎng)頁2至網(wǎng)頁N表示所有鏈接指向A的網(wǎng)頁。


由以上公式可以看出三點(diǎn) :


1、鏈接指向A的網(wǎng)頁越多,A的級別越高。即A的級別和指向A的網(wǎng)頁個數(shù)成正比,在公式中表示,N越大, A的級別越高;


2、鏈接指向A的網(wǎng)頁,其網(wǎng)頁級別越高, A的級別也越高。即A的級別和指向A的網(wǎng)頁自己的網(wǎng)頁級別成正比,在公式中表示,網(wǎng)頁N級別越高, A的級別也越高;


3、鏈接指向A的網(wǎng)頁,其鏈出的個數(shù)越多,A的級別越低。即A的級別和指向A的網(wǎng)頁自己的網(wǎng)頁鏈出個數(shù)成反比,在公式中現(xiàn)實(shí),網(wǎng)頁N鏈出個數(shù)越多,A的級別越低。


    每個網(wǎng)頁有一個PageRank值,這樣形成一個巨大的方程組,對這個方程組求解,就能得到每個網(wǎng)頁的PageRank值。互聯(lián)網(wǎng)上有上百億個網(wǎng)頁,那么這個方程組就有上百億個未知數(shù),這個方程雖然是有解,但計算畢竟太復(fù)雜了,不可能把這所有的頁面放在一起去求解的。對具體的計算方法有興趣的朋友可以去參考一些數(shù)值計算方面的書。


    總之,PageRank有效地利用了互聯(lián)網(wǎng)所擁有的龐大鏈接構(gòu)造的特性。 從網(wǎng)頁A導(dǎo)向網(wǎng)頁B的鏈接,用Google創(chuàng)始人的話講,是頁面A對頁面B的支持投票,Google根據(jù)這個投票數(shù)來判斷頁面的重要性,但Google除了看投票數(shù)(鏈接數(shù))以外,對投票者(鏈接的頁面)也進(jìn)行分析!钢匾浴垢叩捻撁嫠兜钠钡脑u價會更高,因?yàn)榻邮苓@個投票頁面會被理解為「重要的物品」。從新浪、雅虎、微軟的首頁都有我網(wǎng)頁的三個鏈接的話,可能比我在其他網(wǎng)站找三十個鏈接還強(qiáng)。如果還有人不理解這個原理,就去想想有句成語叫:三人成虎。如果有三個人都說北京大街上有老虎,那么許多人會認(rèn)為有老虎,如果這三個人都是國家領(lǐng)導(dǎo)人的話,那么所有人都會認(rèn)為北京大街上有老虎。


    每個網(wǎng)頁都會有PageRank值,如果大家想知道自己網(wǎng)站的網(wǎng)頁P(yáng)ageRank值是多少,最簡單的辦法就是下載一個Google的免費(fèi)工具欄( http://toolbar.google.com/ ),


中文搜索引擎技術(shù)揭密:排序技術(shù)


    每當(dāng)你打開一個網(wǎng)頁,都可以很清楚的看見此網(wǎng)頁的PageRank值。當(dāng)然這個值是一個大概數(shù)字。


    據(jù)Google技術(shù)負(fù)責(zé)人介紹,Google除了用PageRank衡量網(wǎng)頁的重要程度以外,還有其它上百種因素來參與排序。其它搜索引擎也是如此,不可能按照某一種規(guī)則來進(jìn)行搜索結(jié)果的排序。


其他方法


HillTop算法:


    HillTop同樣是一項(xiàng)搜索引擎結(jié)果排序的專利,是Google的一個工程師Bharat在2001年獲得的專利。Google的排序規(guī)則經(jīng)常在變化,但變化最大的一次也就是基于HillTop算法進(jìn)行了優(yōu)化。HillTop究竟原理如何,值得Google如此青睞?


    其實(shí)HillTop算法的指導(dǎo)思想和PageRank的是一致的,都是通過網(wǎng)頁被鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。但HillTop認(rèn)為只計算來自具有相同主題的相關(guān)文檔鏈接對于搜索者的價值會更大:即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計算的貢獻(xiàn)比主題不相關(guān)的鏈接價值要更高。如果網(wǎng)站是介紹“服裝”的,有10個鏈接都是從“服裝”相關(guān)的網(wǎng)站鏈接過來,那這10個鏈接比另外10個從“電器”相關(guān)網(wǎng)站鏈接過來的貢獻(xiàn)要大。Bharat稱這種對主題有影響的文檔為“專家”文檔,從這些專家文檔頁面到目標(biāo)文檔的鏈接決定了被鏈接網(wǎng)頁“權(quán)重得分”的主要部分。


    與PageRank結(jié)合HillTop算法確定網(wǎng)頁與搜索關(guān)鍵詞的匹配程度的基本排序過程取代了過份依靠PageRank的值去尋找那些權(quán)威頁面的方法。這對于兩個具有同樣主題而且PR相近的網(wǎng)頁排序過程中,HillTop算法就顯得非常的重要了。HillTop同時也避免了許多想通過增加許多無效鏈接來提高網(wǎng)頁P(yáng)ageRank值的做弊方法。


錨文本(Anchor Text)


    錨文本名字聽起來難以理解,實(shí)際上錨文本就是鏈接文本。例如,在個人網(wǎng)站上把中央電視臺( www.cctv.com )做為新聞頻道的鏈接,訪問者通過點(diǎn)擊網(wǎng)站上的“新聞頻道”就能進(jìn)入 http://www.cctv.com 網(wǎng)站,那么“新聞頻道”就是中央電視臺網(wǎng)站首頁的錨文本。


    錨文本可以做為錨文本所在的頁面的內(nèi)容的評估。正常來講,頁面中增加的鏈接都會和頁面本身的內(nèi)容有一定的關(guān)系。服裝的行業(yè)網(wǎng)站上會增加一些同行網(wǎng)站的鏈接或者一些做服裝的知名企業(yè)的鏈接;另一方面,錨文本能做為對所指向頁面的評估。錨文本能精確的描述所指向頁面的內(nèi)容,個人網(wǎng)站上增加Google的鏈接,錨文本為“搜索引擎”。這樣通過錨文本本身就能知道,Google是搜索引擎。


    錨文本對搜索引擎起的作用還表現(xiàn)為可以收集一些搜索引擎不能索引的文件。例如,網(wǎng)站上增加了一張張曼玉的照片,格式為jpg文件,搜索引擎目前很難索引(一般只處理文本)。若這張照片鏈接的錨文本為“張曼玉的照片”,那么搜索引擎就能識別這張圖片是張曼玉的照片,以后訪問者搜索“張曼玉”的時候,這張圖片就能被搜索到。


    由此可見,在網(wǎng)頁設(shè)計中選擇合適的錨文本,會讓所在網(wǎng)頁和所指向網(wǎng)頁的重要程度有所提升。


頁面版式


    每個網(wǎng)頁都有版式,包括標(biāo)題、字體、標(biāo)簽等等。搜索引擎也會利用這些版式來識別搜索詞與頁面內(nèi)容的相關(guān)程度。以靜態(tài)的html格式的網(wǎng)頁為例,搜索引擎通過網(wǎng)絡(luò)蜘蛛把網(wǎng)頁抓取下來后,需要提取里面的正文內(nèi)容,過濾其他html代碼。在提取內(nèi)容的時候,搜索引擎就可以記錄所有版式信息,包括:哪些詞是在標(biāo)題中出現(xiàn),哪些詞是在正文中出現(xiàn),哪些詞的字體比其他的字體大,哪些詞是加粗過,哪些詞是用KeyWord標(biāo)識過的等等。這樣在搜索結(jié)果中就可以根據(jù)這些信息來確定所搜索的結(jié)果和搜索詞的相關(guān)程度。例如搜索“毛澤東”,假如有兩個結(jié)果,一篇文章標(biāo)題是《毛澤東的一生》,另一篇文章的標(biāo)題是《江青的一生》但內(nèi)容有提到毛澤東,這時搜索引擎會認(rèn)為前者比較重要,因?yàn)椤懊珴蓶|”在標(biāo)題里出現(xiàn)了。


    因此,合理的利用網(wǎng)頁的頁面版式,會提升網(wǎng)頁在搜索結(jié)果頁的排序位置。


收費(fèi)排名


    應(yīng)該說收費(fèi)排名并不屬于排序技術(shù)(這里指的收費(fèi)排名也包括競價排名),而是一種搜索引擎的贏利模式。但收費(fèi)排名已經(jīng)最直接的影響到了搜索引擎的排序,在此也略做說明。


    用戶可以購買某個關(guān)鍵詞的排名,只要向搜索引擎公司交納一定的費(fèi)用,就可以讓用戶的網(wǎng)站排在搜索結(jié)果的前幾位,按照不同關(guān)鍵詞、不同位置、時間長短來定義價格。價格從幾千元到幾十萬元不等(像“六合彩”在3721上的排名費(fèi)用大多是幾十萬)。


    收費(fèi)排名一方面給搜索引擎公司帶來收益,一方面給企業(yè)帶來訪問量,另外對訪問者也有一定好處。因?yàn)樵L問者想找“西服”,企業(yè)想賣“西服”,于是出錢讓訪問者能找到他,這樣,買家和賣家能馬上見面。但收費(fèi)排名給訪問者帶來更多的卻是不真實(shí),結(jié)果排序已經(jīng)失去了公正性,有時候還帶來大量垃圾。在百度搜索引擎上搜索“ 星球 ”,排在第一位的是一家做石墨的公司,排在第二位的居然是“想找星球?上易趣吧!”(見下圖)。真有些讓訪問者哭笑不得。


中文搜索引擎技術(shù)揭密:排序技術(shù)


    當(dāng)然,對于企業(yè)來說,收費(fèi)排名是提升網(wǎng)站在搜索引擎中排名的最直接和最簡單的辦法。如今,如何提升網(wǎng)頁在搜索引擎中的排序,已經(jīng)形成了一門職業(yè),叫SEO(Search Engine Optimization),即搜索引擎優(yōu)化。SEO是針對搜索引擎排序的技術(shù),通過修改網(wǎng)頁(或者網(wǎng)站)結(jié)構(gòu)和主動增加網(wǎng)站鏈接等方法來讓搜索引擎認(rèn)為這些網(wǎng)頁是很重要的,從而提升網(wǎng)頁在搜索引擎結(jié)果中的排序。


排序技術(shù)的發(fā)展趨勢


    各種搜索引擎的技術(shù)改進(jìn)和優(yōu)化,都直接反應(yīng)到搜索結(jié)果的排序上。許多搜索引擎都在進(jìn)一步研究新的排序方法,來提升客戶的滿意度。專業(yè)人士認(rèn)為,目前的搜索引擎排序算法上還存在兩大不足。


一、沒有真正解決相關(guān)性。


    相關(guān)性是指搜索詞和頁面的相關(guān)程度。僅僅通過鏈接、字體、位置等表面特征,不能真正判斷搜索詞和文章的相關(guān)性,更何況許多時候這些特征不會都同時存在。這也是許多對搜索引擎做弊方法能有效的原因。另外,有些文章中沒有出現(xiàn)搜索詞,但說的就是和搜索詞十分相關(guān)的內(nèi)容,例如搜索“恐怖分子”,但有網(wǎng)頁是介紹本拉登的一些破壞行動,文中沒有出現(xiàn)“恐怖分子”的子眼,搜索引擎就無法搜索到該網(wǎng)頁。表面特征只能治標(biāo),不能治本。治本的方法應(yīng)該是增加語意理解,例如主題詞和關(guān)鍵詞的提取,從語意上分析,得出搜索詞和網(wǎng)頁的相關(guān)程度,分析的越準(zhǔn),效果就會越好。


二、搜索結(jié)果的單一化。


    在搜索引擎上,任何人搜索同一個詞的結(jié)果都是一樣。這樣明顯不能滿足訪問者?茖W(xué)家搜索“星球”,可能是希望了解星球的知識,但普通人可能是想找“星球大戰(zhàn)”電影,但搜索引擎所給的都是一樣的結(jié)果。如何滿足這些不同類型的訪問者,需要對搜索結(jié)果的個性化。國外vivisimo公司( http://www.vivisimo.com )就是想解決這個問題,他們采用對搜索結(jié)果自動聚類的辦法來滿足不同類型客戶的需要。搜索結(jié)果排序如果要實(shí)現(xiàn)從單一化到個性化,vivisimo已經(jīng)邁出了一步,但最理想的結(jié)果應(yīng)該是針對每個訪問者,排序結(jié)果直接和他們的搜索習(xí)慣和意愿有關(guān)。搜索“體育”,對喜歡足球的人應(yīng)該把足球的相關(guān)結(jié)果排在前面,對喜歡籃球的人應(yīng)該把籃球的相關(guān)結(jié)果排在前面。


    搜索引擎的排序技術(shù)應(yīng)該也會朝著解決這兩個不足的方向發(fā)展:語意相關(guān)性和排序個性化。前者需要完善的自然語言處理技術(shù),后者需要記錄龐大訪問者信息和復(fù)雜的計算,要達(dá)到其中任何一個的要求均非易事,如何解決這些難題,任務(wù)落在了科學(xué)家和工程師們的肩上,哪個搜索引擎解決了這些問題,她可能會稱為下一個搜索世界的霸主。

上一條: 互聯(lián)網(wǎng)需要全文檢索
  下一條: 中文搜索引擎技術(shù)揭密:網(wǎng)絡(luò)蜘蛛
征途介紹 | 征途新聞 | 客戶服務(wù) | 版權(quán)聲明 | 友情鏈接 | 聯(lián)系我們 | 網(wǎng)站建設(shè) | 網(wǎng)站推廣
版權(quán)所有:鄭州征途信息技術(shù)有限公司 地址:鄭州市管城區(qū)地鐵2號線二里崗B口斜對面中國郵政鄭州跨境電商產(chǎn)業(yè)園2樓210
聯(lián)系電話:0371-60988783 13073728811 豫ICP備19037742號-3

本站關(guān)鍵詞:鄭州網(wǎng)站建設(shè)公司 鄭州網(wǎng)站建設(shè) 鄭州電子商務(wù) 鄭州網(wǎng)站設(shè)計 鄭州網(wǎng)站策劃 河南鄭州網(wǎng)站建設(shè) 鄭州網(wǎng)站制作 鄭州建網(wǎng)站
鄭州網(wǎng)站制作 鄭州做網(wǎng)站的公司 網(wǎng)站托管 鄭州 鄭州網(wǎng)絡(luò)公司 新鄉(xiāng)網(wǎng)絡(luò)公司 河南網(wǎng)絡(luò)公司 洛陽網(wǎng)絡(luò)公司 網(wǎng)站建設(shè) 電子商務(wù)網(wǎng)站
建網(wǎng)站 網(wǎng)站設(shè)計 鄭州虛擬主機(jī) 新鄉(xiāng)網(wǎng)站建設(shè) 鄭州 網(wǎng)站制作 安陽網(wǎng)絡(luò)公司 焦作網(wǎng)絡(luò)公司 網(wǎng)頁設(shè)計 鄭州網(wǎng)頁設(shè)計 鄭州網(wǎng)站制作 在線客服
網(wǎng)頁制作 網(wǎng)站制作 河南網(wǎng)站建設(shè) 烽火臺 網(wǎng)絡(luò)推廣 鄭州網(wǎng)站推廣 網(wǎng)站建設(shè)方案 網(wǎng)絡(luò)營銷 河南網(wǎng)站建設(shè)公司 鄭州5107網(wǎng)站伴侶 

国产婬妇 视频,在线观看 | 天天躁日日躁AAAAXXXX欧美 | 欧美 国产 亚洲视频 | 亚洲中文字幕高清无码 | 国产又大又黄又长又粗又硬 | 无码人妻精品一区二区蜜桃在 | 大桥未久A V神马在线观看 | 仙踪林免费网站入口www | 91人妻久久久精品中文字幕瑜伽 | 欧美重囗未猛交AA片 | 欧中国美乱婬交换粗大 | 国产亲妺妺乱的性视频 | 清纯白嫩初高中在线播放 | 五月丁香激情综合 | 精品无码久久18 | 久密桃精品AV妻菠萝9 | 欧美一级婬片A片免费放上海宾馆 | 东北少妇监控在线播放 | 久久午夜精品人妻一区二区三区 | 国产三级三级三级三级看三级 | 国产成人无码精品久久久A 精品乱码一区内射人妻无码 | 日韩av午夜福利 | 久久久国产精品免费A片蜜 欧美性猛交 XX 乱下载 | 国产中文字日产幕乱久久九九 | 国产中文字幕一区二区 | 国产麻豆一区二区三区 | 艳妇乳肉豪妇荡乳AV无码福利 | 波多野结衣日韩欧美在线 | 377粉嫩欧美色噜噜 成人免费观看婬片A片 | 影音先锋中文字幕资源 | Xx性欧美肥妇精品久久久久久 | 欧美搡BBBBBB搡BBBBBB√ | 国产人妻一区二区三区欧美毛片 | 亚洲精品视频在线播放 | 日本三级片网站在线观看 | 免费 无码 国产在线观 | 操b 用力 好舒服 在线观看 | 国产精品一区二区三区漫画 | 亚洲无码av在线观看 | 失禁H啪肉尿出来高H受 | 人妻aⅴ无码一区二区三区 精品乱码一区内射人妻无码 |