<delect id="xo8iw"><th id="xo8iw"></th></delect>

    <b id="xo8iw"><legend id="xo8iw"></legend></b>

          亞洲無碼在線精品視頻_亚洲日韩欧美国产色精品_中文字幕av日韩一区二区_亚洲av综合色区无码国产播放

          外貿(mào)課堂 外貿(mào)網(wǎng)站 外貿(mào)SEO 付費(fèi)廣告 社交營(yíng)銷 外貿(mào)營(yíng)銷 外貿(mào)推廣 外貿(mào)知識(shí) 外貿(mào)政策 外貿(mào)百科
          當(dāng)前位置:首頁(yè) > 外貿(mào)課堂 > 外貿(mào)營(yíng)銷 > 網(wǎng)頁(yè)的查重技術(shù) 搜索引擎知識(shí)

          網(wǎng)頁(yè)的查重技術(shù) 搜索引擎知識(shí)

          對(duì)于搜索引擎來(lái)說(shuō),重復(fù)的網(wǎng)頁(yè)內(nèi)容是非常有害的。重復(fù)網(wǎng)頁(yè)的存在意味著這些網(wǎng)頁(yè)就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會(huì)在索引庫(kù)里索引兩份相同的網(wǎng)頁(yè)。當(dāng)有人查詢時(shí),在搜索結(jié)果中就會(huì)出現(xiàn)重復(fù)的網(wǎng)頁(yè)鏈接。所以無(wú)論是從搜索體驗(yàn)還是系統(tǒng)效率檢索質(zhì)量來(lái)說(shuō)這些重負(fù)網(wǎng)頁(yè)都是有害處的。

          網(wǎng)頁(yè)查重技術(shù)起源于復(fù)制檢測(cè)技術(shù),即判斷一個(gè)文件內(nèi)容是否存在抄襲、復(fù)制另外一個(gè)或多個(gè)文件的技術(shù)。1993年Arizona大學(xué)的Manber(Google現(xiàn)副總裁、工程師)推出了一個(gè)sif工具,尋找相似文件。1995年Stanford大學(xué)的Brin(Sergey Brin,Google創(chuàng)始人之一)和Garcia-Molina等人在“數(shù)字圖書(shū)觀”工程中首次提出文本復(fù)制檢測(cè)機(jī)制COPS(Copy Protection System)系統(tǒng)與相應(yīng)算法[Sergey Brin et al 1995].之后這種檢測(cè)重復(fù)技術(shù)被應(yīng)用到搜索引擎中,基本的核心技術(shù)既比較相似。

          網(wǎng)頁(yè)和簡(jiǎn)單的文檔不同,網(wǎng)頁(yè)的特殊屬性具有內(nèi)容和格式等標(biāo)記,因此在內(nèi)容和格式上的相同相似構(gòu)成了4種網(wǎng)頁(yè)相似的類型。

          1、兩個(gè)頁(yè)面內(nèi)容格式完全相同。

          2、兩個(gè)頁(yè)面內(nèi)容相同,但格式不同。

          3、兩個(gè)頁(yè)面部分內(nèi)容相同并且格式相同。

          4、兩個(gè)頁(yè)面部分重要相同但格式不同。

          實(shí)現(xiàn)方法:

          網(wǎng)頁(yè)查重,首先將網(wǎng)頁(yè)整理成為一個(gè)具有標(biāo)題和正文的文檔,來(lái)方便查重。所以網(wǎng)頁(yè)查重又叫“文檔查重”。“文檔查重”一般被分為三個(gè)步驟,

          一、特征抽取。

          二、相似度計(jì)算和評(píng)價(jià)。

          三、消重。

          1.特征抽取

          我們?cè)谂袛嘞嗨莆锏臅r(shí)候,一般是才能用不變的特征進(jìn)行對(duì)比,文件查重第一步也是進(jìn)行特征抽取。也就是將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,這一步是為了方面后面的特征比較計(jì)算相似度。

          特征抽取有很多方法,我們這里主要說(shuō)兩種比較經(jīng)典的算法,“I-Match算法”、“Shingle算法”。“I-Match算法”是不依賴于完全的信息分析,而是使用數(shù)據(jù)集合的統(tǒng)計(jì)特征來(lái)抽取文檔的主要特征,將非主要特征拋棄。“Shingle算法”通過(guò)抽取多個(gè)特征詞匯,比較兩個(gè)特征集合的相似程度實(shí)現(xiàn)文檔查重。

          2.相似度計(jì)算和評(píng)價(jià)

          特征抽取完畢后,就需要進(jìn)行特征對(duì)比,因網(wǎng)頁(yè)查重第二步就是相似度計(jì)算和評(píng)價(jià)。

          I-Match算法的特征只有一個(gè),當(dāng)輸入一篇文檔,根據(jù)詞匯的IDF值(逆文本頻率指數(shù),Inverse document frequency縮寫(xiě)為IDF)過(guò)濾出一些關(guān)鍵特征,即一篇文章中特別高和特別低頻的詞匯往往不能反應(yīng)這篇文章的本質(zhì)。因此通過(guò)文檔中去掉高頻和低頻詞匯,并且計(jì)算出這篇文檔的唯一的Hash值(Hash簡(jiǎn)單的說(shuō)就是把數(shù)據(jù)值映射為地址。把數(shù)據(jù)值作為輸入,經(jīng)計(jì)算后即可得到地址值。),那些Hash值相同的文檔就是重復(fù)的。

          Shingle算法是抽取多個(gè)特征進(jìn)行比較,所以處理起來(lái)比較復(fù)雜一些,比較的方法是完全一致的Shingle個(gè)數(shù)。然后除以兩個(gè)文檔的Shingle總數(shù)減去一致的Shingle個(gè)數(shù),這種方法計(jì)算出的數(shù)值為“Jaccard 系數(shù)”,它可以判斷集合的相似度。Jaccard 系數(shù)的計(jì)算方法集合的交集除以集合的并集。

          3.消重

          對(duì)于刪除重復(fù)內(nèi)容,搜索引擎考慮到眾多收錄因素,所以使用了最簡(jiǎn)單的最實(shí)用的方法。先被爬蟲(chóng)抓取的頁(yè)面同時(shí)很大程度也保證了優(yōu)先保留原創(chuàng)網(wǎng)頁(yè)。

          網(wǎng)頁(yè)查重工作是系統(tǒng)中不可缺少的,刪除了重復(fù)的頁(yè)面,所以搜索引擎的其他環(huán)節(jié)也會(huì)減少很多不必要的麻煩,節(jié)省了索引存儲(chǔ)空間、減少了查詢成本、提高了PageRank計(jì)算效率。方便了搜索引擎用戶。

          上一篇:A5源碼:2017年5月份源碼更新推薦

          下一篇:外貿(mào)網(wǎng)站推廣利用社交媒體的好處


          相關(guān)文章:

          杭州市濱江區(qū)偉業(yè)路3號(hào)

          業(yè)務(wù)熱線(微信同號(hào)):18143453325

          業(yè)務(wù)郵箱:2848414880@qq.com

          業(yè)務(wù)QQ:2848414880

          目標(biāo):致力于幫助中國(guó)企業(yè)出海淘金

          使命:為國(guó)內(nèi)企業(yè)跨境出海提供動(dòng)力支持

          愿景:打造用戶期待和尊重的外貿(mào)服務(wù)商

          Copy © 外貿(mào)巴巴 doupeng.com.cn 版權(quán)所有備案號(hào):浙ICP備18013128號(hào)-2
          亞洲無碼在線精品視頻_亚洲日韩欧美国产色精品_中文字幕av日韩一区二区_亚洲av综合色区无码国产播放
            <delect id="xo8iw"><th id="xo8iw"></th></delect>

            <b id="xo8iw"><legend id="xo8iw"></legend></b>
                  华容县| 英山县| 张北县| 拜城县| 鄂温| 启东市| 志丹县| 吕梁市| 黄平县| 武鸣县| 长丰县| 长泰县| 永川市| 琼海市| 茌平县| 枞阳县| 迁安市| 麻城市| 务川| 凌源市| 双桥区| 麻江县| 正宁县| 霍州市| 象山县| 政和县| 华蓥市| 商水县| 海淀区| 佛山市| 海丰县| 沁源县| 盐亭县| 惠州市| 太保市| 祁门县| 招远市| 浪卡子县| 嵩明县| 蒙城县| 哈尔滨市|