新聞詳情
談?wù)勊阉饕媸侨绾闻袆e重復(fù)頁面的標(biāo)準(zhǔn)是什么 二維碼
595
發(fā)表時(shí)間:2018-01-20 15:41作者:津坤科技團(tuán)隊(duì) 在搜索引擎的網(wǎng)頁索引庫里重復(fù)網(wǎng)頁有多種類型,這些重復(fù)網(wǎng)頁有的是沒有一點(diǎn)兒改動(dòng)的副本,有的在內(nèi)容形式上稍做修改,還有就是出現(xiàn)的時(shí)間早晚,有的則僅是網(wǎng)頁的。我們將這些歸類得出不同內(nèi)容重復(fù)可以歸結(jié)為以下4種類型。
1: 如果兩篇文檔內(nèi)容和布局格式毫無別則這種重復(fù)可以同做完全重復(fù)頁面。
2: 如果兩篇文檔內(nèi)容相,們是布局格式不同,則叫內(nèi)容重復(fù)頁面。
3: 如果兩篇文檔有部分重要的內(nèi)容相同,并布局格式相同,則稱為布局重復(fù)頁面。
4: 如果兩篇文檔有部分重要的內(nèi)容相,是布局格式不同,則稱為部分重復(fù)頁面。
所謂近似重復(fù)網(wǎng)頁發(fā)現(xiàn),就是通過技術(shù)手段快速全面發(fā)現(xiàn)這些重復(fù)信息的手段,如何快速準(zhǔn)確地發(fā)現(xiàn)這些內(nèi)容上相似的網(wǎng)頁已經(jīng)成為提高搜索引擎服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一。
發(fā)現(xiàn)完全相同或者近似重復(fù)網(wǎng)頁對(duì)于搜索引擎有很多好處。
首先,如果我們能夠找出這些重復(fù)網(wǎng)頁并從數(shù)據(jù)庫中去掉,就能夠節(jié)省部分存儲(chǔ)空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁內(nèi)容,同時(shí)也提高了搜索引擎的搜索質(zhì)量和用戶體驗(yàn)。
其次,如果我們能夠通過對(duì)以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,在今后的網(wǎng)頁收集過程中就可以避開這些網(wǎng)頁,從而提高網(wǎng)頁的收集速度。有研究表明重復(fù)網(wǎng)頁隨著時(shí)間不發(fā)生太大變化,所以這種從重復(fù)頁面集合中選擇部分頁面進(jìn)行索引是有效的。
另外,如果某個(gè)網(wǎng)頁的鏡像度較高,往往是其內(nèi)容比較受歡迎的一種間接體現(xiàn),也就預(yù)示著該網(wǎng)頁相對(duì)重要,在收集網(wǎng)頁時(shí)應(yīng)賦予它較高的優(yōu)先級(jí),而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請(qǐng)求并對(duì)輸出結(jié)果排序時(shí),應(yīng)該賦了它較高的權(quán)值。
從另外一個(gè)角度看,如果用戶點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶引導(dǎo)到一個(gè)內(nèi)容相同頁面,這樣可以有效地增加用戶的檢索體驗(yàn)。因而近似重復(fù)網(wǎng)頁的及時(shí)又現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。 |