對于搜索引擎認為重要的頁面具有以下特征:網站and頁面的權重:對于質量好、網站資格比較舊的會被認為是權重很高的。這樣的網站,蜘蛛的爬行深度更大,收錄的可能性更高。
更新的速度。蜘蛛在進行訪問后就將這些數據存下了,要是再一次的訪問沒有內容更新,蜘蛛就不會老去抓取。要是更新速度很快,蜘蛛就會經常去抓取。這樣子新產生的鏈接,就會很快的被訪問、將新內容抓取。
導入鏈接:
不管是內外部的鏈接,想被蜘蛛抓到,就需要導入鏈接,不然就不會被蜘蛛知道。質量好的導入鏈接能擴大蜘蛛的爬行深度的抓取。
和第一頁的點擊距:
網站通常極高權重的的部分都是首頁,大多數的外部鏈接指向它。蜘蛛抓取極多的也是首頁,離它越近,權重越高,蜘蛛爬行越頻繁。
地址庫
想要讓網頁不會多次的訪問、抓取,這時候需要的是地址庫,記下發現與抓取的、及發現了未抓取的網頁。
這里面的網址有一下幾種收集:
人為輸入的種子網站。
抓取后從超文本標記語言中解析的網址,跟已經在地址庫中的網址比較,要是這個網址里面沒有,就記錄為帶訪問的內容。
站長通過一定渠道提交的網址。
蜘蛛根據網址的重要程度對網址從地址庫進行提取,瀏覽,然后將這個網站從記錄里面刪除,放進訪問過的地址里面。
很多的比較重要的搜索引擎都有一個表格,供站長提交網址??墒翘峤坏倪@些網址只是存進了這地址庫,想要讓網址被收錄需要看一下所提交內容是不是很重要。對于收錄的內容極大一部分是蜘蛛自己跟蹤發現的。
所以說提交的頁面基本上是一點用處也沒有,而搜索引擎更偏向通過自己尋找鏈接得到頁面。
文件的儲存
蜘蛛抓取的內容放進原始的數據庫。這里面的頁面和我們訪問的超文本標記語言是同樣的。不同的網址是不一樣的文件編碼。
重復內容的檢查
抓取的時候會復制內容檢測,這時候要是內容是轉了其他網站,或者是抄的東西,也許不會再去爬行。這是很多的網站看到有蜘蛛來,可是網站卻沒有被收錄的原因。