对于搜索引擎来说,要抓取互联网上所有的网页是安全不可能的,容量最大的搜索引擎也不过是抓取了整个网页数量的30%到40%之间。这其中的原因一方面是抓取技术的问题,无法遍历所有的网页。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。所以,许多搜索引擎的网络爬虫只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。 &n
爬虫站内搜索