85.http权势巨子指南-第9章-爬虫

分享
开发者 2024-9-7 06:46:31 49 0 来自 中国
爬虫也被称为蜘蛛:是一种机器人,它会递归地对各种信息性web站点举行遍历,根据html毗连创建的网络。网络搜索就是使用爬虫,把全部文档都拉返来,然后对这些文档举行处置处罚,形成一个可搜索的数据库。
爬虫要制止进入循环。
制止循环和重复的方式:

  • 规范化url
  • 广度优先的爬行
  • 节流(限定一段变乱内机器人可以从一个站点获取的网页数)
  • 限定Url巨细
  • url站点黑名单(访问到该url时避开)
  • 模式检测(订定规则)
  • 内容指纹(重复性检查)
  • 人工监视
记载爬虫访问地点的几种方式:

  • 树和散列表
  • 有损的存在位图(填数据)
  • 检查点(存储效果道硬盘上)
  • 分类
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-19 14:46, Processed in 0.142693 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表