作品分享

框架开源

棋牌源码(coco2d-Lua)

问答交流

登录注册

快捷登录

85.http权势巨子指南-第9章-爬虫

分享

开发者 2024-9-7 06:46:31 674 0 来自中国

爬虫也被称为蜘蛛：是一种机器人，它会递归地对各种信息性web站点举行遍历，根据html毗连创建的网络。网络搜索就是使用爬虫，把全部文档都拉返来，然后对这些文档举行处置处罚，形成一个可搜索的数据库。
爬虫要制止进入循环。
制止循环和重复的方式：

规范化url
广度优先的爬行
节流（限定一段变乱内机器人可以从一个站点获取的网页数）
限定Url巨细
url站点黑名单（访问到该url时避开）
模式检测（订定规则）
内容指纹（重复性检查）
人工监视

记载爬虫访问地点的几种方式：

树和散列表
有损的存在位图（填数据）
检查点（存储效果道硬盘上）
分类

评论

优秀作者助人为乐人气作者

文章

390

问答

390

粉丝

0

发消息

所属分类: 问答交流

新帖推荐: 30日

推荐作品

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2026-2-21 05:04, Processed in 0.157901 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表