Java爬虫jsoup工具类

源代码 2024-9-5 23:27:36 64 0 来自 中国
一、界说

jsoup官网,jsoup是一个用于处置惩罚HTML的Java库,它提供了一个非常方便类似于利用DOM,CSS和jQuery的方法的API来提取和利用数据。
jsoup实现WHATWG HTML5规范,并将HTML分析为与现代欣赏器雷同的DOM。

  • 从URL,文件或字符串中提取并分析HTML
  • 查找和提取数据,利用DOM遍历或CSS选择器
  • 利用HTML元素,属性和文本
  • 根据安全的白名单清算用户提交的内容,以防止XSS攻击
  • 输出整洁的HTML
jsoup旨在处置惩罚发现全部格式有差别的HTML,从原始和验证,到无效的标签,jsoup将创建一个明智的分析树。
二、告急作用


  • DOM:将HTML分析为与现代欣赏器雷同的DOM,和js中的document对象一样,用getElementById等方法获取元素
  • CSS:利用CSS选择器选择src等属性
三、开源

jsoup是一个根据自由MIT允许证分发的开源项目,源代码可在GitHub得到:http://github.com/jhy/jsoup/
四、jsoup安装

要运行任何jsoup示例,必要先安装好jsoup相干Jar包,安装jsoup告急有三种方法:

  • 通过Maven的pom.xml配置文件
  • 利用jsoup.jar文件
  • Gradle的配置文件
通过Maven的pom.xml文件配置:
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2025-2-1 05:45, Processed in 0.166592 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表