一、定义
jsoup官网,jsoup是一个用于处理HTML的Java库,它提供了一个非常方便类似于使用DOM,CSS和jQuery的方法的API来提取和操作数据。
jsoup实现WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。
- 从URL,文件或字符串中提取并解析HTML
- 查找和提取数据,使用DOM遍历或CSS选择器
- 操纵HTML元素,属性和文本
- 根据安全的白名单清理用户提交的内容,以防止XSS攻击
- 输出整洁的HTML
jsoup旨在处理发现所有格式有差异的HTML,从原始和验证,到无效的标签,jsoup将创建一个明智的解析树。
二、主要作用
- DOM:将HTML解析为与现代浏览器相同的DOM,和js中的document对象一样,用getElementById等方法获取元素
- CSS:利用CSS选择器选择src等属性
三、开源
jsoup是一个根据自由MIT许可证分发的开源项目,源代码可在GitHub获得:http://github.com/jhy/jsoup/
四、jsoup安装
要运行任何jsoup示例,需要先安装好jsoup相关Jar包,安装jsoup主要有三种方法:
- 通过Maven的pom.xml配置文件
- 使用jsoup.jar文件
- Gradle的配置文件
通过Maven的pom.xml文件配置:
<dependency>
<!-- jsoup HTML parser library @ http://jsoup.org/ -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.15.3</version>
</dependency>
jsoup是完全自包含的,没有依赖关系。
五、jsoup应用的主要类
然完整的类库中有很多类,但大多数情况下,下面给出3个类是我们需要重点了解的。
5.1 org.jsoup.Jsoup
类
jsoup类是任何Jsoup程序的入口点,并将提供从各种来源(URL、文件、字符串)加载和解析HTML文档的方法。
5.1.1 从URL加载解析HTML文档
方式一:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
import java.net.URL;
public class Test {
public static void main(String[] args) throws IOException {
Document document = Jsoup.parse(new URL("http://www.yiibai.com"), 30000);
String title = document.title();
//易百教程™ - 专注于IT教程和实例
System.out.println(title);
}
}
方式二:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
public class Test {
public static void main(String[] args) throws IOException {
Document document = Jsoup.connect("http://www.yiibai.com").get();
String title = document.title();
//易百教程™ - 专注于IT教程和实例
System.out.println(title);
}
}
5.1.2 从文件加载解析HTML文档
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.File;
import java.io.IOException;
public class Test {
public static void main(String[] args) throws IOException {
Document document = Jsoup.parse( new File( "D:/yibai.html" ) , "utf-8" );
String title = document.title();
//易百教程™ - 专注于IT教程和实例
System.out.println(title);
}
}
备注:在浏览器中打开http://www.yiibai.com
网站,然后ctrl+s将该网站保存到本地yibai.html。
5.1.3 从字符串加载解析HTML文档
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
public class Test {
public static void main(String[] args) throws IOException {
String html = "<html><head><title>易百教程™ - 专注于IT教程和实例</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document document = Jsoup.parse(html);
String title = document.title();
//易百教程™ - 专注于IT教程和实例
System.out.println(title);
}
}
5.2 org.jsoup.nodes.Document
类
该类表示通过jsoup库加载HTML文档。可以使用此类执行适用于整个HTML文档的操作。Element类的重要方法可以参见 http://jsoup.org/apidocs/org/jsoup/nodes/Document.html
5.2.1 DOM
document对象和JavaScript里的document是一个东西,js里能用的方法这里都能调用。
Element element = document.getElementById("J_goodsList");
5.2.2 CSS选择器
下面例子中从HTML提取带a[href] 、src、 link[href]属性的元素,再用这些元素的attr函数提取更精确额内容。
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class Test {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("http://www.yiibai.com").get();
Elements links = doc.select("a[href]");
Elements media = doc.select("[src]");
Elements imports = doc.select("link[href]");
System.out.println("links size:=" + links.size());
for (Element link : links) {
System.out.println(link.attr("abs:href"));
}
System.out.println("media size:=" + media.size());
for (Element src : media) {
if (src.tagName().equals("img")) {
System.out.println(src.tagName() + " " + src.attr("abs:src") + " " + src.attr("width"));
} else {
System.out.println(src.tagName() + " " + src.attr("abs:src") + " " + src.attr("width"));
}
}
System.out.println("imports size:=" + imports.size());
for (Element link : imports) {
System.out.println(link.tagName() + " " + link.attr("abs:href") + " " + link.attr("rel"));
}
}
}
5.3 org.jsoup.nodes.Element
类
HTML元素是由标签名称,属性和子节点组成。 使用Element类,您可以提取数据,遍历节点和操作HTML。Element类的重要方法可参见 http://jsoup.org/apidocs/org/jsoup/nodes/Element.html
六、常用功能
6.1 获取URL的链接
Elements类中可以使用for-each循环遍历元素。Element类提供了attr()和text()方法来返回链接的链接和对应的文本。
Document doc = Jsoup.connect("http://www.yiibai.com").get();
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println("\nlink : " + link.attr("href"));
System.out.println("text : " + link.text());
}
6.2 获取URL的元信息
Document doc = Jsoup.connect("http://www.yiibai.com").get();
String keywords = doc.select("meta[name=keywords]").first().attr("content");
System.out.println("Meta keyword : " + keywords);
String description = doc.select("meta[name=description]").get(0).attr("content");
System.out.println("Meta description : " + description);
6.3 获取URL的图片
Document doc = Jsoup.connect("http://www.yiibai.com").get();
Elements images = doc.select("img[src~=.+(.JPEG|.jpeg|.JPG|.jpg|.PNG|.png|.GIF|.gif)$");
for (Element image : images) {
System.out.println("src : " + image.attr("src"));
System.out.println("height : " + image.attr("height"));
System.out.println("width : " + image.attr("width"));
System.out.println("alt : " + image.attr("alt"));
}
6.4 获取表单参数
Document doc = Jsoup.parse(new File("D:/yibai.html"),"utf-8");
Element loginform = doc.getElementById("registerform");
Elements inputElements = loginform.getElementsByTag("input");
for (Element inputElement : inputElements) {
String key = inputElement.attr("name");
String value = inputElement.attr("value");
System.out.println("Param name: "+key+" \nParam value: "+value);
}
七、jsoup上传图片到OSS
7.1 OssComponent
@Slf4j
@Component
public class OssComponent {
@Resource
private OssConfig ossConfig;
@Value("${spring.profiles.active}")
private String active;
public String uploadByInputStream(InputStream inputStream,
Long memberId, String fileName) {
String bucketName = getBucketName();
// /content/{memberId}/{datetime.now.date}/xxxxxxx.jpg
String date = DateFormatUtils.format(new Date(), "yyyy-MM-dd");
String objectName = StrUtil.format("content/{}/{}/{}", memberId, date, fileName);
OSS ossClient = new OSSClientBuilder().build(ossConfig.getEndpoint(), ossConfig.getAccessKeyId(), ossConfig.getAccessKeySecret());
try {
PutObjectResult result = ossClient.putObject(bucketName, objectName, inputStream);
if (StringUtil.isNotEmpty(result.getETag())) {
String newUrl = StrUtil.format("https://{}.{}/{}",bucketName,ossConfig.getEndpoint(),objectName);
return newUrl;
}
} catch (Exception e) {
e.printStackTrace();
} finally {
if (ossClient != null) {
ossClient.shutdown();
}
}
return null;
}
private String getBucketName() {
if ("prod".equals(active)) {
return "prod-public";
} else {
return "test-public";
}
}
}
7.2 OssConfig
@Data
@Component
@ConfigurationProperties(prefix="aliyun-oss")
public class OssConfig {
private String endpoint;
private String accessKeyId;
private String accessKeySecret;
private String roleArn;
private Long durationSeconds;
private String bucketName;
}
7.3 loadImage
/**
* 上传图片到OSS
*
* @param originUrl:可访问的待上传图片的全地址
* @param memberId
* @return 上传到OSS的新地址
*/
public String loadImage(String originUrl, Long memberId) {
try {
String[] fileNameArray = originUrl.split("/");
String fileName = fileNameArray[fileNameArray.length - 1];
if (fileName.contains("?")) {
fileName = fileName.split("\\?")[0];
}
byte[] byteArray = Jsoup.connect(originUrl).validateTLSCertificates(false).ignoreContentType(true).maxBodySize(Integer.MAX_VALUE).execute().bodyAsBytes();
InputStream inputStream = new ByteArrayInputStream(byteArray);
return ossComponent.uploadByInputStream(inputStream, memberId, fileName);
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
网友评论