一、解析html
背景:最近有个需求,需要爬取某个页面的数据,将整个页面的html爬取下来后,对html作解析,然后保存特定的数据到数据库中。经过了解,最后决定body部分的html使用jsoup来获取,script部分则使用正则表达式来获取。
1、使用Jsoup解析
1)、获取doc
Document doc = Jsoup.parse(htmlStr);
Document doc = Jsoup.connect("http://url.html").get();
2)、直接下级,中间不能断层
Elements tableEle = doc.select("div.content > div.row > div.class1.class2");
Elements trList = tableEle.select("table > tbody > tr");
3)、中间有断层,可使用
Elements tableEle = doc.select("div.content").select("div.class1.class2");
4)、也可以用属性
Elements tableEle = doc.select("div[id=tab1]").select("div[class=content]")
5)、获取标签的值
<td class="text-center" id="17909">295,420</td>
String shopId = tdEle.attr("id");
String text = tdEle.text();
6)、获取<script>标签下的数据
String scriptStr = doc.head().data();
2、使用正则表达式解析
1)、将换行符制表符回车符报警符都替换掉
String handleScript = scriptStr.replaceAll("\\r|\\t|\\n|\\a","");
2)、需要获取var option1 = {}里面的值
String option1Regex = "var option1 =(.*?) var myChart1";
Pattern pattern = Pattern.compile(p, Pattern.DOTALL);
Matcher m = pattern.matcher(content);
if (m.find()) {
String result = StringUtils.trim(m.group(1));
}
这里需要了解一下m.group的方法,m.group()等于m.group(0),获取的是匹配整个正则的结果,m.group(1)是分组里面的内容,因为是用括号()来分组的,所以获取的就是匹配()里面的内容
3)、获取option1里面data的数据
String option1DateReg ="(?<=xAxis:.{0,500}data:\\s{0,100}\\[).*?(?=,\\s{0,100}\\])";
Pattern pattern = Pattern.compile(p, Pattern.DOTALL);
Matcher m = pattern.matcher(content);
if (m.find()) {
String result = StringUtils.trim(m.group());
}
这里了解一下零宽断言
用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。
(?<=exp)需要提取的内容(?=exp)
例如:(?<=\s)\d+(?=\s)
匹配以空白符间隔的数字(再次强调,不包括这些空白符)
注意:零宽断言中条件如果有多个空白,不能写成(?<=\s+?)\d+(?=\s*?)
因为:java 正则 <=断言的限制, 需要有最大值,
应写出
(?<=\s{0,65535})\d+(?=\s{0,65535})
网友评论