查看网页源码和对应标签
使用QQ浏览器搜狗引擎搜索奥迪

在浏览器中按F12可以查看网页源码

点击源码左上角的按钮

再把鼠标移动到坐标任意位置,在源代码中会高亮对应的标签

网页爬虫示例
在gradle中引入Jsoup
dependencies {
//爬虫
api 'org.jsoup:jsoup:1.11.3'
相关代码
@Override
public void initData() {
stringList = new ArrayList<>();
//在子线程中进行耗时操作
new Thread(new Runnable() {
@Override
public void run() {
Document doc = null;
try {
//解析搜狗网页(搜索奥迪)
doc = Jsoup.connect("https://www.sogou.com/tx?ie=utf-8&hdq=sogou-clse-f507783927f2ec27&query=%E5%A5%A5%E8%BF%AA").get();
LogUtil.v(TAG, "doc=" + doc);
Elements elements = doc.select("div.vrwrap");//得到class名为vrwrap的div,elements是个集合
LogUtil.v(TAG, "elements=" + elements);
//支持链式调用
Elements a = elements.select("h3.vrTitle").select("a");
//得到class名为vrwrap的div内的,class名为vrTitle的h3标签,内的a标签(自己理解。。。)
LogUtil.v(TAG, "size=" + a.size());//
for (int i = 0; i < a.size(); i++) {
String text = a.get(i).text();
LogUtil.v(TAG, "text=" + text);
stringList.add(text);
}
// Elements elements1 = doc.select("a.tit-ico");
// String text = elements1.text();
// String href = elements1.attr("abs:href");
// String s = elements1.toString();
// LogUtil.v(TAG, "text=" + text);
// LogUtil.v(TAG, "href=" + href);
// LogUtil.v(TAG, "s=" + s);
handler.sendEmptyMessage(0);
} catch (IOException e) {
e.printStackTrace();
}
}
}).start();
}
网友评论