查看网页源码和对应标签

使用QQ浏览器搜狗引擎搜索奥迪

image.png
在浏览器中按F12可以查看网页源码

image.png
点击源码左上角的按钮

image.png
再把鼠标移动到坐标任意位置，在源代码中会高亮对应的标签

image.png

网页爬虫示例

在gradle中引入Jsoup

dependencies {
//爬虫
    api 'org.jsoup:jsoup:1.11.3'

相关代码

@Override
    public void initData() {
        stringList = new ArrayList<>();
        //在子线程中进行耗时操作
        new Thread(new Runnable() {
            @Override
            public void run() {
                Document doc = null;
                try {
                    //解析搜狗网页（搜索奥迪）
                    doc = Jsoup.connect("https://www.sogou.com/tx?ie=utf-8&hdq=sogou-clse-f507783927f2ec27&query=%E5%A5%A5%E8%BF%AA").get();
                    LogUtil.v(TAG, "doc=" + doc);

                    Elements elements = doc.select("div.vrwrap");//得到class名为vrwrap的div,elements是个集合
                    LogUtil.v(TAG, "elements=" + elements);

                    //支持链式调用
                    Elements a = elements.select("h3.vrTitle").select("a");
                    //得到class名为vrwrap的div内的,class名为vrTitle的h3标签，内的a标签（自己理解。。。）

                    LogUtil.v(TAG, "size=" + a.size());//

                    for (int i = 0; i < a.size(); i++) {
                        String text = a.get(i).text();
                        LogUtil.v(TAG, "text=" + text);
                        stringList.add(text);
                    }
//                    Elements elements1 = doc.select("a.tit-ico");
//                    String text = elements1.text();
//                    String href = elements1.attr("abs:href");
//                    String s = elements1.toString();
//                    LogUtil.v(TAG, "text=" + text);
//                    LogUtil.v(TAG, "href=" + href);
//                    LogUtil.v(TAG, "s=" + s);
                    handler.sendEmptyMessage(0);

                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }).start();
    }