美文网首页工作生活
爬取网页内容

爬取网页内容

作者: kanaSki | 来源:发表于2019-07-03 20:20 被阅读0次
    public static void main(String[] args) throws Exception {
        URL url = new URL("https://www.jd.com");
        InputStream inputStream = url.openStream();
        BufferedReader br = new BufferedReader(new InputStreamReader(inputStream, "utf8"));
        String str = null;
        while ((str = br.readLine()) != null) {
            System.out.println(str);
        }
        br.close();
    }

但是有的网站不允许,因此可以模拟浏览器进行访问。

    public static void main(String[] args) throws Exception {
        URL url = new URL("https://www.dianping.com");
        HttpURLConnection urlConnection = (HttpURLConnection) url.openConnection();
        urlConnection.setRequestMethod("GET");
        urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36");
        BufferedReader br = new BufferedReader(new InputStreamReader(urlConnection.getInputStream()));
        String s = null;
        while ((s = br.readLine()) != null) {
            System.out.println(s);
        }
        br.close();
    }

相关文章

  • 爬取网页内容

    但是有的网站不允许,因此可以模拟浏览器进行访问。

  • 集搜客爬取数据方法

    1.安装集搜客软件 2.确定目标网页地址,确定爬取内容类型:只涉及本网页内容列表还是需要层级爬取?层级爬取就是需要...

  • Python 学习笔记 094

    本周学习内容 07 本次分享主题 自动爬取网页内容并保存为TXT 06 自动爬取小说 1.简单逻辑 1.1请求网页...

  • JAVA爬取网页内容

    摘录别人的代码: https://blog.csdn.net/guoxiaolongonly/article/de...

  • Python爬虫入门:以东方财富网为例

    网络爬虫(Web Spider),根据网页地址爬取网页内容,从而获取各类数据,实现多种多样的功能。下面就以爬取东方...

  • 利用API获取豆瓣即将上映的20条电影信息

    利用爬虫爬取网页数据主要有两种方式:第一种是直接爬取HTML网页内容,它的好处是可以自定义爬取的内容,弊端是很多时...

  • Java爬虫(HttpClient)

    网络爬虫主要功能就是对网页内容进行爬取,然后根据特定需求对内容进行过滤分析。针对网页内容爬取,假设需求为要对一个网...

  • Python实战学习笔记 爬去真实网页信息

    爬取URL结果 爬取代码 爬取心得通过这次爬去学会从网页找不同页面地址之间的规律爬去网页,单次爬取的网页可以作为循...

  • 使用urllib.request爬取视频

    使用urllib.request爬取百思不得姐的视频。 爬取视频的步骤如下:1、使用urllib爬取到网页内容,从...

  • 使用Java爬取网页内容

    本篇博客主要参考 java爬取网站信息和url实例[https://blog.csdn.net/qq_325942...

网友评论

    本文标题:爬取网页内容

    本文链接:https://www.haomeiwen.com/subject/fmxhhctx.html