下载网页的基本方法

作者: 尚亦汐 | 来源:发表于2016-07-22 16:52 被阅读0次

下载网页的基本方法
什么，你不知道wget可以这样用？
Python实战 - 第2节：解析网页中的元素
网页文件下载方法
会用电脑但你不一定玩得转网页，给你10网页插件神器，秒变大神
python爬虫：多媒体文件抽取
自然语言处理的数学原理（一）
网页的下载
Youtube视频下载
在Mac上打开网页下载的软件不可用的解决

在Java中可以用java.net.URL类对实际的URL进行建模，通过这个类，可以对相应的Web服务器发出请求并且获得相应的文档。Java.net.URL类有一个默认的构造函数，使用URL地址作为参数，构造URL对象。

    URL pageURL=new URL(path);

之后，可以通过获得的URL对象来取得网络流，进而像操作本地文件一样来操作网络资源。

InputStream stream=pageURL.openStream();

可以将网页看作网络文件，然后按照文件读取的方式把它读出来并保存到本地。

一个下载网页的程序：

package crawler;

import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.Scanner;

import tool.WriteFile;

public class RetrivePage {
    public static String downloadPage(String path) throws IOException{
        URL pageURL=new URL(path);
        //创建网络流
        Scanner in=new Scanner(new InputStreamReader(pageURL.openStream()));
        in.useDelimiter("\\z");//可以用正则表达式分段读取网页
        //读取网页内容
        StringBuilder pageBuffer=new StringBuilder();
        while(in.hasNext()){
            pageBuffer.append(in.next());
        }
        in.close();
        //返回网页内容
        return pageBuffer.toString();
    }
    public static void main(String[] args) throws IOException {
        String path="http://www.essence.com.cn/essence/news/NewsContent.jsp?docId=29499442";
        String content=RetrivePage.downloadPage(path);
        System.out.println(content);
        String filePath="D:\\lucene\\data\\news.txt";
        WriteFile.writeFile(filePath, content);
    }

}

网友评论

本文标题：下载网页的基本方法

本文链接：https://www.haomeiwen.com/subject/dspijttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

下载网页的基本方法

相关文章

下载网页的基本方法

什么，你不知道wget可以这样用？

Python实战 - 第2节：解析网页中的元素

网页文件下载方法

会用电脑但你不一定玩得转网页，给你10网页插件神器，秒变大神

python爬虫：多媒体文件抽取

自然语言处理的数学原理（一）

网页的下载

Youtube视频下载

在Mac上打开网页下载的软件不可用的解决

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读