美文网首页
简单Java爬虫

简单Java爬虫

作者: 沧海一粟谦 | 来源:发表于2018-04-19 11:32 被阅读19次
    Braveheart
    public class Spider {
        
         public static String SendGet(String url) {
             // 定义一个字符串用来存储网页内容  
             String result = "";  
             // 定义一个缓冲字符输入流  
             BufferedReader in = null;  
             try {   
                    // 将string转成url对象   
                    URL realUrl = new URL(url);   
                    // 初始化一个链接到那个url的连接  
                    URLConnection connection = realUrl.openConnection();   
                    // 开始实际的连接   
                    connection.connect();
                    // 初始化 BufferedReader输入流来读取URL的响应   
                    in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"UTF-8"));
                    // 用来临时存储抓取到的每一行的数据  
                    String line;   
                    while ((line = in.readLine()) != null) {    
                        // 遍历抓取到的每一行并将其存储到result里面    
                        result += line;   
                    }
                 } catch (Exception e) {   
                        System.out.println("发送GET请求出现异常!" + e);   
                        e.printStackTrace();  
                   }  
                  // 使用finally来关闭输入流  
                 finally {   
                        try {    
                                if (in != null) {     
                                    in.close();
                                }
                            } catch (Exception e2) {    
                                e2.printStackTrace();
                            }
                        }
             return result;
                }
         public static ArrayList<GetContent>  RegexString(String getcontent) {  
             // 预定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
             ArrayList<GetContent> results=new ArrayList<GetContent>();
             // 匹配标题 
             Pattern pattern = Pattern.compile("<h2><a target.+?>(.+?)<");  
             Matcher matcher = pattern.matcher(getcontent); 
             // 用来匹配url,也就是问题的链接  
             Pattern urlPattern = Pattern.compile("<h2><a target.+?href=\"(.+?)\"");  
             Matcher urlMatcher = urlPattern.matcher(getcontent);
             //标题和链接均要匹配
             boolean isFind=matcher.find()&&urlMatcher.find();
    
             //使用循环将句子中所有的kelvin找出并替换再将内容夹道sb中
             while(isFind) {
                 //创建一个实例
                 GetContent getContent=new GetContent();
                 getContent.title=matcher.group(1);
                 //getContent.contentUrl="https://www.guokr.com"+urlMatcher.group(1);
                 getContent.contentUrl=urlMatcher.group(1);
                 //添加成功匹配的结果
                 results.add(getContent);
                 //继续查找下一个匹配对象
                 isFind=matcher.find()&&urlMatcher.find(); 
            }  
             return results;
         }  
    }
    
    public class GetContent {
        
         public String title;// 问题
         public String contentUrl;// 网页链接 
         public ArrayList<String> content;// 存储所有回答的数组
         // 构造方法初始化数据
         public GetContent() {
             title = "";  
             contentUrl = "";  
             content = new ArrayList<String>();
        }
         @Override 
         public String toString() {
             return "title:" + title + "\n url:" + contentUrl + "\n content:" + content + "\n";
        }
    }
    
    public class Main {
        
        public static void main(String[] args) {
            
            String url="https://www.guokr.com/ask/hottest/";
            //访问链接并获取页面内容
            String result=Spider.SendGet(url);
            //用正则匹配图片的src内容
            ArrayList<GetContent> imgSrc=Spider.RegexString(result);
            //打印结果
            System.out.println(imgSrc);
        }
        
    }
    

    相关文章

      网友评论

          本文标题:简单Java爬虫

          本文链接:https://www.haomeiwen.com/subject/swmckftx.html