美文网首页
java 获取HTML文本IMG标签的src地址

java 获取HTML文本IMG标签的src地址

作者: BetterFuture | 来源:发表于2016-11-25 14:08 被阅读525次
    public static void main(String[] args) {
            String htmlText = "<p>的风格发的,多大的<img src=\"https://123.10.3.22:8080/File/uploadPictrue/20150917151201008.png\" /><img src=\"../File/uploadPic/2015/9/17/15/1118.png\" /></p>";
            GetHtmlImageSrcList(htmlText);
            System.out.println(GetHtmlText(htmlText));
        }
        
        /**
         * 获取HTML文件里面的IMG标签的SRC地址
         * @param htmlText 带html格式的文本
         */
        public static List<String> GetHtmlImageSrcList(String htmlText)   
        {
            List<String> imgSrc = new ArrayList<String>();
            Matcher m = Pattern.compile("src=\"?(.*?)(\"|>|\\s+)").matcher(htmlText);
            while(m.find())
            {    
                imgSrc.add(m.group(1));
            }
            return imgSrc;
        }
        
        /**
         * 去掉所有的HTML,获取其中的文本信息 
         * @param htmlText
         * @return
         */
        public static String GetHtmlText(String htmlText)   
        {
            String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式 
            Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  
            Matcher m_html = p_html.matcher(htmlText);
            htmlText = m_html.replaceAll(""); // 过滤HTML标签
            return htmlText;
        }
    

    相关文章

      网友评论

          本文标题:java 获取HTML文本IMG标签的src地址

          本文链接:https://www.haomeiwen.com/subject/jrzipttx.html