美文网首页
正则表达式匹配html标签,获取标签内容

正则表达式匹配html标签,获取标签内容

作者: tinyvampirepudg | 来源:发表于2020-03-09 09:38 被阅读0次

    如何获取html中正文的内容

    假设我们要获取下面html标签中的内容:

    <p>桥边姑娘</p><p>你的芬芳</p><p>我把你放心上</p><p>不想让你流浪</p>
    
    <p><span style="white-space: normal;">王者荣耀</span></p>
    

    第一段是获取<p></p>标签内部的数据,第二个是获取<p><span></span></p>标签中的数据,其中span标签中有style属性值。

    使用过正则表达式的同学肯定知道,上面两种情况其实都是一种情况,我们要获取的是尖括号括起来的一对标签中间的数据,起始标签形如<x>,结束标签形如</x>,这里的x表示的html标签。

    定义正则表达式

    此外,我们还需要考虑起始标签中包含style的数据,另外特殊的<br/>标签,对实际获取数据无意义,也需要过滤掉。

    通过上面的分析,我们可以如下正则表达式:

    <[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*?>
    

    具体处理过程

    数据预处理

    在使用正则表达式处理之前,我们先对数据进行预处理,比如style和
    标签:

    /**
     * 替换掉html标签里面的style内容
     *
     * @param content
     * @return
     */
    public static String replaceStyle(String content) {
        if (content == null || content.length() == 0) {
            return content;
        }
        String regEx = " style=\"(.*?)\"";
        Pattern p = Pattern.compile(regEx);
        Matcher m = p.matcher(content);
        if (m.find()) {
            content = m.replaceAll("");
        }
        return content;
    }
    
    /**
     * 移除掉</br>标签
     *
     * @param src
     * @return
     */
    public static String removeBrTag(String src) {
        if (src != null && !src.isEmpty()) {
            src = src.replaceAll("<br/>", "");
        }
        return src;
    }
    
    针对标签嵌套的情况

    针对多个标签嵌套的情况进行处理,比如 <p><span style="white-space: normal;">王者荣耀</span></p>,在经过预处理和正则匹配的后结果是 <span>王者荣耀,需要手工移除掉前面的起始标签,对应的方法如下:

    /**
     * 针对多个标签嵌套的情况进行处理
     * 比如 <p><span style="white-space: normal;">王者荣耀</span></p>
     * 预处理并且正则匹配完之后结果是 <span>王者荣耀
     * 需要手工移除掉前面的起始标签
     * @param content
     * @return
     */
    public static String replaceStartTag(String content) {
        if (content == null || content.length() == 0) {
            return content;
        }
        String regEx = "<[a-zA-Z]*?>([\\s\\S]*?)";
        Pattern p = Pattern.compile(regEx);
        Matcher m = p.matcher(content);
        if (m.find()) {
            content = m.replaceAll("");
        }
        return content;
    }
    

    具体匹配方法

    /**
     * 匹配html标签,例如"<p>xxx</p>"这种格式
     */
    private static Pattern HTML_TAG_PATTERN = Pattern.compile("<[a-zA-Z]+.*?>([\\s\\S]*?)</[a-zA-Z]*?>");
    
    /**
     * 获取html中的数据
     * @param htmlString
     * @return
     */
    public static List<String> getResultsFromHtml(String htmlString) {
        List<String> results = new ArrayList<>();
        // 数据预处理
        htmlString = replaceStyle(removeBrTag(htmlString));
        if (htmlString != null && htmlString.length() > 0) {
            Matcher imageTagMatcher = HTML_TAG_PATTERN.matcher(htmlString);
            // 针对多个并列的标签的情况
            while (imageTagMatcher.find()) {
                String result = "";
                // group(1)对应正则表达式中的圆括号括起来的数据
                result = imageTagMatcher.group(1).trim();
    
                // 针对多个标签嵌套的情况进行处理
                if (result != null && result.length() > 0) {
                    result = replaceStartTag(result);
                }
    
                results.add(result);
            }
        }
        return results;
    }
    

    测试验证

    测试方法如下:

    public static void main(String[] args) {
        String ss = "<p>桥边姑娘</p><p>你的芬芳</p><p>我把你放心上</p><p>不想让你流浪</p>";
        List<String> results = getResultsFromHtml(ss);
        System.out.println("results:" + results);
    
        String ss1 = "<p><span style=\"white-space: normal;\">王者荣耀</span></p>";
        List<String> results1 = getResultsFromHtml(ss1);
        System.out.println("results1:" + results1);
    }
    

    output:

    results:[桥边姑娘, 你的芬芳, 我把你放心上, 不想让你流浪]
    results1:[王者荣耀]
    

    相关文章

      网友评论

          本文标题:正则表达式匹配html标签,获取标签内容

          本文链接:https://www.haomeiwen.com/subject/wkfudhtx.html