public static void main(String[] args) {
String htmlText = "<p>的风格发的,多大的<img src=\"https://123.10.3.22:8080/File/uploadPictrue/20150917151201008.png\" /><img src=\"../File/uploadPic/2015/9/17/15/1118.png\" /></p>";
GetHtmlImageSrcList(htmlText);
System.out.println(GetHtmlText(htmlText));
}
/**
* 获取HTML文件里面的IMG标签的SRC地址
* @param htmlText 带html格式的文本
*/
public static List<String> GetHtmlImageSrcList(String htmlText)
{
List<String> imgSrc = new ArrayList<String>();
Matcher m = Pattern.compile("src=\"?(.*?)(\"|>|\\s+)").matcher(htmlText);
while(m.find())
{
imgSrc.add(m.group(1));
}
return imgSrc;
}
/**
* 去掉所有的HTML,获取其中的文本信息
* @param htmlText
* @return
*/
public static String GetHtmlText(String htmlText)
{
String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlText);
htmlText = m_html.replaceAll(""); // 过滤HTML标签
return htmlText;
}
网友评论