Java如何去除字符串中的HTML标签


Java如何去除字符串中的HTML标签

使用爬虫爬取网站数据,有时会将HTML相关的标签也一并获取,如何将这些无关的标签去除呢,往下看:

直接写个Test类:

@Test
    void deleteHtmlTags() {
        //定义字符串
        String htmlStr = "少年中国说。红日初升,其道大光。

河出伏流,一泻汪洋。

潜龙腾渊, 鳞爪  飞扬。乳 虎啸 谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作 其芒。天戴其苍,地履其黄。纵有千古,横有" + "八荒。前途似海,来日方长

美哉我少年中国,与天不老!

壮哉我中国少年,与国无疆!

"; //定义script的正则表达式,去除js可以防止注入 String scriptRegex = "]*?>[\\s\\S]*?<\\/script>"; //定义style的正则表达式,去除style样式,防止css代码过多时只截取到css样式代码 String styleRegex = "]*?>[\\s\\S]*?<\\/style>"; //定义HTML标签的正则表达式,去除标签,只提取文字内容 String htmlRegex = "<[^>]+>"; //定义空格,回车,换行符,制表符 String spaceRegex = "\\s*|\t|\r|\n"; // 过滤script标签 htmlStr = htmlStr.replaceAll(scriptRegex, ""); // 过滤style标签 htmlStr = htmlStr.replaceAll(styleRegex, ""); // 过滤html标签 htmlStr = htmlStr.replaceAll(htmlRegex, ""); // 过滤空格等 htmlStr = htmlStr.replaceAll(spaceRegex, ""); // 过滤  htmlStr = htmlStr.replace(" ", ""); // 过滤  htmlStr = htmlStr.replace(" ", ""); // 返回文本字符串 htmlStr = htmlStr.trim(); //去除空格" " htmlStr = htmlStr.replaceAll(" ", ""); System.out.println(htmlStr); }

最终的结果如下:

原先爬取的字符串中的script、style、html等标签,以及空格、 都已经筛除了。

相关