Java如何去除字符串中的HTML标签
Java如何去除字符串中的HTML标签
使用爬虫爬取网站数据,有时会将HTML相关的标签也一并获取,如何将这些无关的标签去除呢,往下看:
直接写个Test类:
@Test
void deleteHtmlTags() {
//定义字符串
String htmlStr = "少年中国说。红日初升,其道大光。河出伏流,一泻汪洋。
潜龙腾渊, 鳞爪 飞扬。乳 虎啸 谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作 其芒。天戴其苍,地履其黄。纵有千古,横有" +
"八荒。前途似海,来日方长。美哉我少年中国,与天不老!
壮哉我中国少年,与国无疆!
";
//定义script的正则表达式,去除js可以防止注入
String scriptRegex = "