Xpath剔除不需要的标签节点

res = requests.get(link,).content.decode('utf8')
html_ = etree.HTML(res)

# 选取所有需要剔除的元素
for del_element in html_.xpath('//*[@id="newsText"]//style'):
    # 这里必须定位至父节点删除子节点，不允许“自杀”
    del_element.getparent().remove(del_element)
result = html_.xpath('string(//*[@id="newsText"])').strip().replace(' ', '').replace(' ', '')

python爬虫

相关

python 爬虫定时计划任务

python 爬虫定时计划任务

python 爬虫实例

Python 爬虫入门（二）—— IP代理使用

Python 爬虫入门（一）

python 爬虫

Python 爬虫入门（一）环境搭建

Python 爬虫时，如何替换 URL 中的 query 字段？

标签