Xpath剔除不需要的标签节点


res = requests.get(link,).content.decode('utf8')
html_ = etree.HTML(res)

# 选取所有需要剔除的元素
for del_element in html_.xpath('//*[@id="newsText"]//style'):
    # 这里必须定位至父节点删除子节点,不允许“自杀”
    del_element.getparent().remove(del_element)
result = html_.xpath('string(//*[@id="newsText"])').strip().replace(' ', '').replace('', '')