Python--lxml

lxml 一点常用的操作

from lxml import etree


def get_all_child_node_text():
    txt = """
    
        输入只有一行半径r.
    
    
        输出有多行,每一行是跟输入对应面积.
        输出保留6位小数
    
    """
    html = etree.HTML(txt)
    contents = html.xpath('//div[@class="content"]')
    lst = []
    for e in contents:
        # 第一种方式，通过使用xpath的string()方法
        # string(.)中的.代表当前节点
        # lst.append(e.xpath('string(.)').strip())
        # ['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.\n        输出保留6位小数']
        # lst.append(e.xpath('string(.)'))
        # ['\n        输入只有一行半径r.\n    ', '\n        输出有多行,每一行是跟输入对应面积.\n        输出保留6位小数\n    ']
        # lst.append(e.xpath('string(.)').replace('\n', '').strip())
        # ['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.        输出保留6位小数']

        # 第二种方式使用lxml节点自带的方法itertext()
        # lst.append(''.join(e.itertext()))
        # ['\n        输入只有一行半径r.\n    ', '\n        输出有多行,每一行是跟输入对应面积.\n        输出保留6位小数\n    ']
        # lst.append(''.join(e.itertext()).replace('\n', '').strip())
        # ['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.        输出保留6位小数']
        lst.append(''.join([s.strip() for s in e.itertext()]).replace('\n', '').strip())
        # ['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.输出保留6位小数']

        # 第三种，通过使用xpath的text()  效果与itertext()类似，估计itertext()就是封装了这个
        # print('e.xpath text', e.xpath('./text()'))  # 只获取当前节点的直接文本，不包含子节点
        # print('e.xpath all text', e.xpath('.//text()'))  # 包含子节点文本 打印的是list
        # lst.append(''.join(e.xpath('.//text()')))
        # ['\n        输入只有一行半径r.\n    ', '\n        输出有多行,每一行是跟输入对应面积.\n        输出保留6位小数\n    ']
        # lst.append(''.join(e.xpath('.//text()')).replace('\n', '').strip())
        # ['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.        输出保留6位小数']
        # lst.append(''.join([s.strip() for s in e.xpath('.//text()')]).replace('\n', '').strip())
        # ['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.输出保留6位小数']

        # 第四种，使用etree.tostring(...)方法
        # print('etree.tostring', etree.tostring(e, method='text', encoding='unicode'))  # 打印的是字符串
        # lst.append(etree.tostring(e, method='text', encoding='unicode'))
        # ['\n        输入只有一行半径r.\n    \n    ', '\n        输出有多行,每一行是跟输入对应面积.\n        输出保留6位小数\n    \n    ']
        # lst.append(etree.tostring(e, method='text', encoding='unicode').replace('\n', '').strip())
        # ['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.        输出保留6位小数']

    # 感觉用第二种简洁一点，效果与第三种类似
    print(lst)


def key_operator():
    html = etree.HTML('html文本')
    element_list = html.xpath('xpath')
    element_list = html.cssselect('css选择器')
    element = element_list[0]
    etree.tostring(element, encoding='utf-8')  # 字符编码控制
    print(element.tag)  # 标签名称
    print(element.text)  # 文本
    print(element.tail)  # 文本
    print(element.attrib)  # 属性 类似字典结构
    print(element.get('属性名称'))  # 也可用直接通过get方法获取属性值


if __name__ == '__main__':
    get_all_child_node_text()

爬虫 Python lxml

Python--lxml

相关

学习《Python编程从入门到实践》PDF+代码训练

python-----面向对象简单理解

python多线程控制

Sublime 的安装、汉化、配置、Python环境和插件

python——time strftime() 函数表示当地时间

python 初识函数

python 函数对象嵌套闭包

Python栈溢出——设置python栈大小

python-面向对象-01课堂笔记

爬虫安装相关软件

python爬虫

Python 之父的解析器系列之五：左递归 PEG 语法

标签