BeautifulSoup库(2)

信息组织与提取

信息标记：

标记后的信息可以形成信息组织结构，增加了信息维度
标记后的信息可用于通信、存储或展示的形式
标记的结构与信息一样具有重要价值
标记后的信息更有利于程序理解和运用

信息标记的三种形式

XML(扩展标记语言)　　

空元素的缩写形式：

注释书写形式：

JSON　　

有类型的键值对key:value

YAML　　

无类型键值对 Key:value

缩进表达所属关系

-表达并列关系

| 表达整块数据　　#表示注释

三种信息标记形式的比较

XML:

- 最早的通用信息标记语言，可扩展性好，但繁琐
- Internet上的信息交互与传递

JSON:

- 信息有类型，适合程序处理(js)，较XML简洁
- 移动应用云端和节点的信息通信，无注释

YAML:

- 信息无类型，文本信息比例最高，可读性好
- 各类系统的配置文件，有注释易读

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息

XML JSON YAML
需要标记解析器，例如：bs4库的标签树遍历
优点：信息解析准确
缺点：提取过程繁琐，速度慢

方法二：无视标记形式，直接搜索关键信息

搜索
对信息的文本查找函数即可
优点：提取过程简洁，速度较快
缺点：提取结果准确性与信息内容相关

融合方法：结合形式解析与搜索方法，提取关键信息

XML JSON YAML 搜索
需要标记解析器及文本查找函数

实列

提取HTML中所有URL链接

思路：

1. 搜索到所有标签
2. 解析标签格式，提取href后的链接内容

1 import requests
2 from bs4 import BeautifulSoup
3 r = requests.get("http://python123.io/ws/demo.html")
4 demo = r.text
5 soup = BeautifulSoup(demo, "html.parser")
6 for link in soup.find_all('a'):
7     print(link.get('href'))

基于bs4库的HTML内容查找方法

<>.find_all(name, attrs, recursive, string, **kwargs)

返回一个列表类型，存储查找的结果

name：对标签名称的检索字符串

 1 import requests,re
 2 from bs4 import BeautifulSoup
 3 r = requests.get("http://python123.io/ws/demo.html")
 4 demo = r.text
 5 soup = BeautifulSoup(demo, "html.parser")
 6 print(soup.find_all('a'))
 7 print(soup.find_all(['a','b']))
 8 print("=======================")
 9 for tag in soup.find_all(True):
10     print(tag.name)
11 for tag in soup.find_all(re.compile('b')):
12     print(tag.name)

attrs：对标签属性值的检索字符串，可标注属性检索\

 1 import requests,re
 2 from bs4 import BeautifulSoup
 3 r = requests.get("http://python123.io/ws/demo.html")
 4 demo = r.text
 5 soup = BeautifulSoup(demo, "html.parser")
 6 print(soup.find_all('p','course'))
 7 print(soup.find_all(id = 'link1'))
 8 print("==========================")
 9 print(soup.find_all(id = 'link'))
10 print(soup.find_all(id = re.compile('link')))

recursive：是否对子孙全部检索，默认True

1 import requests
2 from bs4 import BeautifulSoup
3 r = requests.get("http://python123.io/ws/demo.html")
4 demo = r.text
5 soup = BeautifulSoup(demo, "html.parser")
6 print(soup.find_all('a'))
7 print(soup.find_all('a', recursive = False))

string：<>...中字符串区域的检索字符串

1 import requests,re
2 from bs4 import BeautifulSoup
3 r = requests.get("http://python123.io/ws/demo.html")
4 demo = r.text
5 soup = BeautifulSoup(demo, "html.parser")
6 print(soup.find_all(string = 'Basic Python'))
7 print(soup.find_all(string = re.compile('Python')))

扩展方法
方法	说明
<>.find()	搜索且只返回一个结果，同.find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同.fing_all()参数
<>.find_parent()	在先辈节点中返回一个结果，同.find()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_next_sibling()	在后续平行节点中返回一个结果，同.find()参数
<>.find_previous_siblings()	在前面平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_previous_sibling()	在前序平行节点中返回一个结果，同.find()参数

Python 爬虫第三方库

BeautifulSoup库(2)

信息组织与提取

信息标记的三种形式

三种信息标记形式的比较

信息提取的一般方法

基于bs4库的HTML内容查找方法

相关

学习《Python编程从入门到实践》PDF+代码训练

python-----面向对象简单理解

python多线程控制

Sublime 的安装、汉化、配置、Python环境和插件

python——time strftime() 函数表示当地时间

python 初识函数

python 函数对象嵌套闭包

Python栈溢出——设置python栈大小

python-面向对象-01课堂笔记

爬虫安装相关软件

python爬虫

Python 之父的解析器系列之五：左递归 PEG 语法

标签