一品网
  • 首页

python 爬虫


需要引入的包
import requests
import re
import time
import tldextract
主要方法
kv = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'} #消息头
url = "http://news.baidu.com"  #地址
r = requests.get(url, headers=kv)  #发送请求 获取页面
r.encoding = r.apparent_encoding  #获取编码方式
html = r.text  #获取页面内容
以百度新闻为例
links = re.findall(r'(?<=# print('find links:', len(links))
# print(r.cookies)
news_links = []
for link in links:
if not link.startswith('https'):
continue
tld = tldextract.extract(link)
if tld.domain == "baidu":
continue
news_links.append(link.replace("https", "http", 1)) #替换https 为http
for link in news_links:
# print(link)
html = requests.get(link, headers=kv).text
# print(html)
save_to_db(link, html)
# print('works done!')
Python

相关


学习《Python编程从入门到实践》PDF+代码训练

python-----面向对象简单理解

python多线程控制

Sublime 的安装、汉化、配置、Python环境和插件

python——time strftime() 函数表示当地时间

python 初识函数

python 函数对象 嵌套 闭包

Python栈溢出——设置python栈大小

python-面向对象-01课堂笔记

python爬虫

Python 之父的解析器系列之五:左递归 PEG 语法

Python 为了提升性能,竟运用了共享经济

标签

一品网 冀ICP备14022925号-6