python 爬虫

需要引入的包
import requests
import re
import time
import tldextract
主要方法

kv = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'} #消息头
url = "http://news.baidu.com"　　#地址
r = requests.get(url, headers=kv)　　#发送请求 获取页面
r.encoding = r.apparent_encoding　　#获取编码方式
html = r.text　　#获取页面内容

以百度新闻为例

links = re.findall(r'(?<=# print('find links:', len(links))
# print(r.cookies)
news_links = []
for link in links:
    if not link.startswith('https'):
        continue
    tld = tldextract.extract(link)
    if tld.domain == "baidu":
        continue
    news_links.append(link.replace("https", "http", 1)) #替换https 为http
for link in news_links:
    # print(link)
    html = requests.get(link, headers=kv).text
    # print(html)
    save_to_db(link, html)
# print('works done!')

Python

python 爬虫

相关

学习《Python编程从入门到实践》PDF+代码训练

python-----面向对象简单理解

python多线程控制

Sublime 的安装、汉化、配置、Python环境和插件

python——time strftime() 函数表示当地时间

python 初识函数

python 函数对象嵌套闭包

Python栈溢出——设置python栈大小

python-面向对象-01课堂笔记

python爬虫

Python 之父的解析器系列之五：左递归 PEG 语法

Python 为了提升性能，竟运用了共享经济

标签