总阅读量次
1、python爬虫下载器
1、requests模块
1、先确定要抓取的网站的地址url
2、对url发起请求并获取响应(网页的源代码)
3、requests.get()方法
对网页发起请求并获取响应信息
requests.get(url,headers={},params={})
url:请求的网页的地址
1 | import requests |
headers:请求携带的浏览器以及操作系统信息
1 | import requests |
params:请求携带参数的字典
模拟登陆:登陆账号之后寻找登陆的请求,找到用户的cookie信息,然后让请求携带这个信息去请求网页
1 | import requests |
2、range()函数
整数迭代生成器
1 | import requests |
3、起点小说
1 | import requests |
4、解析模块
正则表达式
bs4
xpath表达式
5、正则表达式
import re 导入正则表达式模块
1、re.match()方法
从字符串的开头进行匹配,返回符合正则表达式的数据
如果字符串的开头和正则表达式不匹配的话,直接返回None对象
元字符 | 作用 |
---|---|
\s | 匹配一个空白字符 |
\w | 匹配字母数字下划线普通字符 |
\W | 匹配特殊字符 |
\d | 匹配一个数字 |
. | 代表匹配任意字符(\n除外) |
+ | 匹配前面的表达式多次 |
{m} | 精确匹配前面的表达式m次 |
? | 非贪婪匹配 |
() | 分组(想要什么数据就给什么数据加括号) |
* | 匹配出现1次或任意次的字符 |
^ | 从头开始匹配 |
$ | 匹配到末尾结束 |
1 | import re |
2、贪婪匹配与非贪婪匹配
贪婪匹配:在正则表达式匹配成功的前提下,尽可能多的匹配数据(.*)
非贪婪匹配:在正则表达式匹配成功的前提下,尽可能少的匹配数据(.*?)
1 | import re |
3、search()方法
扫描整个字符串,返回第一个符合正则表达式的数据
1 | result=re.search('\w\s',s) |
如果字符串中有多个区间满足正则表达式,也只能返回第一个满足的数据
4、findall()方法
扫描整个字符串,返回所有满足正则表达式的数据列表
findall里没有group()方法
1 | result=re.findall('\w\s',s) |
5、标志位
正则表达式可以通过一些标志位来满足一些特殊的需求
re.S 代表可以进行多行匹配
1 | result=re.findall('.*',s,re.S) |
6、re.compile()
将字符串编译为一个正则表达式对象
1 | p=re.compile('.*',re.S) |
6、起点小说解析
1 | import re |
面向对象
1 | import requests |
7、csv文件的操作
1 | import csv |
1 | import requests |
8、猫眼电影
1 | html=""" |
9、xpath解析器
from lxml import etree
from lxml import html
xpath解析器是在xml文档中寻找数据的一种工具
元字符 | 作用 |
---|---|
/ | 获取当前节点 |
// | 获取当前节点的子孙节点 |
@ | 获取节点的属性 |
text() | 获取节点的文本信息 |
../ | 获取当前节点的父节点 |
1 | from lxml import etree |
10、学院官网
1 | import requests |