总阅读量次
1、非结构化数据的下载
1 | import requests |
1 | import requests |
2、bs4选择器
python -m pip install bs4
from bs4 import BeautifulSoup
1 | from bs4 import BeautifulSoup |
1、节点选择器
1 | soup=BeautifulSoup(html,"lxml") #将源代码转换为soup对象 |
2、获取节点属性
1 | # data=soup.a.attrs["class"] |
3、方法选择器
查询所有符合条件的元素,给他传入一些属性或文本,就可以得到所有符合条件的元素
1 | # data=soup.find_all(name="div") #查找所有节点名称为div的节点信息 |
4、css选择器
使用css选择器,调用select方法,可以查找定位符合条件的元素
1 | #thread_list > li:nth-child(9) > div > div.col2_right.j_threadlist_li_right > div.threadlist_lz.clearfix > div.threadlist_title.pull_left.j_th_tit |
1 | soup=BeautifulSoup(html,"lxml") #将源代码转换为soup对象 |
3、古诗词项目
www.gushiwen.org
1、获取所有页面的古诗的标题与内容
2、存储格式如下:
每首古诗单独为一个文件,所有古诗存放在一个文件夹内
每首古诗文件内的古诗为,标题独自占一行,内容每遇到句号换行一次
如果古诗标题内存在/,需要去除这个/
1 | import requests |
4、json模块
用于python数据类型和json数据类型之间的相互转换
json python
对象 字典
数组 列表
1、json.loads()
用于将json—>python数据类型
1 | import json |
2、json.dumps()
用于将python—>json数据类型
1 | #json.dumps使用的默认编码是ASCII编码,ensure_ascii=False参数的作用就是不适用和这个编码格式 |
5、bilibili小视频
1、抓包 找到存放视频信息的真实请求
2、分析请求参数,找到可变的参数信息
3、构造参数字典,然后对url发起请求
4、发起请求后得到json数据,然后将json数据转换为python数据
5、解析数据,获取视频的下载地址
6、将视频下载到本地文件夹
1 | import requests |
6、豆瓣电影排行
1、通过分析查找任意一个类型的电影榜单
2、找到存放电影信息的请求
3、获取所有的电影数据
电影名称 演员信息 国家 上映时间 评分 排名 电影类型
4、将所有的数据存储到excel表格或者数据库
1 | import requests |