data:image/s3,"s3://crabby-images/107ce/107cebe65596af7ead99b4609575fad80d2ac263" alt="大数据采集与爬虫"
上QQ阅读APP看书,第一时间看更新
2.6 任务实现
本任务将实现使用BeautifulSoup库、lxml库和requests库完成对百度标题的爬取和解析任务。
1)在Python文件中导入requests库和BeautifulSoup库。
data:image/s3,"s3://crabby-images/886bc/886bcc76b65c351fd175fedbe75762731c228126" alt=""
2)使用requests.get()方法获得指定页面数据。
data:image/s3,"s3://crabby-images/a279b/a279b7182906233b59a7d17119181df29b57b542" alt=""
3)由于requests对象的默认编码方式不是utf-8,因此可能导致乱码,所以先设置requests.encoding='utf-8'。
data:image/s3,"s3://crabby-images/f1574/f1574a148606f08776e8d1806c0dd81d5c1baa84" alt=""
4)在BeautifulSoup中使用lxml作为解析器,解析request.text得到的页面数据。
data:image/s3,"s3://crabby-images/6bd3d/6bd3ddd2dfb6dbcbece62fbf6867e6a51d1d8082" alt=""
5)输出指定的页面标签文本。这里介绍两种方式。
① 直接使用需要查找的标签名。
data:image/s3,"s3://crabby-images/060fb/060fb388c3587180660559bac155b2a65ef57d1d" alt=""
② 使用select方法选择需要查找的标签路径。
data:image/s3,"s3://crabby-images/279e9/279e9e3cfc534958b0d335c2b747f6339b5f267c" alt=""
标签路径可以通过浏览器的开发者工具获取。其具体获取方法是:打开指定页面后,按〈F12〉键,打开开发者工具,选择指定的页面元素并右击,在弹出的快捷菜单中选择“Copy”→ “Copy selector”命令,如图2-15所示。
data:image/s3,"s3://crabby-images/ca510/ca51043bd5d3db151a13cdddf94caa6e2480295b" alt=""
图2-15 获得页面元素标签路径
6)显示结果如图2-17所示。
data:image/s3,"s3://crabby-images/8939d/8939de6648e73bb85efc9fd807ed39e6d5108ff2" alt=""
图2-17 标签查询结果显示
这样就使用requests库和BeautifulSoup库成功地抓取了百度页面中标签为<title>的文本内容。本任务的完整代码如下。
data:image/s3,"s3://crabby-images/d700e/d700ead30a59485a1f34d9d53989c8eb14e660f9" alt=""