作为一个资料工程师,采集网页数据也是工作中的一部分,BeautifulSoup + requests + regex 可以帮助我们简单地准确定位获取网页源代码中想要的内容。
1.安装bs4
首先win + r打开命令,输入cmd命令,安装bs4:
pip install bs4
or
python -m pip install bs4
2.导入模块
程序员的事,不能叫抄,叫import
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests
#regex
import re
3.简单例子(从网页源代码中根据tag找到标题)
url = 'https://baike.baidu.com/item/Python'
resp = requests.get(url)
#查看连接状态码(200为正常)
print(resp.status_code)
#requests自带chardet的编码检测
resp.encoding = resp.apparent_encoding
#打印网页源代码
#print(resp.text)
#定义一个BeautifulSoup对象
soup = BeautifulSoup(resp.text,'lxml')
#find_all返回list,find返回字串
f = soup.find_all("title")
#将结果存入新建的txt中
with open(".//Label.txt",'w',encoding = 'utf-8') as s:
print(f,file = s)
蟹蟹
网友评论