python: bs4 sample

作者: luffynoonepiece | 来源:发表于2020-06-29 15:24 被阅读0次
真香

作为一个资料工程师,采集网页数据也是工作中的一部分,BeautifulSoup + requests + regex 可以帮助我们简单地准确定位获取网页源代码中想要的内容。

1.安装bs4

首先win + r打开命令,输入cmd命令,安装bs4:


pip install bs4

or

python -m pip install bs4

2.导入模块

程序员的事,不能叫抄,叫import

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

import requests

#regex

import re

3.简单例子(从网页源代码中根据tag找到标题)


url = 'https://baike.baidu.com/item/Python'

resp = requests.get(url)

#查看连接状态码(200为正常)

print(resp.status_code)

#requests自带chardet的编码检测

resp.encoding = resp.apparent_encoding

#打印网页源代码

#print(resp.text)

#定义一个BeautifulSoup对象

soup = BeautifulSoup(resp.text,'lxml')

#find_all返回list,find返回字串

f = soup.find_all("title")

#将结果存入新建的txt中

with open(".//Label.txt",'w',encoding = 'utf-8') as s:

    print(f,file = s)
蟹蟹

相关文章

网友评论

    本文标题:python: bs4 sample

    本文链接:https://www.haomeiwen.com/subject/eyeazhtx.html