美文网首页Python与数据分析
【爬虫笔记】一、一个简单的爬虫

【爬虫笔记】一、一个简单的爬虫

作者: 清梦载星河 | 来源:发表于2019-09-29 19:37 被阅读0次

没想到做数据分析也要学习爬虫,幸好会点前端的基础知识,行吧,搞起。

1. 前提准备

  • 目的:爬取豆瓣读书经典分类第一页的二十本书的书名
  • 需要的模块:
    • requests
    • BeautifulSoup
# 下载安装
pip install requests
pip install bs4
# 导入
from bs4 import BeautifulSoup
import requests

2. 代码搞起

import requests
from bs4 import BeautifulSoup

# 添加登录信息
# 登录信息在浏览器开发工具Network - Doc - Header里面找,需自行登录豆瓣
# 保险起见,下面内容我改了些数据
# 主要就是Header和Cookie
dic_h = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"}
cookie = '''ll="1157683"; bid=_sU_hV7qb04; dbcl2="1312381777:okfsm+CyrjQ"; ck=haXU; ap_v=0,6.0; push_noty_num=0; push_doumail_num=0'''
dic_c = {}
for i in cookie.split('; '):
    dic_c[i.split('=')[0]] = i.split('=')[1]

# 添加url
url = "https://book.douban.com/tag/%E7%BB%8F%E5%85%B8"
r = requests.get(url,headers=dic_h,cookies=dic_c)
bsObj = BeautifulSoup(r.content,'lxml')

# 这里要分析一下网页结构,不贴图了,具体的自行进开发工具查看
# 列出的书都在ul标签下,按照class = subject-list这个属性来找
# 每本书分开放在一个 li 标签下
ullist = bsObj.find('ul',{"class":"subject-list"})
lilst = ullist.findAll('li')

# 在 li 下找第二个 a 标签
# 将title存放在titlelist列表中
titlelist = []
for li in lilst:
    title = li.findAll('a')[1]['title']
    titlelist.append(title)

这样,一个超简单的爬虫就写好了,打印一下结果:

print(titlelist)
['小王子', '活着', '追风筝的人', '红楼梦', '围城', '平凡的世界(全三部)', '百年孤独', '骆驼祥子', '月亮与六便士', '傲慢与偏见', '鲁滨逊漂流记', '老人与海', '三体', '简爱(英文全本)', '边城', '飘', '许三观卖血记', '霍乱时期的爱情', '穆斯林的葬礼', '了不起的盖茨比']

这是经典类目下的前二十本书,看过其中11本,《红楼梦》囫囵吞枣地看了一半,家里的半白话《红楼梦》看起来比《百年孤独》还累+_+

相关文章

  • 各语言简单爬虫

    各语言简单爬虫 Python 简单爬虫 golang简单爬虫

  • 【爬虫笔记】一、一个简单的爬虫

    没想到做数据分析也要学习爬虫,幸好会点前端的基础知识,行吧,搞起。 1. 前提准备 目的:爬取豆瓣读书经典分类第一...

  • python-爬虫基础(慕课网)

    二.爬虫简介以及爬虫的技术价值 2-1:爬虫是什么? 2-2:爬虫技术的价值? 三.简单爬虫架构 3-1:简单爬虫...

  • Golang实现简单爬虫框架(3)——简单并发版

    在上篇文章Golang实现简单爬虫框架(2)——单任务版爬虫中我们实现了一个简单的单任务版爬虫,对于单任务版爬虫,...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦。带你简单快速高效学习Python爬虫。 一、快速体验一个简单爬虫 以抓取简书首...

  • 一个简单的网络爬虫

    什么是网络爬虫 简单的说,网络爬虫就是一种自动抓去互联网上资源的程序。 简单的网络爬虫 简单的网络爬虫原理就是使用...

  • Python网络爬虫

    Python开发简单爬虫(Python2.X版本,Eclipse工具) 一、爬虫介绍 爬虫调度端:启动、停止爬虫,...

  • python爬虫

    简单网页爬虫 上面的代码是一个简单的网页爬虫代码: urllib.request.urlopen('http://...

  • 【爬虫】一个简单爬虫

    环境:Mac OS X Yosemite 10.10.4Python2.7.6 哎,其实早就迫不及待的想动手了,今...

网友评论

    本文标题:【爬虫笔记】一、一个简单的爬虫

    本文链接:https://www.haomeiwen.com/subject/oacqpctx.html