美文网首页
携程网站爬虫小结 2018-07-09

携程网站爬虫小结 2018-07-09

作者: 魅川 | 来源:发表于2018-07-09 23:25 被阅读0次

[TOC]

爬虫是什么

简单来说,从网站上按照预先编号的程序或者脚本自动获取信息的动作就叫做网络爬虫。相应的脚本就叫做爬虫脚本。

爬虫做什么

访问一个网页中,数据的流向是这样的
: 数据库 -> 服务器端 -> 客户终端
其中服务器端和客户终端通过HTTP协议进行交互。
而爬虫就是通过模拟客户终端发送HTTP协议中的请求,从而接受到服务器端的数据。

爬虫怎么做

目前较为流行的Python爬虫框架是scrapy,但是这里首先使用Requests库,不使用框架。
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库,即可以使用HTTP协议与服务端进行通信。

便于理解我们可以将爬虫的步骤抽象成:
“下载页面” -> “解析页面”(提取数据) -> “下储存数据”

Requests(“下载页面”)

引入Requests

import requests                                 #导入requests包
r=requests.get(url=‘https://www.baidu.com/‘)    
print(r.status_code)                            #查看请求返回的状态
#200                                            #结果

HTTP基本请求

最开始只用get请求,其他一概不管,具体推荐小戴的《图解HTTP》。
基本格式为:

r=requests.get(url)

,r是requests的相应对象。
带参数的url的get请求:(把参数封装到字典里面,然后通过requests的参数params拼接到url中)

content={'name':'myname01','pwd':'mypwd01'}
r=requests.get('http://www.baidu.com',params=content)
print (r.url)  
#http://www.baidu.com?name=myname01&pwd=mypwd01

注:这个url并不是有效的url只是为了显示基本的get请求。

HTTP响应(可先跳过)

当生成一个requests对象r时,可以对r的属性进行访问。
1.响应状态status_code
print(r.status_code)#200
2.响应内容text
print(r.text)#具体内容
其中r.text的类型为str,可以通过print (type(r.text))查看
3.响应内容json
print(r.text)#具体内容
通过json解码器转为dict类型
4.响应内容编码格式
print(r.encoding)#UTF-8
简单来说常见的有UTF-8、Unicode和gbk,decode成ASCII再encoding相应的编码。
r_ascii=r.decode(encoding='UTF-8')这里就是把UTF-8'编码的r转换成ascii,再根据需要用下一步编码。
当r.text出现乱码的时候就是解码方式出现错误,使用诸如r.encoding='ISO-8859-1'进行编码方式转换。
5.响应头r.headers
6.cookies r.cookies
以上内容大多为HTTP协议中的基础知识,定义和用法可在之前提到的那本书中找到。

Beautiful Soup(“解析页面”)

按照之前的requests请求ip.chinaz,然后解析出自己的ip地址。

import requests
from bs4 import BeautifulSoup
r = requests.get("http://ip.chinaz.com")
print(r.text) #输出的是<html>源码
r = requests.get("http://ip.chinaz.com")
soup = BeautifulSoup(r.text, "lxml")
print(soup.prettify())#输出的是好看的<html>源码
#这是soup已经是BeautifulSoup对象的一个实例了

Beautiful Soup本身自带遍历文档搜索,也可以使用CSS选择器和Xpath选择器,支持正则表达式。配合起来使用可以提取出页面中几乎所有的元素。
这里用正则提取ip地址
idm = re.findall("\d+", soup.text)

MongoDB(“保存数据”)

import pymongo
from pymongo import MongoClient
client = MongoClient('localhost',27017)
#client = MongoClient('mongodb://localhost:27017')

db = client.test
users = db.users #或者db = client['users']

插入文档

文档就是一行,集合就是一个表

一个insert_one()

user1 = {"name":"li8","age":8}
rs = users.insert_one(user1) print('one insert:{0}'.format(rs.inserted_id))

image

多个 insert_many()

user2 = {"name":"li9","age":9}
user3 = {"name":"li10","age":10}
user4 = {"name":"li11","age":11}
user5 = {"name":"li12","age":12}
new_result = users.insert_many([user2, user3, user4, user5]) print('Multiple users: {0}'.format(new_result.inserted_ids))

image

检索文档

一个find_one()

usertmp = users.find_one({"age":33}) print(usertmp)

image

多个find()

<pre style="margin: 0px; white-space: pre-wrap; word-wrap: break-word; padding: 0px; list-style-type: none; list-style-image: none; font-family: "Courier New" !important; font-size: 12px !important;">rs = users.find({'age': 33}) for tmp in rs: print(tmp)</pre>

image

高级查询

rs = users.find({'age':{"$lt":30}}).sort("name") for tmp in rs: print(tmp)

image

统计数量

print(users.count())

加索引

from pymongo import ASCENDING, DESCENDING print(users.create_index([("age", DESCENDING), ("name", ASCENDING)]))

数据导出

mongoexport -d test -c users --csv -f name,age -o e:\python\users.csv</pre>

相关文章

  • 携程网站爬虫小结 2018-07-09

    [TOC] 爬虫是什么 简单来说,从网站上按照预先编号的程序或者脚本自动获取信息的动作就叫做网络爬虫。相应的脚本就...

  • 爬虫之携程网旅游信息爬取

    最近手又有点闲,闲着无聊就爬取了携程的信息,这个爬虫是我随手写的,各位可以看看。

  • Python爬虫(二)--Coursera抓站小结

    继豆瓣抓站后再对Coursera下手 系统:Mac OS X 10.10.1编辑器: Sublime Text2P...

  • 爬虫小结

    大数库时代:数据如何产生: 1.大的公司大的企业:通过用户产生的用户2.大的数据平台:通过收集或者和其他企业或者公...

  • 爬虫小结

    爬虫是一段自动获取网络数据的程序,用于做搜索引擎等,想做爬虫得实现如下三部 (1).找到目标URL (2).根据U...

  • 爬虫小结

    爬虫:网络爬虫机器人,从互联网自动抓取数据的程序 理论上:通过浏览器看到的数据,我们一般都是可以获取到的 爬虫的作...

  • 爬虫眼中的“周庄”长什么样?

      本次爬虫项目将会爬取携程网中关于“周庄古镇”的点评,然后对这些评论进行中文分词及预处理,形成一张关于“周庄古镇...

  • A站爬虫

    -- coding: utf-8 -- from bs4 import BeautifulSoupimport r...

  • iOS审核被拒整理

    2018-07-09

  • 2018-07-10

    2018-07-09 孟傑萨霸 2018-07-09 00:21 · 字数 205 · 阅读 25 · 日记本 2...

网友评论

      本文标题:携程网站爬虫小结 2018-07-09

      本文链接:https://www.haomeiwen.com/subject/hfptpftx.html