2_2抓取手机号_笔记

作者: 蜂DAO | 来源:发表于2016-12-03 21:32 被阅读0次

2_2抓取手机号_笔记
爬虫-抓取手机号
Python爬虫学习15-Requests模拟登陆知乎
【案例-可视化】四川电力交易中心
《零基础上手Python爬虫系列》 - 13 实战：原生爬虫
第一次月考监考
python爬虫day-14（抓取猫眼电影排行）
第二周/第二节练习项目: 爬取手机号
Python实战：抓取手机号码
2_2冒泡排序

最终效果

Paste_Image.png

我的代码

from bs4 import BeautifulSoup
import requests
import time
import pymongo

client = pymongo.MongoClient('localhost',27017)
homework = client['homework']
work2_2 = homework['work2_2']
work2_2con = homework['work2_2con']

#生成列表页链接

url = 'http://bj.58.com/shoujihao/pn1/'

#infolist > div > ul > div > ul > li:nth-child(2) > a.t
#爬取手机号链接


#爬取页面上的号码
def get_links(page):
    wb_data = requests.get(page)
    Soup = BeautifulSoup(wb_data.text,'lxml')
    links = Soup.select('.boxlist > ul > li > a.t ')
    numbers = Soup.select('.boxlist > ul > li > a.t > strong ')
    for link,number in zip(links,numbers):
        link = link.get('href')
        number = number.get_text()
        data = {
            "link"   : link,
            "number" : number
        }
        print(data,'\n---------------------\n')
        work2_2.insert_one(data)

# 爬取指数页面范围上的号码链接
def get_pageUrl(num):
    urls = ['http://bj.58.com/shoujihao/pn{}/'.format(i) for i in range(1,num)]
    for url in urls:
        print(url)
        get_links(url)
        time.sleep(0.5)

#抓取50个页面上的号码和链接
#get_pageUrl(50)

#挑选出链接中含有'bj.58.com'的正常内

for item in work2_2.find({'link':{'$regex':'bj.58.com'}}):
    print(item['link'],item['number'])
    wb_data = requests.get(item['link'])
    Soup = BeautifulSoup(wb_data.text, 'lxml')
    title = Soup.select('div.col.detailPrimary.mb15 > div.col_sub.mainTitle > h1')[0].get_text().strip()
    price = Soup.select('div.col.detailPrimary.mb15 > div.col_sub.sumary > ul > li > div.su_con > span')[0].get_text().strip()
    data = {
        "title" : title,
        "price" : price,
        "number" : item['number'],
        "link"   : item['link']
    }
    work2_2con.insert_one(data)
    print(data)
    time.sleep(0.5)

学到的知识

pyMongo模糊查找：{'xxx':{'$regex':'xxx'}}

例：
for item in work2_2.find({'link':{'$regex':'bj.58.com'}}):
    print(item['link'])

利用函数def来封装代码

网友评论

本文标题：2_2抓取手机号_笔记

本文链接：https://www.haomeiwen.com/subject/bxwcmttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2_2抓取手机号_笔记

最终效果

我的代码

学到的知识

相关文章

2_2抓取手机号_笔记

爬虫-抓取手机号

Python爬虫学习15-Requests模拟登陆知乎

【案例-可视化】四川电力交易中心

《零基础上手Python爬虫系列》 - 13 实战：原生爬虫

第一次月考监考

python爬虫day-14（抓取猫眼电影排行）

第二周/第二节练习项目: 爬取手机号

Python实战：抓取手机号码

2_2冒泡排序

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读