美文网首页
爬虫-抓取手机号

爬虫-抓取手机号

作者: 旻璿 | 来源:发表于2019-01-31 11:31 被阅读0次

某网站论坛上有大量用户留下手机号,写个简单的爬虫就可以获取。
⚠️友情提醒:个人信息安全需保密,否则很容易被不法分子窃取。

crawler.py

import requests
import urllib2
import urllib
import hashlib
import json
import re
import sys
import getopt
import time

def getInfoByInput(input):
    regex_email = re.compile(r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}\b", re.IGNORECASE)
    regex_phone = re.compile(r"1[3|4|5|7|8]\d{9}\b", re.IGNORECASE)
    result = {}
    result['email'] = re.findall(regex_email, input)
    result['phone'] = re.findall(regex_phone, input)
    return result

def write_to_file(out_file_path,content):
        file = open(out_file_path,'a')
        file.writelines(content)

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36",
"authorization":"d8E9N3o5dlkmz1AOEt2jSTqQRMlRp8nTrm3tBpXeDQenRIQXgzze4yI4f9lDUwSF"}


for x in xrange(1,1000):
    url = 'https://lkd.yooyuu.com.cn/api/posts?filter=%7B%22skip%22:'+str(x)+',%22type%22:1%7D'
    req = urllib2.Request(url, headers=headers)
    response = urllib2.urlopen(req)
    content = response.read()
    print(getInfoByInput(content))

filter.py

import io
def filter(infile,outfile):
    infopen = io.open(infile,'r',encoding='utf-8')
    outopen = io.open(outfile,'w',encoding='utf-8')
    lines = infopen.readlines()
    list_1 = []
    for line in lines:
        if line not in list_1:
            list_1.append(line)
            outopen.write(line)
    infopen.close()
    outopen.close()
filter("crawl.txt","result.txt")

相关文章

  • 爬虫-抓取手机号

    某网站论坛上有大量用户留下手机号,写个简单的爬虫就可以获取。⚠️友情提醒:个人信息安全需保密,否则很容易被不法分子...

  • spider(爬虫)

    spider(爬虫) 推荐抓取工具:火车采集器\火车头采集器 爬虫抓取网页 jsdom.js 爬虫抓取数据

  • Python 爬虫协议及建议

    爬虫协议 什么是爬虫协议:爬虫协议,也被叫做robots协议,是为了告诉网络蜘蛛哪些页面可以抓取,哪些页面不能抓取...

  • 无标题文章

    一、"大数据时代",数据获取的方式: 二、什么是爬虫? 爬虫:就是抓取网页数据的程序。 三、爬虫怎么抓取网页数据:...

  • Python爬虫入门--了解爬虫---什么是爬虫?

    Python爬虫入门--了解爬虫 什么是爬虫? 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的...

  • 爬虫基础

    爬虫架构 一、爬虫调度端(启动、停止、监视爬虫运行情况) 注意: 二、URL管理器(管理待抓取URL集合和已抓取U...

  • R爬虫实践—抓取国自然基金信息【下篇】

    R爬虫实践—抓取国自然基金信息【上篇】和R爬虫实践—抓取国自然基金信息【中篇】都是对国自然数据的局部抓取,突然发现...

  • 人人都会数据分析大纲

    -实现数据分析需要有哪些东西? -有数据 --数据从何而来? ---自有数据 ---爬虫抓取 ----爬虫抓取的步...

  • 基于Python的豆瓣影评分析——数据预处理

    一、数据抓取 利用python软件,抓取豆瓣网上关于《向往的生活》的影视短评,进行网页爬虫,爬虫代码如下: ...

  • 全程干货 | 解密爬虫抓取、更新网页的策略方法

    抓取策略 在爬虫系统中,待抓取URL是很关键的部分,需要爬虫抓取的网页URL在其中排列,形成一个队列结构,调度程序...

网友评论

      本文标题:爬虫-抓取手机号

      本文链接:https://www.haomeiwen.com/subject/qwjksqtx.html