美文网首页PHP经验分享淀粉月刊
你所不知道的PHP——爬虫系列(一)

你所不知道的PHP——爬虫系列(一)

作者: 淀粉月刊 | 来源:发表于2018-05-29 22:15 被阅读17次

    arukas.io是一家日本樱花的docker服务提供商,其服务可免费试用。但一个账号只能创建限定数量的容器。arukas曾由于内部开发停止服务过一段时间,最近已arukas正式上线并重新开放注册。为了创建更多的容器,本文作者使用了php的curl进行一系列的开发来爬取虚拟信用卡信息,以便于批量注册账号。

    emm,php做爬虫好像也就几种方式,今天先介绍一种基础方式——curl

    curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中,并且有DOSWin32、Win64下的移植版本。

    中文名

    curl

    外文名

    curl(CommandLine Uniform Resource Locator)

    类别

    用URL语法

    作用

    文件传输

    适用范围

    计算机

    以上摘自百度百科

    目标:https://names.igopaygo.com/credit-card爬取信用卡信息并保存卡号,CVV,有效期

    首先,对于任何一个curl句柄,我们都应该用curl_init()来初始化,just like this

    循环的话,是因为我想爬取100000×5张 

    我们先抓个包

    我们可以看到乱七八糟的头信息(基本无用)然后我们找到post包(请不要吐槽我的xp…)

    当看到csrf_token的时候小小的惊讶了一下,不过多试几次发现实际上是同一个口令,没有什么实际作用

    可以找到how_many是5,card_format和bin_check等等乱七八糟的参数都是0。

    用curl_setopt来设置curl的参数

    其中CURLOPT_URL是设置访问的URL,CURLOPT_RETURNTRANSFER 为TRUE 将curl_exec()获取的信息以字符串返回,而不是直接输出。CURLOPT_SSL_VERIFYPEER FALSE 禁止 cURL 验证对等证书(peer’s certificate)。要验证的交换证书可以在 CURLOPT_CAINFO 选项中设置,或在 CURLOPT_CAPATH中设置证书目录。(实际上只是https的常规操作)

    我们来加入参数

    CURLOPT_POST设置为 TRUE 时会发送 POST 请求,类型为:application/x-www-form-urlencoded,是 HTML 表单提交时最常见的一种。

    下面的参数代表用data作为post数据

    curl_exec用于执行curl请求

    然后我们来写入文件,然而返回的是一个html文档,所以我加了一个正则表达式匹配.然后写入文件

    so,well done


    本文首发于淀粉月刊:https://dfkan.com

    原作者:HANZHONGSHU2004

    发布时间:2018年5月27日

    点此查看原文

    相关文章

      网友评论

        本文标题:你所不知道的PHP——爬虫系列(一)

        本文链接:https://www.haomeiwen.com/subject/gerzjftx.html