美文网首页PHP经验分享淀粉月刊
你所不知道的PHP——爬虫系列(一)

你所不知道的PHP——爬虫系列(一)

作者: 淀粉月刊 | 来源:发表于2018-05-29 22:15 被阅读17次

arukas.io是一家日本樱花的docker服务提供商,其服务可免费试用。但一个账号只能创建限定数量的容器。arukas曾由于内部开发停止服务过一段时间,最近已arukas正式上线并重新开放注册。为了创建更多的容器,本文作者使用了php的curl进行一系列的开发来爬取虚拟信用卡信息,以便于批量注册账号。

emm,php做爬虫好像也就几种方式,今天先介绍一种基础方式——curl

curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中,并且有DOSWin32、Win64下的移植版本。

中文名

curl

外文名

curl(CommandLine Uniform Resource Locator)

类别

用URL语法

作用

文件传输

适用范围

计算机

以上摘自百度百科

目标:https://names.igopaygo.com/credit-card爬取信用卡信息并保存卡号,CVV,有效期

首先,对于任何一个curl句柄,我们都应该用curl_init()来初始化,just like this

循环的话,是因为我想爬取100000×5张 

我们先抓个包

我们可以看到乱七八糟的头信息(基本无用)然后我们找到post包(请不要吐槽我的xp…)

当看到csrf_token的时候小小的惊讶了一下,不过多试几次发现实际上是同一个口令,没有什么实际作用

可以找到how_many是5,card_format和bin_check等等乱七八糟的参数都是0。

用curl_setopt来设置curl的参数

其中CURLOPT_URL是设置访问的URL,CURLOPT_RETURNTRANSFER 为TRUE 将curl_exec()获取的信息以字符串返回,而不是直接输出。CURLOPT_SSL_VERIFYPEER FALSE 禁止 cURL 验证对等证书(peer’s certificate)。要验证的交换证书可以在 CURLOPT_CAINFO 选项中设置,或在 CURLOPT_CAPATH中设置证书目录。(实际上只是https的常规操作)

我们来加入参数

CURLOPT_POST设置为 TRUE 时会发送 POST 请求,类型为:application/x-www-form-urlencoded,是 HTML 表单提交时最常见的一种。

下面的参数代表用data作为post数据

curl_exec用于执行curl请求

然后我们来写入文件,然而返回的是一个html文档,所以我加了一个正则表达式匹配.然后写入文件

so,well done


本文首发于淀粉月刊:https://dfkan.com

原作者:HANZHONGSHU2004

发布时间:2018年5月27日

点此查看原文

相关文章

  • 你所不知道的PHP——爬虫系列(一)

    arukas.io是一家日本樱花的docker服务提供商,其服务可免费试用。但一个账号只能创建限定数量的容器。ar...

  • Java 网络爬虫,就是这么的简单

    这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫...

  • 爬虫框架整理汇总

    整理了Node.js、PHP、Go、JAVA、Ruby、Python等语言的爬虫框架。不知道读者们都用过什么爬虫框...

  • 爬虫入门系列(六):正则表达式完全指南(下)

    爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • Python爬虫学习系列教程

    转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本:2.7 一、爬虫入门 ...

  • phpspider简单快速上手的php爬虫框架

    前言 前段时间接到一个开发采集网站数据的项目,从事php开发的我立刻想到使用php做爬虫。虽然python爬虫方便...

  • 网络爬虫1--http协议和urllib

    爬虫初步 爬虫概念 都有哪些语言可以实现爬虫 ​ (1)php, 号称世界上最好的语言,可以实现爬虫,但做的不好...

  • Goutte基本用法

    最近工作上用到PHP爬虫框架Goutte(号称是PHP上最好用的爬虫框架)。这里记下自己用到过的使用技巧,免得下次...

  • 浅谈爬虫

    1.什么是爬虫? 爬虫:就是抓取网页中的数据 2.为什么选择python做爬虫? 可以做爬虫的语言有很多,如PHP...

网友评论

    本文标题:你所不知道的PHP——爬虫系列(一)

    本文链接:https://www.haomeiwen.com/subject/gerzjftx.html