今天来说一个实用的工具:网站克隆。这样的功能对于技术人员来说,不算什么大的功能,大家可以用N种办法来实现,各有各的奇技淫巧。今天主要介绍的是A哥的克隆工具curlMulti。借用这个功能,非技术人员也可以快速的克隆整个站点。
工具链接:
工具特点:
- 抓取网站的各项资源html\Css\Js\RAR压缩文件等
- 并行抓取,抓取速度快的惊人
傻瓜式操作流程
Mac演示,mac自带了php,所以整体操作非常简单
1:下载工具 - v2.3.3
下载v2.3.3版本2:准备工作
打开文件修改两行代码:
Paste_Image.png
正常情况,改网址就ok。如果需要克隆的站很大很大,需要在第一行加代码:
ini_set('memory_limit', '2048M');
3:执行克隆
打开终端
打开终端1打开终端2
在终端执行如下操作:
- 右键site_clone1.php文件,”显示简介“,如图选中文本, 复制(Ctrl+c)
-
在终端输入: "cd ",然后Ctrl+v粘贴刚才复制的内容,回车 (输入字符不带双引号)
我的终端是这样的,可以做为参考:
- 在终端输入:
php site_clone1.php
到这里,克隆已经开始了。谨记,终端窗口不要关闭。(如果想让关闭窗口后继续克隆,请联系我)
如果要克隆的网站比较小,如小说站,半小时就可以搞定(每秒克隆100+页面毫无压力)
网站存放目录
网站目录双击index.html就可以打开已经克隆下来的网站。
附:如果想要更快的克隆,如下操作:
修改并发数可以自己感受一下改成500的效果,估计局域网中正在打游戏的同学就要开骂了,哈哈!好吧,我估计不会有人想测试500并发的效果,因为局域网真会卡死。但是呢,如果真要测试500并发,那需要在终端多执行一行命令:
ulimit -n 1000
网友评论
251904925
但wget克隆整站有几个缺点:
1:单进程处理,会慢一些
2:wget由系统提供,能处理常规需求。但针对特定需求,需要修改执行逻辑时比较费劲。
附:现在的网站都已经相当复杂,js之间的相互引用,资源域名,相对、绝对地址格式等都与之前的网站有所不同,简单的wget很难适应现在的需求。
http://www.tenmax.com/teleport/ultra/home.htm
然后就爬了一个空文件夹