IOS开发分享----爬虫技术

作者: 一支烟一只猿 | 来源:发表于2016-12-30 15:27 被阅读209次

    这段时间趁闲鱼时间,看到一段关于JAVA爬虫某知名网站的代码;试了试ios利用webview 及 AFNETWORKING网络请求 ;仿java思路 完成了一个成功的dome;

    闲话不多说:

        大致流程:

             1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;

             2、利用webview获取cookies (https请求需要自己配置info.list)

             3、参考其请求模式,模拟请求 获取HTML响应体;

             4、解析请求体、展示给用户;     //获取有效信息 

             5、 保存数据提交自己的服务器;


    1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;

    注:以百度为例

    2、利用webview获取cookies

    注:web设为(0,0,0,0)给自己的UI留位置

    3、参考其请求模式,模拟请求 获取HTML响应体

    这个是关键,需要模拟请求

    注:这个是HTTPS get请求 

    遇到post的其实可以用ios原生post请求 获取 根据浏览器获取的请求方式进行:

    NSURLSession*session = [NSURLSessionsharedSession];

    // 设置请求路径

    NSURL*URL=[NSURLURLWithString:@"https://www.baidu.com"];//不需要传递参数

    // 创建请求对象

    NSMutableURLRequest*request=[NSMutableURLRequestrequestWithURL:URL];//默认为get请求

    request.timeoutInterval=5.0;//设置请求超时为5秒

    request.HTTPMethod=@"POST";//设置请求方法

    // 设置请求体

    NSString*param=[NSStringstringWithFormat:@"reportformat=21&tradeCode=%@",uesr_name];

    //把拼接后的字符串转换为data,设置请求体

    [requestsetValue:@"max-age=0"forHTTPHeaderField:@"Cache-Control"];

    [requestsetValue:cookies forHTTPHeaderField:@"Cookie"];

    [requestsetValue:@"https://www.baidu.com"forHTTPHeaderField:@"Origin"];

    request.HTTPBody=[paramdataUsingEncoding:NSUTF8StringEncoding];

    // 发送请求

    NSURLSessionDataTask*dataTask = [sessiondataTaskWithRequest:request completionHandler:^(NSData*_Nullabledata,NSURLResponse*_Nullableresponse,NSError*_Nullableerror) {

    // 解析数据data流过来的html编码转换成NSString

    NSStringEncodingenc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);//可以在流量器上获取解码的类型

    NSString* str =[[NSStringalloc]initWithData:dataencoding:enc];

    // 反馈给服务器

    NSLog(@"=====>>>>>%@",str);

    //[data writeToFile:@"/Users/lufeng1/Desktop/c.html" atomically:YES];//可以测试看看获取的数据正确与否

    }];

    // 执行任务

    [dataTaskresume];

    4、解析请求体、展示给用户

    解析这里的responseObject即可 给的例子是用GB翻译的 可以用保存的方式 存储为HTML查看 

    给个福利吧,查看HTML有些时候获取不全body 可以试试这句话-----

    //NSString * str= [webView stringByEvaluatingJavaScriptFromString:@"document.body.innerHTML"];

    5、 保存数据提交自己的服务器

    自己post回去有用信息即可


    文章写的比较粗糙吧,过程之中可能会遇到HTTPS请求报错 那就需要配置相对应的HTTPS.cer文件放入工程:

    ~openssl s_client -connect www.baidu.com:443 /dev/null | openssl x509 -outform DER > https.cer

    可把www.baidu.com替换直接获取证书。

    相关文章

      网友评论

      本文标题:IOS开发分享----爬虫技术

      本文链接:https://www.haomeiwen.com/subject/ciumvttx.html