美文网首页
爬虫面试概念问题

爬虫面试概念问题

作者: comboo | 来源:发表于2016-08-25 23:01 被阅读788次

最近刚刚离职,想面试一下爬虫工作试试,怎么说呢,为了这件事纠结了好久,具体就不多说了,下面就是为了面试的一些准备。。

我感觉,scrapy能够满足大量的需求,除非反爬虫特别变态,在考虑自己写框架来处理,所以研究的方向主要在如何让scrapy更加高效的处理爬虫

概念

异步:
阻塞
多线程

作者:严肃链接:https://www.zhihu.com/question/19732473/answer/20851256来源:知乎著作权归作者所有,转载请联系作者获得授权。“阻塞”与"非阻塞"与"同步"与“异步"不能简单的从字面理解,提供一个从分布式系统角度的回答。1.同步与异步同步和异步关注的是消息通信机制 (synchronous communication/ asynchronous communication)所谓同步,就是在发出一个调用时,在没有得到结果之前,该调用就不返回。但是一旦调用返回,就得到返回值了。换句话说,就是由调用者主动等待这个调用的结果。而异步则是相反,调用在发出之后****,这个调用就直接返回了,所以没有返回结果。换句话说,当一个异步过程调用发出后,调用者不会立刻得到结果。而是在调用发出后,被调用者通过状态、通知来通知调用者,或通过回调函数处理这个调用。典型的异步编程模型比如Node.js举个通俗的例子:你打电话问书店老板有没有《分布式系统》这本书,如果是同步通信机制,书店老板会说,你稍等,”我查一下",然后开始查啊查,等查好了(可能是5秒,也可能是一天)告诉你结果(返回结果)。而异步通信机制,书店老板直接告诉你我查一下啊,查好了打电话给你,然后直接挂电话了(不返回结果)。然后查好了,他会主动打电话给你。在这里老板通过“回电”这种方式来回调。2. 阻塞与非阻塞阻塞和非阻塞关注的是程序在等待调用结果(****消息,****返回值)时的状态.阻塞调用是指调用结果返回之前,当前线程会被挂起。调用线程只有在得到结果之后才会返回。非阻塞调用指在不能立刻得到结果之前,该调用不会阻塞当前线程。还是上面的例子,你打电话问书店老板有没有《分布式系统》这本书,你如果是阻塞式调用,你会一直把自己“挂起”,直到得到这本书有没有的结果,如果是非阻塞式调用,你不管老板有没有告诉你,你自己先一边去玩了, 当然你也要偶尔过几分钟check一下老板有没有返回结果。在这里阻塞与非阻塞与是否同步异步无关。跟老板通过什么方式回答你结果无关。
[知乎解释](https://www.zhihu.com/question/19732473

感觉并没有什么用,说的都是一个东西
异步和多线程有什么区别?其实,异步是目的,而多线程是实现这个目的的方法。

所以 ,效率不行 ,加线程就好了,至于具体怎么加。
两个方面吧
1,爬去的时候,一次爬几个url
2,存入数据库的时候,不管是否存入,直接进行爬取(想想,其实更好的是爬取和存入相分离,这不就是scrapy吗)

项目

ip问题(这个问题应该可以解决,github上有)
分布式(参见博客)
js采集(仅仅实现selenimu或者无头)

项目:
等等再说吧。

好了,明天要开始工作了,网站的信息也需要填充了

相关文章

  • 爬虫面试概念问题

    最近刚刚离职,想面试一下爬虫工作试试,怎么说呢,为了这件事纠结了好久,具体就不多说了,下面就是为了面试的一些准备。...

  • Python爬虫小白面试-经常被问到但很棘手的问题

    P爬虫面试常见问题 一.项目问题: 1. 你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的 ...

  • Python面试常见问题

    爬虫面试常见问题 一.项目问题: 你写爬虫的时候都遇到过什么反爬虫措施,你是怎样解决的 用的什么框架。为什么选择这...

  • 爬虫面试(转自空山大佬)

    爬虫面试常见问题 一.项目问题: 你写爬虫的时候都遇到过什么反爬虫措施,你是怎样解决的 用的什么框架。为什么选择这...

  • Python爬虫面试常见问题

    爬虫面试常见问题 一、项目问题: 1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎样解决的 2.用的什么框架。为什...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • python爬虫: 爬一个英语学习网站

    爬虫的基本概念 关于爬虫的基本概念, 推荐博客https://xlzd.me/ 里面关于爬虫的介绍非常通俗易懂.简...

  • Python爬虫番外篇之Cookie和Session

    关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两...

  • python爬虫面试 常见问题

    是否了解线程的同步和异步? 线程同步:多个线程同时访问同一资源,等待资源访问结束,浪费时间,效率低 线程异步:在访...

  • python爬虫 面试常见问题

    frida 动态插桩工具 插入一些代码到原生的app的内存空间,原生平台可以是 mac linux win and...

网友评论

      本文标题:爬虫面试概念问题

      本文链接:https://www.haomeiwen.com/subject/lnbasttx.html