几个常见的Python爬虫面试题，让我顺利拿下20k的offer

作者: Python雁横 | 来源:发表于2018-05-07 10:41 被阅读131次

几个常见的Python爬虫面试题，让我顺利拿下20k的offer
python爬虫常见面试题（二）
2020年PHP程序员，如何能更进一步的提升PHP开发内功？
2019-02-20 问题（一）
我如何拿下腾讯「产品经理」暑期实习offer
最常见Python面试题及答案：说说Python变量、函数、类的
最常见Python面试题及答案：说说Python变量、函数、类的
2019-02-21问题（二）
面经分享 | 2年经验，1个月拿下阿里P6 Offer
面试

是否了解线程的同步和异步？

线程同步：多个线程同时访问同一资源，等待资源访问结束，浪费时间，效率低

线程异步：在访问资源时在空闲等待时同时访问其他资源，实现多线程机制

是否了解网络的同步和异步？

同步：提交请求->等待服务器处理->处理完毕返回这个期间客户端浏览器不能干任何事

异步: 请求通过事件触发->服务器处理（这是浏览器仍然可以作其他事情）->处理完毕

链表和顺序表储存时各自有什么优点？

1.顺序表存储

原理：顺序表存储是将数据元素放到一块连续的内存存储空间，存取效率高，速度快。但是不可以动态增加长度

　　　　优点：存取速度高效，通过下标来直接存储

　　　　缺点：1.插入和删除比较慢，2.不可以增长长度

　　　　比如：插入或者删除一个元素时，整个表需要遍历移动元素来重新排一次顺序

2.链表存储

原理：链表存储是在程序运行过程中动态的分配空间，只要存储器还有空间，就不会发生存储溢出问题

　　　　优点：插入和删除速度快，保留原有的物理顺序，比如：插入或者删除一个元素时，需要改变指针指向即可

　　　　缺点：查找速度慢，因为查找时，需要循环链表访问

使用redis搭建分布式系统时如何处理网络延迟和网络异常？

由于网络异常的存在，分布式系统中请求结果存在“三态”的概念，即三种状态：“成功”、“失败”、“超时（未知）”

当出现“超时”时可以通过发起读取数据的操作以验证 RPC 是否成功（例如银行系统的做法）

另一种简单的做法是，设计分布式协议时将执行步骤设计为可重试的，即具有所谓的“幂等性”

数据仓库是什么？

数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。

数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据，最后转化成企业需要的战略决策信息。

特点：

面向主题：根据业务的不同而进行的内容划分；

集成特性：因为不同的业务源数据具有不同的数据特点，当业务源数据进入到数据仓库时，需要采用统一的编码格式进行数据加载，从而保证数据仓库中数据的唯一性；

非易失性：数据仓库通过保存数据不同历史的各种状态，并不对数据进行任何更新操作。

历史特性：数据保留时间戳字段，记录每个数据在不同时间内的各种状态。

假设有一个爬虫，从网络上获取数据的频率快，本地写入数据的频率慢，使用什么数据结构好？

　　　　在线求解(o°ω°o)

你是否了解谷歌的无头浏览器？

无头浏览器即headless browser，是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有，只是看不到界面而已。

Python中selenium模块中的PhantomJS即为无界面浏览器（无头浏览器）:是基于QtWebkit的无头浏览器，

你是否了解MySQL数据库的几种引擎？

　　　　InnoDB：

　　　　InnoDB是一个健壮的事务型存储引擎，这种存储引擎已经被很多互联网公司使用，为用户操作非常大的数据存储提供了一个强大的解决方案。

在以下场合下，使用InnoDB是最理想的选择：

1.更新密集的表。InnoDB存储引擎特别适合处理多重并发的更新请求。

2.事务。InnoDB存储引擎是支持事务的标准MySQL存储引擎。

3.自动灾难恢复。与其它存储引擎不同，InnoDB表能够自动从灾难中恢复。

4.外键约束。MySQL支持外键的存储引擎只有InnoDB。

5.支持自动增加列AUTO_INCREMENT属性。

一般来说，如果需要事务支持，并且有较高的并发读取频率，InnoDB是不错的选择。

MEMORY：

推荐给大家一个学习交流的地方：719139688,使用MySQL Memory存储引擎的出发点是速度。为得到最快的响应时间，采用的逻辑存储介质是系统内存。

虽然在内存中存储表数据确实会提供很高的性能，但当mysqld守护进程崩溃时，所有的Memory数据都会丢失。

获得速度的同时也带来了一些缺陷。

一般在以下几种情况下使用Memory存储引擎：

1.目标数据较小，而且被非常频繁地访问。在内存中存放数据，所以会造成内存的使用，可以通过参数max_heap_table_size控制Memory表的大小，设置此参数，就可以限制Memory表的最大大小。

2.如果数据是临时的，而且要求必须立即可用，那么就可以存放在内存表中。

3.存储在Memory表中的数据如果突然丢失，不会对应用服务产生实质的负面影响。

redis数据库有哪几种数据结构？

5种数据结构

string

使用string时，redis**大多数情况下**并不会理解或者解析其含义，无论使用json、xml还是纯文本在redis看来都是一样的，只是一个字符串，只能进行strlen、append等对字符串通用的操作，无法针对其内容进一步操作。其基本操作命令有set、get、strlen、getrange、append。

几个常见的Python爬虫面试题，让我顺利拿下20k的offer
是否了解线程的同步和异步？线程同步：多个线程同时访问同一资源，等待资源访问结束，浪费时间，效率低线程异步：在访...
python爬虫常见面试题（二）
前言此为《python爬虫常见面试题（一）》下篇。之所以在这里写下python爬虫常见面试题及解答，一是用作笔记...
2020年PHP程序员，如何能更进一步的提升PHP开发内功？
疫情期间我是如何拿到20k的offer，2020年php面试题汇总：https://www.bilibili.co...
2019-02-20 问题（一）
题目来源：python常见面试题——爬虫&数据库部分题目: 1. scrapy 和 scrapy-redis 有...
我如何拿下腾讯「产品经理」暑期实习offer
笔者于今年4月初顺利通过腾讯暑期实习的提前批招聘，拿下CSIG的产品策划offer。这篇文章记录我拿下该offer...
最常见Python面试题及答案：说说Python变量、函数、类的
最常见Python面试题及答案总结教程又来啦：本期的Python常见面试题跟大家说的是：Python变量、函数、类...
最常见Python面试题及答案：说说Python变量、函数、类的
最常见Python面试题及答案总结教程又来啦：本期的Python常见面试题跟大家说的是：Python变量、函数、类...
2019-02-21问题（二）
题目来源：python常见面试题——爬虫&数据库部分题目: 1. 什么是关联查询，有哪些？ 2. 数据库的优化？...
面经分享 | 2年经验，1个月拿下阿里P6 Offer
这些面试题来自于我的老乡读者分享，很厉害，2年经验，面试几个月拿下了N个Offer，包括滴滴、有赞和阿里这些一二线...
面试
一年iOS工作经验，如何拿下百度、美团、快手等Offer（附面试题）