我的爬虫日记

作者: 千罹 | 来源:发表于2016-09-30 10:37 被阅读9次

用到的模块

http
mongodb

步骤：
1. 先指定一个 URL，将该URL放入队列 urls
2. 取出队列中的第一个 URL
3. 搜索该URL中的所有 urls
4. 将搜索到的 urls 合并进 urls 队列，将URL放入mongodb数据库
5. 跳到第二步

已知问题：
1. 搜索到的URL没有进行格式的验证
2. 匹配URL的正则可能会不严谨
3. 没有把已经存在的URL排除掉
4. 存放 url 的队列，因为是在内存中，所以有溢出的可能，且非常可能
5. 有些链接是相对链接，需要转换成绝对链接

结果：
能够存到数据库 1100 多条数据，但是有很多是 404 或其他错误

我的爬虫日记
实现一个简单的爬虫基于 Node.js 用到的模块步骤：1. 先指定一个 URL，将该URL放入队列 urls...
Python 网络爬虫（一）
网络爬虫的基本介绍学习爬虫，我想主要从以下几个方面来切入 -爬虫的原理？ -爬虫的作用？ -爬虫的实现？ -爬虫...
认识爬虫
前言我的爬虫笔记经常看别人通过爬虫分析数据，很有意思，来了兴趣，就开始了爬虫之路。爬虫爬虫，即网络爬虫，大...
Python爬虫入门，5分钟了解思路，这是我见过最简单的基础教学
如果学会了python的基本语法，我认为入门爬虫是很容易的。 1：什么是爬虫爬虫(spider，又网络爬虫)，是...
爬虫入门基础
Day01 一、爬虫介绍什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么爬虫与反爬虫与反反爬虫...
11.20-11.26
本周目标爬虫爬虫爬虫爬虫
01-认识爬虫
一、爬虫介绍什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么爬虫与反爬虫与反反爬虫三角之争网...
walter 爬虫日记
获取首页的分类 https://www.walter-tools.com/zh-cn/_vti_bin/tibp/...
sandvik 爬虫日记
[TODO] 请求分析 https://www.sandvik.coromant.com/zh-cn/_vti_b...
7.爬虫概述
爬虫概述知识点：了解爬虫的概念了解爬虫的作用了解爬虫的分类掌握爬虫的流程 1. 爬虫的概念模拟...

网友评论

本文标题：我的爬虫日记

本文链接：https://www.haomeiwen.com/subject/ubblyttx.html

我的爬虫日记