轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

作者: 拆闲再补忙 | 来源:发表于2018-07-31 18:46 被阅读3次

大家如果有什么好的想法請多留言，多提意見。

語言&環境

語言：彈藥充足，Python沖鋒！

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

一個迷你框架

下面以比較典型的通用爬蟲為例，分析其工程要點，設計并實現一個迷你框架。架構圖如下：

[图片上传失败...(image-45da43-1533022955420)]

代碼結構：

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

config_load.py 配置文件加載

crawl_thread.py 爬取線程

mini_spider.py 主線程

spider.conf 配置文件

url_table.py url隊列、url表

urls.txt 種子url集合

webpage_parse.py 網頁分析

webpage_save.py 網頁存儲

看看配置文件里有什么內容：

spider.conf

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

url_table.py

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

3. 記錄哪些網頁已經下載過的小本本——URL表。

在互聯網上，一個網頁可能被多個網頁中的超鏈接所指向。這樣在遍歷互聯網這張圖的時候，這個網頁可能被多次訪問到。為了防止一個網頁被下載和解析多次，需要一個URL表記錄哪些網頁已經下載過。再遇到這個網頁的時候，我們就可以跳過它。

crawl_thread.py

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

5. 頁面分析模塊

從網頁中解析出URLs或者其他有用的數據。這個是上期重點介紹的，可以參考之前的代碼。

6. 頁面存儲模塊

保存頁面的模塊，目前將文件保存為文件，以后可以擴展出多種存儲方式，如mysql,mongodb,hbase等等。

webpage_save.py

轻松入门学网络爬虫编程实战（2）：爬虫架构篇

整個框架已經清晰了奧，不要小看它呢，不管是多么復雜的框架都是在這些基本要素上擴展出來的。

、

希望能夠幫助大家打下一定的基礎。請多留言，多探討。

記得關注我+轉發此文奧，愿能夠幫助更多正在學習Python的小伙伴！

相关文章

网友评论

本文标题：轻松入门学网络爬虫编程实战（2）：爬虫架构篇

本文链接：https://www.haomeiwen.com/subject/qvjhvftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

生活不易我用python

Python学习资料

热点阅读

大数据爬虫Python AI Sql

生活不易我用python

Python学习资料

关于我们|服务条款|联系我们|轻松入门学网络爬虫编程实战（2）：爬虫架构篇|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！