爬取网站段子

作者: 停下浮躁的心 | 来源:发表于2017-04-22 19:01 被阅读13次

爬取网站段子
某网站段子爬取
某网站段子爬取
Python实战爬虫：爬取段子
Selenium小例子
Python爬虫进阶
Scrapy学习——深度优先和广度优先
爬取网站
python爬虫学习手册-服务器渲染（基础库urllib）熟悉
爬虫从零开始--爬取静态网站

使用requests库和正则表达式爬取段子并保存到.txt文件

lianjie:https://github.com/Spacewe/python

import re
import requests
import sys
reload(sys)
sys.setdefaultencoding("utf-8")


url="http://hahahahhaahah.com/"
# url=""
header = {'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
haha = requests.get(url,headers=header)
haha.encoding='utf-8'    
# print haha.text
heihei=re.findall('<p>(.*?)</p>',haha.text,re.S)

fp=open('neihan.txt', 'wb')
# fp.write(heihei.text)

for each in heihei:
    print each
    print '-'*100
    fp.write(each)
    fp.write("\n\n")    防止被覆盖
fp.close()

爬取网站段子
使用requests库和正则表达式爬取段子并保存到.txt文件 lianjie:https://github.co...
某网站段子爬取
logging日志模块 import scrapyfrom myspider01.items import Qiu...
某网站段子爬取
logging日志模块 import scrapyfrom myspider01.items import Qiu...
Python实战爬虫：爬取段子
python爬取段子爬取某个网页的段子第一步不管三七二十一我们先导入模块第二步获取网站的内容第三步找...
Selenium小例子
爬取腾讯动漫爬取某网站漫画爬取拉勾网
Python爬虫进阶
明确爬取的网站 http://web.jobbole.com/all-posts/ 选择伯乐在线网站，爬取网站中的...
Scrapy学习——深度优先和广度优先
爬取的过程爬取网站前首先要对其网站的url结构进行分析，遇到已经爬取过的网址会将其加入已经爬取的列表中，避免重复...
爬取网站
1.新建项目 2.新建爬虫 3.新建python文件main 4.编写item文件定义需要抓取的字段名 5.编写爬...
python爬虫学习手册-服务器渲染（基础库urllib）熟悉
今天我们来说说python爬虫的第一步！爬，爬这一步分为网站爬取和APP爬取，而网站爬取里面按照渲染方式，有分为服...
爬虫从零开始--爬取静态网站
利用BeautifulSoup爬取静态html网站例子：爬取quner网站信息查看网页源码发现，景点名称西湖t...