环境准备
- 本爬虫是用scrpyd+django+mysql, 安装前请先安装python2.7
- mysql安装
windows安装直接到mysql官网下载安装包进行安装 - scrapyd安装
pip install scrapy
- django安装
pip install django
- python连接mysql库安装
pip install mysql-python
数据库配置
打开trvaelinfo下的settings.py
修改
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.mysql', # 或者使用 mysql.connector.django
'NAME': 'travel',
'USER': 'root',
'PASSWORD': '123456',
'HOST':'192.168.2.104',
'PORT':'3306',
}
}
执行爬虫
进入到包含scrapyd.cfg的目录,执行命令
scrapy crawl ctrip
爬其他景点
默认是爬取杭州,如果需要爬其他城市景点,则打开ctripspider.py
修改start_urls
默认:
start_urls = 'http://you.ctrip.com/sight/hangzhou14.html'
如果要爬北京,修改为:
start_urls = http://you.ctrip.com/place/Beijing1.html
然后执行爬虫
网友评论