1.1 python打造分布式爬虫:
开发工具IDE:pycharm
数据库: mysql,redis,elasticsearch
开发环境:virtualenv虚拟环境
1.2. 需要学会的是:
pycharm的安装和使用
mysql和navicat的安装和使用
virtualenv和virtualenvwrapper的安装和配置
1.3. 关于Linux下启动pycharm的两种方法:
百度进入pycharm的官网后选择download并且选择相应的linux版本,下载下来的文件是绿色的。
- (1) 在linux下使用命令可以直接启动,找到bin文件夹中的
pycharm.sh
文件,运行。具体linux下的操作命令如图:
linux下运行pycharm的命令 - (2) 除了这种方法以外,还有另外一个快捷键通过命令就可以直接启动,首先在linux下面可以建立自己的命令,使用vim命令编辑用户总目录下面的bashrc文件,按shift+G到.bashrc文件的最后一行。
:wq
命令是退出这个文件,编辑完成之后,一定要运行source ~/.bashrc
,命令让这个配置文件生效,生效之后直接运行pycharm
命令就可以启动pycharm软件了。
1.4. pycharm的使用之项目虚拟环境的设置方法
关于创建项目的虚拟环境1.5. 检查windows上是否已安装mysql的方法
- 在cmd中输入
mysql
,如果提示找不到命令,除了没安装,还有可能是mysql的bin路径没有设置到变量path中- 确定是安装好的,输入mysql还是报错,是因为没有指定用户名以及输入密码,使用命令
mysql -uroot -p
,接下来会提示输入命令。
一般关于mysql的操作很少使用cmd控制台的,可以使用navicat软件(轻量级,用于mysql的连接和管理)。
- 关于mysql的补充,在官网上点击mysql installer可以下载,下载网址:https://dev.mysql.com/downloads/windows/installer/8.0.html,找到msi,需要注意的是下载200多兆比较大的。
1.5.1 在navicat中关于mysql使用:
-
在navicat中连接好mysql就可以新建数据库了,注意字符集和排序方法的选择:
1.5.2 navicat中数据库内容的传输有两种方法:
- 直接传输
- 转化成sql文件
1.6. 在linux下安装mysql
-
直接使用命令
sudo ~
到主目录中,再使用命令sudo apt-get install mysql-server
,前面必须加sudo,因为这是系统软件,否则是没有权限的,刚安装的时候都需要设置用户名和密码的。 -
在linux下检查mysql是否正常启动,使用命令
ps aux|grep mysqld
,前面的ps aux是检查所有进程的,grep是过滤出mysql相关的进程。进入mysql后命令exit;
退出。
1.7. 如何配置虚拟机的mysql与外部系统navicat连接:
(1) 关于如何配置mysql,使得外部的navicat可以和虚拟机内linux的mysql相互连接。默认情况下是连接不进来的,需要修改配置,方法如下:
:wq
退出文件,接下来使用命令sudo service mysql restart
重启mysql服务。再用上面的方法检查是否启动成功,如果有相应的进程号代表启动成功。
(2) 使用虚拟机的外部windows上的navicat连接时,需要知道虚拟机的ip,使用命令ifconfig
可以查看到,在navicat设置连接时报错。
(3) Linux下设置mysql的用户权限,其相关命令是:
1.8. Windows下安装Python2和python3以及虚拟环境的配置
如果同时安装了python2和python3,在cmd中输入python还是2的环境,这是因为环境变量的path里面,只配置了2.7的路径,如果想要变成3,那么就需要将python3的路径加入到path变量中,有两个版本会引起冲突,所以删除2的路径,就可以将python默认的版本为3了。
如果是在linux环境下,可以直接运行命令sudo apt-get install python3.5
,可以直接指明python的版本,在下载最新的linux版本时候,python2和3都已经默认安装上的,只不过默认的版本是python2.7。如果需要使用python3,在linux环境下,只需要输入命令python3
就切换成3的环境了。
1.8.1 Windows python虚拟环境的安装和配置:
- 虚拟环境最大的好处就是可以将开发环境相互隔离,而不互相影响,比如说有的项目是使用2来开发的,有的使用3来开发的,用虚拟环境下就能很好的解决。
在安装开发包之前,说一个pip的技巧,某些开发包在下载过程中会很慢,经常出现timeout的情况,解决这个问题,可以配置一下下载第三方包的镜像,可以加速下载和安装。百度搜索python豆瓣源就可以搜索到镜像,并且还提示了第三方包的安装方法:
- 在cmd中输入命令
pip install virtualenv
安装虚拟环境 - 学会使用豆瓣源,用-i指定镜像源,安装django,命令
pip install -i https://pypi.douban.com/simple/ django
- 安装了虚拟环境之后,就可以新建虚拟环境了,命令
virtualenv scrapytest
,后面为虚拟环境的名称,这个虚拟环境会被安装到对应的cmd目录下,比如C:\Users\mtudou>,就可以找到scrapytest的一个文件夹,里面存放的python最初的包。 - 激活虚拟环境,进入scripts文件夹,使用命令
activate.bat
完成激活。使用deactivate.bat
退出当前虚拟环境。
如何指定新建的虚拟环境的python版本,使用命令
virtualenv -p ...\python.exe scrapypython3
,前面的...
表示python对应版本的安装路径,即python.exe的路径。
1.8.2 Linux安装python虚拟环境:
1. 命令`sudo apt-get install python-virtualenv`安装
2. 命令`virtualenv pythonha2`,新建一个虚拟空间
3. 命令`cd pythonha2`进入虚拟环境目录
4. 这里和windows不一样,**它的脚本在bin目录下**,windows是在scripts目录下,所以命令`cd bin/`
5. 命令`source activate`启动虚拟环境
1.8.3 Windows下安装virtualenvwrapper
由于我们看到对于每一个虚拟环境,我们都必须记住它的路径,并且要找到相应的scripts目录或者bin目录,才来启动很麻烦,所以有一个专门的虚拟环境管理工具virtualwrapper。
- 命令
pip install virtualenvwrapper
,安装管理工具- 命令
workon
,列出所有的虚拟环境- 命令
mkvirtualenv 名称
,新建一个新的虚拟环境,默认是放在Users/administrator/envs里面的,实际上是可以修改这个目录的,在高级系统环境变量设置中,新建一个WORKON_HOME变量,就可以自己指定路径了。如果新建了新的envs地址,使用workon命令就找不到之前的虚拟环境了,可以把原先的虚拟环境全部拷贝过去。所有通过mkvirtualenv创建的虚拟环境都会到work_home这个目录下。- 命令
workon 名称
,直接进入该虚拟环境,再也不需要考虑虚拟环境的路径了,命令“deactivate”直接退出该虚拟环境。- 如果同时安装了python2和3,要指定虚拟环境使用那个版本,命令
mkvirtualenv --python=python.exe路径 名称
。
- 有时候安装包的时候报错,记住这个网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/,很多时候安装失败都可以在这里找到对应的版本,主要是windows的版本,找到对应的python版本的msi文件,就可以直接下载下来。进入该文件所在的目录,使用
pip intsall 文件名
完成安装。如果是安装到某个虚拟环境,要先进入指定的虚拟环境。
1.8.4 Linux下安装virtualenvwrapper
pip install virtualenvwrapper
- 安装好了之后不能像windows下一样直接使用mkvirtualenv的,因为没有配置,使用命令
sudo find / -name virtualwrapper.sh
,找到这个文件- 找到文件位置之后,就需要配置source文件,使用命令
vim ~/.bashrc
打开总管理文件,在最后一行,配置其中两条路径。
网友评论