欢迎关注零壹研究所 【微信号: Research_LAB】
Python在网络爬虫、机器学习、爬虫、金融等领域的火爆程度无需多说。非相关专业、零基础入门的学习过程中,遇到的问题在相关专业人士眼里有时候很奇葩,做一些笔记举一反三或许能够积少成多,稍微弥补一下没有系统学习编程的巨大缺陷。
一、关于环境变量
安装好Python后,会要求添加环境变量。其实环境变量这个东西听着玄乎,了解以后就会觉得也就这样。在计算机执行程序的过程中,最重要的就是指明方向,要告诉计算机用什么程序(大多为*.exe可执行文件)执行哪些命令(代码文件)。
环境变量某种意义上就是一种全局的路径,告诉计算机要到哪里找这个*.exe文件。比如我在桌面打开powershell(按住Shift+右键),首先看到的就是:
如果输入Python,它并不能跳转到Python的命令界面(如果没有在环境变量里面添加Python.exe所在的路径的话),这是因为在当前路径(桌面Desktop)下没有一个叫做Python的exe文件。
如果在环境变量里面添加Python.exe所在的路径,就相当于告诉了计算机到哪里去找这个Python的exe,计算机会根据环境变量里面的路径去寻找Python.exe,找到就可以顺利启动该文件:
如上图,Python.exe顺利启动。(Python的交互命令界面光标是“>>>”,powershell的是“>”,参考前面的图)
因此,环境变量就是一个全局的搜索路径,在命令界面输入一个命令的时候,会首先到当前路径下寻找,没有的话就会到环境变量里面的路径里面去寻找。
(环境变量设置:此电脑右键—属性—高级系统设置—环境变量,选中path点击编辑,可以新建路径,把Python.exe所在的路径添加进去)
我这里是:
C:\Users\mcc\AppData\Local\Programs\Python\Python37-32\Scripts\
注意最后的斜杠一定要保留,因为计算机会把路径添加到Python前面,如果没有斜杠就是…Local\Programs\Python\Python37-32\Scriptspython.exe,导致出错。
举一反三,其他软件要求添加环境变量也是如此,一般添加该软件*.exe文件所在的路径。一般安装的时候会自动添加,但是有时候也会出现要求自己添加的情况。
二、关于IDE
IDE是集成开发环境(Integrated DevelopmentEnvironment)缩写。
其实单纯的“写”代码并不需要很高级的工具,一个记事本就行了。比如Python的代码文件是*.py,matlab是*m,stata是*.do,只要在记事本里面输入相关代码,最后保存的时候改成上述后缀就是一个代码文件了,只要命令正确,可以进行执行。
就像我们喜欢用word不喜欢用记事本一样,IDE就是编程里面的word,比记事本不知道高到哪里去了。Python比较常用的IDE是Pycharm,如下图:
与后面的记事本相比,相信肯定选择前者。前者明显“高级”多了。
重要的是这种第三方的IDE功能丰富,比如输入命令函数可以自动联想,就像搜狗智能拼音和最老式的ABC拼音的区别一样。当然这只是最最基础的好处,还有一些定位BUG啊,程序运行计时之类的,可以极大地辅助程序的编辑与改进,减轻工作量。
工欲善其事,必先利其器。有一个趁手的IDE就像拿着火枪,用记事本写程序就像是拿着大刀,孰优孰劣、哪个更加有效率可想而知。
Python的IDE推荐用Pycharm。程序比较大,而且需要许可证,基于我国国情,相信智慧的中国人总是有办法解决这个问题(主要是学校也没买)…
三、Python与爬虫
Python可以用在几乎所有领域,对于非专业人士来说,搜集、处理数据并且可视化应该是最实用的。广义的爬虫类似于百度搜索引擎,爬取所有网络的信息,像蜘蛛一样,从中心爬到网络的每一个角落,每一个可以公开访问到的链接都爬过去,提取相关信息(关键词,形成网页快照等)。
而从搜集特定数据维度来看,爬虫指的是利用计算机搜集特定的数据,比如我要整理东方财富股吧里面中信证券(600030)的所有评论,后续可以做自然语言处理,形成量化的投资者看法数据辅助决策。如果手工收集,工作量难以想象:
稍微数了一下,每页80+条评论,一共6631条...手工收集得猴年马月,短时间内收集几乎不可能实现。
但是机器可以,机器不用休息,不会手酸,不会抱怨,不会觉得自己做的事情没意义,最重要的是竟然还不要工资!(电费网费什么的就不要杠精了..)。
这里狭义的爬虫就是利用程序,让计算机去执行这种简单重复的采集数据的工作。这里的弯弯绕绕门门道道很多,需要整理以后才能理出一个头绪,后续再深入罗列,这里暂时不提。
四、从爬虫到数据库
爬取的数据一多就很难处理。比如我们常用的Excel,极限容量是100万行数据,再多就存不下了,但是上述股吧评论数据,单中信证券就有48万+条数据了,如果我要的是整个市场3500+股票的所有评论呢(当然,其他冷门或者新上市股票未必有中信证券评论这么多)。
所以需要一个数据库,近期在研究MongoDB,理论上,只要存储空间足够,可以容纳无限条数据。
关于数据库了解有限,这部分有待研究过后再补充。
五、关于Pycharm
pycharm常用设置及快捷键
撤销与反撤销:Ctrl + z,Ctrl + Shift + z
缩进、不缩进:Tab、Shift + tab
运行:Shift + F10
批量注释:Ctrl + /
快速查看文档:Ctrl + q
当光标在代码中间,如何回车到下一行:Shift + 回车
当鼠标在代码下一行非开头位置,如何跳转到上一行末尾:Ctrl + backspace
当一行代码太长时,我们如何切换到下一行,但是格式不变:Ctrl + 回车
在执行程序的时候要配置一下:
点进去以后新建Python run:
改两个地方,其他缺省即可:
Name,给执行的run起个名字,以与其他的启动区别。
Script path,选择要执行的代码文件。
配置好以后点击绿色三角形就可以执行了:
零零碎碎的总结,想到哪里写到哪里,写一遍应该会记忆得更加深刻一些?
去年这个时候从零开始自学了很多,开始CPA复习以后就大半年没碰了,前几天开始重复一下居然连在Pycharm里面启动都不会设置了..
网友评论