本系列文章中,不会事无巨细地描述如何操作,只会记录学习新思路和函数名等等。本人亦是初学者,具体方法可自搜python入门手册和各类博客,亦可一起评论区交流。本系列以基础python实战为始,由此开展python爬虫网站的学习之路,之后专攻数据挖掘与分析,此为序。
本文冗长,请慎重食用。
环境交代:spyder,python2.7.11
一、字符串之#format填空法#
![](https://img.haomeiwen.com/i1984364/367f8218bebe74e1.png)
![](https://img.haomeiwen.com/i1984364/656281f952a67f56.png)
二、输入获取之#报错nameerror#
python2和python3的区别:python2中字符串用raw_input获取,input慎用;python3中将两个合并为input了。
三、列表、元组、字典、集合的创建和区分
列表:list=['value1','value2','value3']
添加:list.append('value4')
拓展:list.extend(['value5','value6'])
插入:list.insert(2,'value7') #索引2处插入value7,若指定位置不存在,则在列表最后插入
删除:list.remove('value7')
del list[5] #删去索引5处的value6
a = list.pop(4) #取出索引4处的value5,对原列表来说相当于删去
元组:tuple=('value1','value2','value3')
特点:不可增删,不可排序
字典:dict={'key1':'value1','key2':'value2','key3':'value3'}
添加:dict['key4']='value4'
dict.update({'key5':'value5','key6':'value6'})
删除:del dict['key4']
特点:键不能重复,不可修改;值可以重复,可以修改;字典不能切片
集合:set={'value1','value2','value3'}
特点:无序,故不能索引不能切片
四、列表整理
排序:
sorted(list,reverse=True) #reverse为False或者无,顺序;反之逆序。
列表打包:
for a,b in zip(num,str):
print(a,'is',b) #注:python中一般print里一个逗号为一个空格显示,一个加号则视为紧密相连
列表解析式:
a = [i for i in range(0,10)]
索引加遍历函数enumerate:
可从enumerate函数中获取索引号和遍历得到的列表元素。
![](https://img.haomeiwen.com/i1984364/328c3c6fe81a469a.png)
五、词频分析中的解析
![](https://img.haomeiwen.com/i1984364/787fb6621259c906.png)
这边用了列表推导式、split分词、lower()小写函数、string模块中punctuation列举所有标点、strip删去头尾的对应标点。
即:将文本分词后,将其带着标点的词本都删去标点,并全部变为小写字母。后续操作就是将这些词本设为集合(无重复值);将词本和词频组成字典后进行print。
【注:这边需要用到set()函数,但是在python2中应该改为Set()。找了很久,最后用import sets,sets.试出来了,还是要靠自己啊,不能遇到问题就找博客。】
代码(文本随意找一份就好):
![](https://img.haomeiwen.com/i1984364/a1a4fd4fe36e9af3.png)
网友评论