要使用Python进行爬虫编程,当然我们要首先安装Python以及Python的包管理工具pip,这些在网上能找到很多详细的安装教程,请自行百度搜索,不过在这里推荐安装2.7版本的Python,主要原因是之后我们使用的高效爬虫框架Scrapy目前只支持Python 2.7。当然安装最新版本的3也没什么问题,配合BeautifulSoup和Requests等神器也能满足我们的爬虫需求。另外推荐安装Python的IDE工具Pycharm。
这篇文章对于这些工具的安装和优劣比较不做任何讨论和赘述,大家感兴趣的请自行百度。
本文以及接下来几篇文章的重点是想记录和向大家展示下Python中一些对于爬虫有用的语法和用法,作为我们的基础,在后续使用和学习过程中如果有需求时可以来查阅具体用法。
1.字符串的处理。
去空格及特殊符号
s.strip().lstrip().rstrip(',')
连接字符串
sStr1 ='strcat'
sStr2 ='append'
sStr1 += sStr2
printsStr1
查找字符
#strchr(sStr1,sStr2)
# < 0为未找到
sStr1 ='strchr'
sStr2 ='s'
nPos = sStr1.index(sStr2)
printnPos
扫描字符串是否包含指定的字符
#strspn(sStr1,sStr2)
sStr1 ='12345678'
sStr2 ='456'
#sStr1 and chars both in sStr1 and sStr2
printlen(sStr1andsStr2)
字符串长度
#strlen(sStr1)
sStr1 ='strlen'
printlen(sStr1)
查找字符串
#strstr(sStr1,sStr2)
sStr1 ='abcdefg'
sStr2 ='cde'
printsStr1.find(sStr2)
分割字符串
#strtok(sStr1,sStr2)
sStr1 ='ab,cde,fgh,ijk'
sStr2 =','
sStr1 =sStr1[sStr1.find(sStr2) + 1:]
printsStr1
#或者
s ='ab,cde,fgh,ijk'
print(s.split(','))
连接字符串
delimiter =','
mylist = ['Brazil','Russia','India','China']
printdelimiter.join(mylist)
截取字符串
str = ’0123456789′
print str[0:3] #
截取第一位到第三位的字符
print str[:] #
截取字符串的全部字符
print str[6:] #
截取第七个字符到结尾
print str[:-3] #
截取从头开始到倒数第三个字符之前
print str[2] #
截取第三个字符
print str[-1] #
截取倒数第一个字符
print str[::-1] #
创造一个与原字符串顺序相反的字符串
print str[-3:-1] #
截取倒数第三位与倒数第一位之前的字符
print str[-3:] #
截取倒数第三位到结尾
网友评论