美文网首页
爬虫_004_Python字符串

爬虫_004_Python字符串

作者: 为宇绸缪 | 来源:发表于2023-01-07 22:45 被阅读0次

字符串在爬虫里. 必须要知道的几个操作
(1) 索引和切片
索引, 就是第几个字符. 它从0开始.
切片, 从字符串中提取n个字符。

s = "我爱黎明,黎明爱我"
print(s[1])
print(s[0])

print(s[2:4])  # 我爱。从第2个, 到第4个(取不到4)

(2) strip()
strip()可以去掉字符串左右两端的空白(空格, 换行\n, 回车\r, 制表符\t)

s = "    \t\t\t我的天哪\r\r      \n\n  "  
s1 = s.strip()
print(s1)  

结果: 我的天哪

(3) split, 按照指定符号进行切割.

s = "10,男人本色,100000万"  # 你在网页上提取到这样的一段数据. 现在我需要电影名称
tmps = s.split(",")
name = tmps[1]
print(name)  # 男人本色

id, name, money = s.split(",")  # 切割后. 把三个结果直接怼给三个变量
print(id)
print(name)
print(money)

(4) replace, 字符串替换。replace(原有的字符串,新替换的字符串)

s1 = "我      \t\t\n\n爱   黎       明    "   # 这是你从网页上拿到的东西
s1 = s1.replace(" ", "").replace("\t", "").replace("\n", "")  # 干掉空格, \t, \n
print(s1)  # 我爱黎明

(5) join, 将列表拼接为一个完整的字符串

lst = ["我妈", "不喜欢", "黎明"]  # 有时,由于网页结构的不规则, 导致获取的数据是这样的.
s1 = "".join(lst)  # 用空字符串把lst中的每一项拼接起来
print(s1)  # 我妈不喜欢黎明

lst2 = ["\n\r","\n\r","周杰伦\n\r", "\n不认识我\r"]
s2 = "".join(lst2).replace("\n", "").replace("\r", "")
print(s2)  # 周杰伦不认识我

(6) f-string。格式化字符串的一种方案

s = "周杰伦"
s1 = f"我喜欢{s}"  #  它会把一个变量塞入一个字符串
print(s1)  # 我喜欢周杰伦

k = 10085
s2 = f"我的电话号是{k+1}" # 它会把计算结果赛入一个字符串
print(s2)  # 我的电话号是10086

f-string的大括号里, 其实是一段表达式.能计算出结果即可

相关文章

网友评论

      本文标题:爬虫_004_Python字符串

      本文链接:https://www.haomeiwen.com/subject/osrecdtx.html