字符串在爬虫
里. 必须要知道的几个操作
(1) 索引和切片
索引, 就是第几个字符. 它从0开始.
切片, 从字符串中提取n个字符。
s = "我爱黎明,黎明爱我"
print(s[1])
print(s[0])
print(s[2:4]) # 我爱。从第2个, 到第4个(取不到4)
(2) strip()
strip()可以去掉字符串左右两端
的空白(空格, 换行\n, 回车\r, 制表符\t)
s = " \t\t\t我的天哪\r\r \n\n "
s1 = s.strip()
print(s1)
结果: 我的天哪
(3) split, 按照指定符号进行切割.
s = "10,男人本色,100000万" # 你在网页上提取到这样的一段数据. 现在我需要电影名称
tmps = s.split(",")
name = tmps[1]
print(name) # 男人本色
id, name, money = s.split(",") # 切割后. 把三个结果直接怼给三个变量
print(id)
print(name)
print(money)
(4) replace, 字符串替换。replace(原有的字符串,新替换的字符串)
s1 = "我 \t\t\n\n爱 黎 明 " # 这是你从网页上拿到的东西
s1 = s1.replace(" ", "").replace("\t", "").replace("\n", "") # 干掉空格, \t, \n
print(s1) # 我爱黎明
(5) join, 将列表拼接为一个完整的字符串
lst = ["我妈", "不喜欢", "黎明"] # 有时,由于网页结构的不规则, 导致获取的数据是这样的.
s1 = "".join(lst) # 用空字符串把lst中的每一项拼接起来
print(s1) # 我妈不喜欢黎明
lst2 = ["\n\r","\n\r","周杰伦\n\r", "\n不认识我\r"]
s2 = "".join(lst2).replace("\n", "").replace("\r", "")
print(s2) # 周杰伦不认识我
(6) f-string。格式化字符串的一种方案
s = "周杰伦"
s1 = f"我喜欢{s}" # 它会把一个变量塞入一个字符串
print(s1) # 我喜欢周杰伦
k = 10085
s2 = f"我的电话号是{k+1}" # 它会把计算结果赛入一个字符串
print(s2) # 我的电话号是10086
f-string的大括号里, 其实是一段表达式.能计算出结果即可
网友评论