美文网首页
Python 提取字符串

Python 提取字符串

作者: 一个扫地的垃圾 | 来源:发表于2020-09-10 23:38 被阅读0次

本文所使用的数据可以从百度云下载,链接: https://pan.baidu.com/s/1Ytlmw0QuW3ex3fi4Zr-DYw 密码: mf9n

1 提取电影中文名称

我们在中国电影网上抓取了一些华语电影的数据,其中电影名称字段一般使用“中文电影名”+“年份”+“英文电影名”的方式存储,例如“让子弹飞(2010)\nLet The Bullets Fly\n\n”。如果我们想要提取中文的电影名称,如何使用python进行处理呢?

答案是使用split函数,参数设置为中文的括号

# coding:utf-8
import pandas as pd
import numpy as np
import re

#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)

data = pd.read_excel("./中国电影网电影_data.xlsx")
movie_name = data["电影名"]
for i in range(len(movie_name)):
    print(movie_name[i].split("(")[0])

输出结果为(显示前五行):

让子弹飞
唐山大地震
非诚勿扰2
狄仁杰之通天帝国
叶问2:宗师传奇

2 提取前三位主演中文名称

主演的字段一般使用“中文名”+“英文名”+“中文名”+“英文名”+···交替显示,使用空格作为中文名和英文名的分隔符,现在想输出每部电影的三位主演,如何使用python进行处理?

答案是使用正则表达式中的compile函数生成匹配模式对象,并在该对象上调用findall方法寻找所有能够匹配该模式的字符串。

lead_actor = data["主演"]
print(lead_actor)
for i in range(len(lead_actor)):
   if lead_actor[i] is not np.nan:
       pattern = re.compile("[\u4e00-\u9fa5·]+")
       print(" ".join(pattern.findall(lead_actor[i])[0:3]))

   else:
       print(np.nan)

相关文章

  • python json提取参数

    在Python 中提取json字符串:json={"str":"test1","tests":"{"test2":...

  • 正则表达式

    正则表达式 (?P .*)提取字符串re.M,re.S,贪婪,非贪婪正则表达式,html标签 提取Python正则...

  • python正则表达式

    python正则表达式 概念:对字符串的一种逻辑公式, 使用规则从原字符串中提取想要的字符串 应用场景:表单验证,...

  • 2-2 shell字符串处理

    计算字符串长度 输出结果 66 输出结果 66 提取字符串 1 ${字符串变量:提取位置:提取长度} 输出结果l...

  • Python 提取字符串

    本文所使用的数据可以从百度云下载,链接: https://pan.baidu.com/s/1Ytlmw0QuW3e...

  • ios 设置字符串中某段字符的颜色

    1.提取URL 2.提取字符串

  • C++学习笔记(八)String类型(下)

    1、提取子字符串 函数substr可以提取string字符串中的子字符串,该函数有两个参数,第一个参数为需要提取的...

  • 字符串常用方法

    slice(): 返回字符串中提取的子字符串。 substring(): 提取字符串中介于两个指定下标之间的字符。...

  • python基础知识(3)

    python字符串 python转义字符 python字符串运算符 python字符串格式化 python格式化操...

  • 【叔小生】JavaScript进阶篇

    如何插入JSJS基础语法语法、函数、方法提取字符串substring()substring() 方法用于提取字符串...

网友评论

      本文标题:Python 提取字符串

      本文链接:https://www.haomeiwen.com/subject/hxmmektx.html