2018-12-05 爬虫入门笔记(1)

作者: NickyChu | 来源:发表于2018-12-05 00:47 被阅读0次

2018-12-05 爬虫入门笔记(1)
scrapy笔记
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python爬虫入门
Python爬虫笔记一 ——爬取网页题目
（学习笔记）爬虫入门（1）
爬虫入门系列（六）：正则表达式完全指南（下）
Python爬虫入门（urllib+Beautifulsoup）
10分钟从入门到进阶python爬虫
Python爬虫入门，5分钟了解思路，这是我见过最简单的基础教学

豆瓣电影名字与年份 selector 运用CSS方法

这一版本将年份返回值做了去两端括号处理，借鉴了这个例子https://blog.csdn.net/mach_learn/article/details/41744487

#一个去除杂乱符号的例子
import re
temp = "想做/ 兼_职/学生_/ 的 、加,我Q：  1 5.  8 0. ！！？？  8 6 。0.  2。 3             有,惊,喜,哦"
string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+",     "",temp)#用法: re.sub(要被替换的值，替换值，text)
print(string)

接下来是我今晚初学爬虫的成果XD（虽然很弟弟）

首先当然是import部分

from requests_html import HTMLSession
import re

接下来是函数主体

def clearstr(str1):
str1 = re.sub("[\s+\.\!\/_,$%^*()+\"\']+|[+——！，。？、~@#￥%……&*（）]+", "",str1)#用法: re.sub(要被替换的值，替换值，text)  
return str1

def getmovieyear(links):
name = []
year = []
for link in links:
    session1 = HTMLSession()
    h1 = session1.get(link)
    n1=h1.html.find('#content > h1 > span:nth-child(1)',first=True).text#得到name的text格式
    y1=clearstr(h1.html.find('#content > h1 > span.year',first=True).text)#得到year的text格式并清洗格式
    name.append(n1)
    year.append(y1)
for movie in name:
    i=0
    print("《{0}》 is showed in {1}".format(movie,year[i]))
    i=i+1

最后是示例效果

mylink=['https://movie.douban.com/subject/1292052/']
getmovieyear(mylink)

输出为：《肖申克的救赎 The Shawshank Redemption》 is showed in 1994

明天的目标

学习bs4的使用:Beautiful Soup 的用法

网友评论

本文标题：2018-12-05 爬虫入门笔记(1)

本文链接：https://www.haomeiwen.com/subject/nwvbcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2018-12-05 爬虫入门笔记(1)

豆瓣电影名字与年份 selector 运用CSS方法

首先当然是import部分

接下来是函数主体

最后是示例效果

明天的目标

相关文章

2018-12-05 爬虫入门笔记(1)

scrapy笔记

3分钟带你了解世界第一语言Python 入门上手也这么简单！

Python爬虫入门

Python爬虫笔记一 ——爬取网页题目

（学习笔记）爬虫入门（1）

爬虫入门系列（六）：正则表达式完全指南（下）

Python爬虫入门（urllib+Beautifulsoup）

10分钟从入门到进阶python爬虫

Python爬虫入门，5分钟了解思路，这是我见过最简单的基础教学

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读