美文网首页
[Scrapy] 爬虫学习记录:Day1

[Scrapy] 爬虫学习记录:Day1

作者: happyxhz | 来源:发表于2019-01-11 15:32 被阅读0次

python部分

使用的包:urllib2

代码:

import urllib2
request = urllib2.urlopen(url = 'https://movie.douban.com/?_t_t_t=0.6509884103763016',timeout =5)
body = request.read()

遇到的问题:

获得的body为unicode编码,中文不见了,变成\xe5\x9b\xbd\xe4\xba\xa7\xe5\x8a,腰子好痛

html

html常见元素

<html>
<body>
<h> 标题 </h>
<p> 段落
<a> 链接
<img> 图像

换行,可以没有结束标签

图片.png

标签参考手册

html属性

eg:

<a href="http://www.runoob.com">这是一个链接</a>

属性参考手册

相关文章

网友评论

      本文标题:[Scrapy] 爬虫学习记录:Day1

      本文链接:https://www.haomeiwen.com/subject/irpxdqtx.html