python部分
使用的包:urllib2
代码:
import urllib2
request = urllib2.urlopen(url = 'https://movie.douban.com/?_t_t_t=0.6509884103763016',timeout =5)
body = request.read()
遇到的问题:
获得的body为unicode编码,中文不见了,变成\xe5\x9b\xbd\xe4\xba\xa7\xe5\x8a,腰子好痛
html
html常见元素
<html>
<body>
<h> 标题 </h>
<p> 段落
<a> 链接
<img> 图像
换行,可以没有结束标签
html属性
eg:
<a href="http://www.runoob.com">这是一个链接</a>
网友评论