听说百度空间要关闭了,故转至简书。
慢慢地学起了python,决定朝着技术方向发展。前几天在捣弄BeautifulSoup一些基础的东西指定获取某标签的内容,如<a href="#" class="class_css" title="Test">简书</a>获取到“简书”元素。我使用的方法是把文档以字符串形式传给BeautifulSoup作为第一个参数,from_encoding="utf-8"作为第二个参数,from_encoding="utf-8"保证配合unicode()方法下输出时字符串不被转码。一些代码:
# -*- coding: utf-8 -*-from bs4 import BeautifulSoupsoup = BeautifulSoup('<a href="#" class="class_css" title="test">简书</a>',from_encoding="utf-8")
print unicode(soup.a.string)
string属性是把标签内的字符串输出,如果字符串不止一个,应该使用strings属性。
上面是基本的获取内容的方法,慢慢琢磨吧。
网友评论