美文网首页
2014-12-21

2014-12-21

作者: Akker | 来源:发表于2014-12-21 04:05 被阅读0次

诀窍,大局观

  1. 找“打印该页面链接”,找“移动端显示”,会让格式更容易
  2. 找在js里的信息
  3. 信息可能在url里
  4. 换个网站找同样信息
    get_text()
    去掉所有tag部分,只留下text部分。留到最后再用这个功能。
    pythonnameList = bsObj.findAll("span", {"class":"green"})for name in nameList: print(name.get_text())findAll()pythonfindAll(tag, attributes, recursive, text, limit, keywords).findAll({"h1","h2","h3","h4","h5","h6"}) # 找tag属于的.findAll("span", {"class":"green", "class":"red"}) # 找tag=span,class属于的nameList = bsObj.findAll(text="the prince") # 找tag的text是“the price”的个数allText = bsObj.findAll(id="text") # keywords寻找对应关键词的allText = bsObj.findAll("", {"id":"text"}) # 与上式同义bsObj.findAll(class_="green") # class关键词时用class_,避免关键词soup.findAll(lambda tag: len(tag.attrs) == 2) # 加lambda表达式children(), descendants()pythonbsObj.find("tr",{"id":"gift1"}).children() # 满足条件tag的直属一级tagbsObj.find("tr",{"id":"gift1"}).descendants() # 满足条件tag的包含的所有tagnext_siblings, previous_siblingspythonbsObj.find("table",{"id":"giftList"}).tr.next_siblings # 当前tr tag之后的并列tagbsObj.find("table",{"id":"giftList"}).previous_siblings # 当前tag之前的并列tagparentpythonbsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text() # 定位到当前tag的parentregular expressionspythonimages = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")}) # findAll加re获取tag属性attributespythonmyImgTag.attrs # 得到字典,包括这个tag的所有属性myImgTag.attrs['src'] # src属性值其他选择,不用bs41. lxml:处理HTML,XML,很快。2. HTML Parser:buit-in

相关文章

  • 2014-12-21

    诀窍,大局观 找“打印该页面链接”,找“移动端显示”,会让格式更容易 找在js里的信息 信息可能在url里 换个网...

  • 2014-12-21会议讨论

    by 小Q 过去一个月工作总结 推文阅读情况 有些阅读率高,有些不高; 我觉得文章选择以及编辑都是很不错的;题目特...

  • 整理博客

    一缕清风查看网页版> 古镇的记忆 2014-12-21 08:51 小桥流水人家,粉墙黛瓦,廊篷飞檐,江南的小镇大...

  • 仁者不忧,智者不惑,勇者不惧

    写于2014-12-21 前段时间听曾国藩家训后一发不可收拾,之后听了于丹论语感悟、庄子感悟、以及张德芬关于遇见未...

网友评论

      本文标题:2014-12-21

      本文链接:https://www.haomeiwen.com/subject/qotatttx.html