美文网首页
webscrape-link

webscrape-link

作者: 风不千山 | 来源:发表于2018-10-04 22:55 被阅读0次

    link的抓取主要有3个

    一link

    直接用link抓取

    link

    当然这里面的链接是附在标题(文字)上的;
    关键词——标题

    源代码

    二Element attribute

    抓取微信公众号文章的时候,link遇到了无奈,首先无法select,于是前面加了一个element的父元素,link是能用了,可是没有结果……

    image.png

    于是,使用element attribute

    使用方法和link基本一样,只是需要在Attribute Name那一栏填写一段东西【hrefs】

    它是右键某篇文章,然后点击检查发现的

    image.png image.png

    图二中,圆圈中的是Class,方框中的是hrefs=链接内容(link)

    某块区域的链接,没有固定的标题附着
    关键词——区域,有Class

    image.png

    源代码(空空如也)
    然后使用了右键检查功能

    三element attribute +

    这里面的🌰用的是大众点评的菜系抓取

    源代码 检查

    两个基本是相同的格式,网页链接不是分开的,而是集中在一个Class里。

    虽然,可以用element attribute把链接抓下来,可是我只想要菜系的,所以考虑用element建立范围限制。

    image.png image.png

    总之,在【<a href= ####】这个格式中,链接基本上都抓取下来了

    image.png

    链接终于抓出来了,可是多了一个没法忽略的搅屎棍,就是那个【收起】/【展开】切换的键,它也是有链接的,于是,如果链接文本一块抓的话,多出来的一行链接就会成为文本与对应链接间的一条鸿沟。

    其中的【a】是这段代码的第一个符号,它是关键

    关键点——一个CLASS,一群链接

    总结

    抓取链接的时候,可以考虑观察【检查】或者【源代码】,看是否有链接信息,是分开独立的,还是区域划分。

    像简书、知乎,基本上就是一个标题附加一个链接,相互独立。

    而像公众号网页历史记录这种链接没有一标题作为载体,是区域负载,所以源代码空空如也,只有检查里才有。

    最后,像一些统计类的网页(大众点评),同一区域的小标题链接在一个共同的大Class下,这个时候就得用element attribute +了。

    相关文章

      网友评论

          本文标题:webscrape-link

          本文链接:https://www.haomeiwen.com/subject/yrjfaftx.html