link的抓取主要有3个
一link
直接用link抓取
link源代码当然这里面的链接是附在标题(文字)上的;
关键词——标题
二Element attribute
抓取微信公众号文章的时候,link遇到了无奈,首先无法select,于是前面加了一个element的父元素,link是能用了,可是没有结果……
image.png于是,使用element attribute
使用方法和link基本一样,只是需要在Attribute Name那一栏填写一段东西【hrefs】
它是右键某篇文章,然后点击检查发现的
image.png image.png图二中,圆圈中的是Class,方框中的是hrefs=链接内容(link)
image.png某块区域的链接,没有固定的标题附着
关键词——区域,有Class
源代码(空空如也)
然后使用了右键检查功能
三element attribute +
这里面的🌰用的是大众点评的菜系抓取
源代码 检查两个基本是相同的格式,网页链接不是分开的,而是集中在一个Class里。
虽然,可以用element attribute把链接抓下来,可是我只想要菜系的,所以考虑用element建立范围限制。
image.png image.pngimage.png总之,在【<a href= ####】这个格式中,链接基本上都抓取下来了
链接终于抓出来了,可是多了一个没法忽略的搅屎棍,就是那个【收起】/【展开】切换的键,它也是有链接的,于是,如果链接文本一块抓的话,多出来的一行链接就会成为文本与对应链接间的一条鸿沟。
其中的【a】是这段代码的第一个符号,它是关键
关键点——一个CLASS,一群链接
总结
抓取链接的时候,可以考虑观察【检查】或者【源代码】,看是否有链接信息,是分开独立的,还是区域划分。
像简书、知乎,基本上就是一个标题附加一个链接,相互独立。
而像公众号网页历史记录这种链接没有一标题作为载体,是区域负载,所以源代码空空如也,只有检查里才有。
最后,像一些统计类的网页(大众点评),同一区域的小标题链接在一个共同的大Class下,这个时候就得用element attribute +了。
网友评论