了解完前面的内容是可以爬取什么值得买了,但是还有一个利器,叫做rss,官方提供rss路径,https://www.smzdm.com/dingyue,里面有各个频道的rss,找到发现频道:http://faxian.smzdm.com/feed,打开网址看看效果
<item>
<title><![CDATA[中亚Prime会员:SENNHEISER 森海塞尔 MOMENTUM On-Ear i 2.0 小馒头二代 苹果版 头戴式耳机 黑色 ¥598.87+¥73.33含税直邮]]></title>
<link><![CDATA[https://www.smzdm.com/p/9014756/]]></link>
<comments><![CDATA[https://www.smzdm.com/p/9014756/#comments]]></comments>
<pubDate><![CDATA[Mon, 02 Apr 2018 07:10:22]]></pubDate>
<focus_pic><![CDATA[https://qny.smzdm.com/201804/02/5ac1e368b56d95562.jpg_a200.jpg]]></focus_pic>
<guid isPermaLink="false">https://www.smzdm.com/p/9014756/</guid>
<description><![CDATA[一逍天下森海家的音质,外型经典便携。亚马逊海外购中亚Prime会员可免运费,入手约598.87+73.33(合计672.2元)含税直邮。]]></description>
<content:encoded><![CDATA[<p itemprop="description"><strong>森海家的音质,外型经典便携。</strong><a itemprop="description" href="https://go.smzdm.com/3f883f6ec597f4a0/ca_aa_yh_0_9014756_801_0_0" target="_blank" rel="nofollow" onclick="gtmAddToCart({'name':'SENNHEISER 森海塞尔 MOMENTUM On-Ear i 2.0 小馒头二代 苹果版 头戴式耳机 黑色','id':'9014756' , 'price':'599','brand':'SENNHEISER/森海塞尔' ,'mall':'亚马逊海外购', 'category':'无','metric1':'599','dimension10':'amazon.cn','dimension9':'youhui','dimension11':'6阶价格','dimension12':'亚马逊海外购','dimension20':'无','dimension32':'先发后审','dimension25':'801'});" >亚马逊海外购</a>中亚Prime会员可免运费,入手约598.87+73.33(合计672.2元)含税直邮。</p><p>本文来自<a href="https://www.smzdm.com/p/9014756/">什么值得买网站(www.smzdm.com)</a>。</p>]]></content:encoded>
</item>
这是一个标准的item,整体内容简洁了很多啊。这下来爬就简单多了。
这回用到的库叫feedparser
他是针对rss集requests和解析工具一体的库。
import feedparser
def rss():
file = feedparser.parse('http://faxian.smzdm.com/feed')
print([item.title for item in file.entries])
print([item.link for item in file.entries])
当然,第一步还是找到‘网页’,这也是其重要的功能.parse(url)
比较重要的几个功能对比前面所需的,找到所有的标题。
迭代-file.entries,生成一个列表,entries就是说file里所有item。
item.title获取其title,像一个属性
不用迭代,只找一个的话,要用file.feed.title
网友评论