美文网首页程序员@IT·互联网Python 运维
网络爬虫: 从allitebooks.com抓取书籍信息并从am

网络爬虫: 从allitebooks.com抓取书籍信息并从am

作者: 杨存村長 | 来源:发表于2016-08-19 18:21 被阅读828次

    通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码。(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码)
    接下来将通过ISBN码去amazon.com获取每本书对应的价格。

    一、了解需要和分析网站

    通过分析amazon.com得知,以ISBN码作为搜索关键字可查找到对应的书。
    结果页码就有这本书的价格,既然价格是以$符号开头,那就可以通过正则表达式得到价格。

    通过正则表达式匹配价格代码:
    def get_price_amazon(isbn):
        base_url = "https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords="
        url = base_url + str(isbn)
        page = urlopen(url)
        soup = BeautifulSoup(page, 'lxml')
        page.close()
        soup = BeautifulSoup(html_content, 'lxml')
        price_regexp = re.compile("\$[0-9]+(\.[0-9]{2})?")
        price = soup.find(text=price_regexp)
        return [isbn, price]
    

    上一篇随笔中已经得到了所有书籍的ISBN码,遍历所有的ISBN码传入get_price_amazon()方法即可获取所有书籍的价格:

    def get_all_isbn():
        all_isbn = []
        with open('isbn.csv', 'rt') as csvfile:
            spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
            for row in spamreader:
                all_isbn.append(row[0])
        return all_isbn
    
    def run():
        qs = []
        pool = ThreadPool(processes=10)
        book_price_list = []
        for isbn in get_all_isbn():
            price = get_price_amazon(isbn)
            book_price_list.append(price)
    

    运行结果:

    二、将两部分结果数据合并

    刚学过数据处理(利用Python进行数据分析 基础系列随笔汇总),为了练练手,这里通过pandas将两部分数据合并起来:

    book_info_data = pd.read_csv('books.csv')
    price_data = pd.read_csv('prices.csv')
    result = pd.merge(book_info_data, price_data, on='isbn')
    result.to_csv('result.csv', index=False, header=True, columns=['isbn', 'title', 'price'])
    

    最终结果:


    完整代码请移步github:https://github.com/backslash112/book_scraper_python


    Beautiful Soup基础知识:网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
    我们处于大数据时代,对数据处理感兴趣的朋友欢迎查看另一个系列随笔:利用Python进行数据分析 基础系列随笔汇总

    接下来打算学习Scrapy库,Scrapy是一个采集工具,它可以帮你大幅降低网页查找和识别工作,轻松采集一个或多个域名的信息。有兴趣的朋友欢迎关注本博客,也欢迎大家留言进行讨论。

    相关文章

      网友评论

        本文标题:网络爬虫: 从allitebooks.com抓取书籍信息并从am

        本文链接:https://www.haomeiwen.com/subject/zbvvsttx.html