python爬虫数据入库时注意事项

作者: 记事本的记事本 | 来源:发表于2018-07-19 14:31 被阅读0次

python爬虫数据入库时注意事项
Python 应用
【Python爬虫】数据入库之MongoDB
搭建scrapy+es+mysql爬取知乎内容
python爬虫入门，获取全国气象站24小时整点气象数据（二）
python爬虫入门，获取全国气象站24小时整点气象数据（一）
nodejs+mysql 数据入库（一条和多条示例）
Python基础教程，第十五讲，网络编程（一）Socket详解
手把手教你进行pip换源，让你的Python库下载嗖嗖的
从零基础开始学习Python爬虫你需要注意的点以及如何学习爬虫

小技巧1

数据入库时，可能会有重复，如果从python上面无法解决这个问题，可以采取数据库摄者主键的方式，例如爬取的网址为a,b，c, 那么设置主键a b d,在数据库中这样的话就会保证数据项不会重复

具体实现过程如下

    import pymysql.cursors
    import pymysql.err
    try: #处理当插入重复的url地址的时候 会报错 然后继续运行
        cursor.execute(insert_sql, item_list)
        connection.commit()

    except pymysql.err.IntegrityError:
        print('出现数据重复')
        pass
    cursor.close()
    connection.close()

小技巧2

出现一条数据为列表的方式返回的，使用for循环的话不太美观
那么

#注意xpath语句返回的是一个列表，这样就可以把他们连接起来 ' '.join() 
#其中strip()去处字符串中的换行符和空格使数据更加美观，节省存储内存
''.join(selector.xpath('/html/body/div[6]/div[1]/ul/li[8]/strong/a/text()')).strip()