美文网首页
python爬虫数据入库时注意事项

python爬虫数据入库时注意事项

作者: 记事本的记事本 | 来源:发表于2018-07-19 14:31 被阅读0次
    小技巧1

    数据入库时,可能会有重复,如果从python上面无法解决这个问题,可以采取数据库摄者主键的方式,例如 爬取的网址为a,b,c, 那么设置主键a b d,在数据库中这样的话就会保证数据项不会重复

    具体实现过程如下

        import pymysql.cursors
        import pymysql.err
        try: #处理当插入重复的url地址的时候 会报错 然后继续运行
            cursor.execute(insert_sql, item_list)
            connection.commit()
    
        except pymysql.err.IntegrityError:
            print('出现数据重复')
            pass
        cursor.close()
        connection.close()
    
    小技巧2

    出现一条数据为列表的方式返回的 ,使用for循环的话不太美观
    那么

    #注意xpath语句返回的是一个列表,这样就可以把他们连接起来 ' '.join() 
    #其中strip()去处字符串中的换行符和空格使数据更加美观,节省存储内存
    ''.join(selector.xpath('/html/body/div[6]/div[1]/ul/li[8]/strong/a/text()')).strip()
    

    相关文章

      网友评论

          本文标题:python爬虫数据入库时注意事项

          本文链接:https://www.haomeiwen.com/subject/kertmftx.html