小技巧1
数据入库时,可能会有重复,如果从python上面无法解决这个问题,可以采取数据库摄者主键的方式,例如 爬取的网址为a,b,c, 那么设置主键a b d,在数据库中这样的话就会保证数据项不会重复
具体实现过程如下
import pymysql.cursors
import pymysql.err
try: #处理当插入重复的url地址的时候 会报错 然后继续运行
cursor.execute(insert_sql, item_list)
connection.commit()
except pymysql.err.IntegrityError:
print('出现数据重复')
pass
cursor.close()
connection.close()
小技巧2
出现一条数据为列表的方式返回的 ,使用for循环的话不太美观
那么
#注意xpath语句返回的是一个列表,这样就可以把他们连接起来 ' '.join()
#其中strip()去处字符串中的换行符和空格使数据更加美观,节省存储内存
''.join(selector.xpath('/html/body/div[6]/div[1]/ul/li[8]/strong/a/text()')).strip()
网友评论