美文网首页
在pymysql的SSCursor踩的生成器的坑

在pymysql的SSCursor踩的生成器的坑

作者: 碎冰op | 来源:发表于2017-08-19 10:45 被阅读1598次

在Python3连接mysql要用到pymysql模块。
一般用的是普通游标,执行select等语句fetchall时是直接存入内存,有内存不够的风险。这时可以用SSCursor,貌似中文叫做流式游标?连接时需要这样:

    conn = pymysql.connect(dbhost, dbuser, dbpass, dbname, charset='utf8')
    cur = conn.cursor(pymysql.cursors.SSCursor)
    # 也可以cur = pymysql.cursors.SSCursor(conn)

总之,在执行select等sql语句后

    cur.execute(sql)

可以通过for循环遍历cur,此时cur相当于生成器,不会直接存储所有数据,而是在循环时一条一条生成数据。

    for i in cur:
        print(i)

或者存储需要的数据

    l = (i[0] for i in cur)
    # 数据量不大时也可以用列表生成式l = [i[0] for i in cur]

即使只select一种数据,出现的结果也是元组,类似于(1,),而一般需要的数据只是元组里的这个1,若使用

    l = (i for i in cur)

由于没有解包元组,得不到想要的结果。

生成器的介绍还是看官方文档比较好。
类似于

def func():
    for i in range(3):
        print(i)


func() # 0, 1, 2

要改写成生成器,只需要把print()变成yield,这个函数本身就可以循环了。

def func():
    for i in range(3):
        yield i


for i in func():
    print(i) # 0, 1, 2

生成器只能循环一次。之后再度对它循环不会生成值。

    cur.execute(sql)
    l = (i[0] for i in cur)
    r = (i[1] for i in cur)

尽管r不生成任何值,但上面这段代码不会报错。
如果是这样

    cur.execute(sql)
    l = [i[0] for i in cur]
    r = [i[1] for i in cur]

调试时会发现r是一个空列表。
实际上要达成目的应该老老实实的这样写

    cur.execute(sql)
    l, r = [], []
    for i in cur:
        l.append(i[0])
        r.append(i[1])

由于cur本身就是一个生成器,实在不想用上面的写法的话,就在for循环里直接处理i[1]这样的数据吧。
相对于list而言,生成器没有长度的概念,无法使用len()判断长度,因此也不能判空。

def func():
    for i in range(0):
        yield i


if func():
    print(1) # 1


l = (i for i in range(0))
if l:
    print(1) # 1

因此,在执行一条select语句后,想知道实际有没有结果,不能用以下方式判断

    cur.execute(sql)
    if cur:
        for i in cur:
            pass

为了写入csv等,需要完整对齐的数据的话,可以这样

    cur.execute(sql)
    for i in cur:
        if i:
            l.append(i)
            break
    else:
        l.append('')

很奇怪的for...else...语法,感觉自己在瞎写了,应该有其他方式来实现,而不是非要用这种逻辑。不过,能抓到老鼠就是好猫。

要插入几十万以上数据想节省时间的话,可以这样

    # datas是一个list,里面又包含几十万个list
    bigN = 50000 # 一次插5万条,设置的太高mysql也不让插那么多
    for i in range(len(datas)//bigN):
        l, r = i * bigN, (i + 1) * bigN
        sql = "insert ... values %s"
        sql = sql % ','.join(datas[l:r])
        cur.execute(sql)
        if r + bigN > len(datas):
            sql = "insert ... values %s"
            sql = sql % ','.join(datas[r:]) # 边界条件,保证尾部元素都能插入
            cur.execute(sql)

不过以上代码没有检查datas长度小于bigN的情况,这个时候由于len(datas)//bigN为0,是不会进行循环的,这点也要注意。

相关文章

网友评论

      本文标题:在pymysql的SSCursor踩的生成器的坑

      本文链接:https://www.haomeiwen.com/subject/qkttdxtx.html