美文网首页
初识Python:通过实践来学习

初识Python:通过实践来学习

作者: atLee | 来源:发表于2017-03-13 17:31 被阅读0次

通常一门语言的学习都是由学习语法开始的,而本人在学习的过程中发现语法是很容易忘记的,即使学习完了假如不使用的话还是不会这门语言,因此本文通过一个具体的需求来学习python,一步一步走入python的世界。

题干:数据库为mysql,数据库名称为db,给定一张article表,其中包含字段keywords,内容为填写的文章关键词且用空格分隔多个关键词。

实现功能:统计所有文章的关键词及其个数,存入数据表中。

功能分析

  1. 读取所有文章的keywords字段,按照空格分隔,统计出现频次。

  2. 创建关键词统计表,将统计结果存入表中。

  3. 实现文章增量记录的读取与处理。

  4. 将python文件打包布置到服务器上,定时执行。


在项目开始之前,确保python开发环境已经装好,如何安装在此就不赘述。本人使用的是python2.7,win7系统,所有的代码以python2.7为例。

下面,将一步步的介绍如何实现上面设定的小功能。

读取Mysql数据库

第一步需要连接mysql,并读取article表中的keywords字段,为后续操作做准备。

Python操作mysql数据库用到的是MySQLdb包,使用命令pip install MySQLdb即可。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

数据库连接成功后,读取article表,就要用到cursor.execute函数,并设置异常处理。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    print count
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

cursor.execute函数得到是返回记录个数。
如果返回有记录,则处理keywords 字段的数据,并统计词频。思路是,定义一个空的字典{}用于存放统计结果;遍历记录,通过空格拆分字段,去除空字符后,与字典进行比对,若存在字典中则对应词条频次加1,若不存在则向字典中新增词条频次为1。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    #print count
    if(count>0):
        results = cursor.fetchall() #取出全部数据集
        results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
        ##获取各关键词数目
        kw_list={} #存放词频统计结果的字典
        #遍历数据结果集
        for r_id,row in results:
            last_id = r_id #记录依次赋值,直到最后一条记录id
            kw_str = ('%s' % row) #字段转成字符类型
            kw_str = kw_str.strip() #去除文本前后空格
            if(kw_str!=''):
                kw_arr = kw_str.split(' ')
                for kw in kw_arr:
                    kw = kw.strip()
                    if (kw!=''):
                        if (kw_list.has_key(kw)):
                            kw_list[kw] = kw_list[kw] + 1
                        else:
                            kw_list[kw] = 1

    print kw_list
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

打印kw_list即可看到计算出的关键词频次统计。其中,results = list(results)这句非常重要,python从数据库中取出的数据是元组,通过list()函数转换成列表之后即可执行遍历操作。中文关键词字段处理时,总是报编码错误,加上kw_str = ('%s' % row)语句将字段转成字符类型即可。
至此,文章关键词的频次统计功能完成了,需要将统计结果存入数据表中。


操作Mysql数据库

设计关键词统计表article_keyword表,表结构如下图所示。


article_keyword表结构.png

统计结果写入表中,会出现两种情况,一种是表中存在的词,直接累加更新频次即可;另一种是不存在的词,则需要新增词。
为了规避每循环一次就执行一次更新或者新增的数据库操作,提升数据库访问性能,采用批量执行的方式。具体代码实现如下所示:

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    #print count
    if(count>0):
        results = cursor.fetchall() #取出全部数据集
        results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
        ##获取各关键词数目
        kw_list={} #存放词频统计结果的字典
        #遍历数据结果集
        for r_id,row in results:
            last_id = r_id #记录依次赋值,直到最后一条记录id
            kw_str = ('%s' % row) #字段转成字符类型
            kw_str = kw_str.strip() #去除文本前后空格
            if(kw_str!=''):
                kw_arr = kw_str.split(' ')
                for kw in kw_arr:
                    kw = kw.strip()
                    if (kw!=''):
                        if (kw_list.has_key(kw)):
                            kw_list[kw] = kw_list[kw] + 1
                        else:
                            kw_list[kw] = 1
    #print kw_list

    ##结果写入关键词统计表中
    update_values = [] ##update的值
    insert_values = [] ##insert的值
    for key,value in kw_list.items():
        kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
        if(kw_count>0): #表中存在当前词
            update_values.append((key,int(value)))              
        else:       #表中不存在当前词
            insert_values.append((key,int(value)))     
                    
    #执行批量更新语句
    if (len(update_values)>0):
        sub_str = ''
        sub_str_in = ''
        for k,v in update_values:
            sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
            sub_str_in += "'"+k+"',"

        sub_str_in = sub_str_in.strip(',')
        sub_str_in = '(' + sub_str_in + ')'
        sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
        #原始数量+本次计算数量
        cursor.execute(sql_update)
                        
    #执行批量插入语句
    if (len(insert_values)>0):
        cursor.executemany('insert into zk_article_keyword(name,count) values(%s,%s)', insert_values)
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

本文使用mysql 自带的语句构建批量更新,实例如下:

UPDATE tablename
    SET field = CASE id 
        WHEN 1 THEN 3 
        WHEN 2 THEN 4 
        WHEN 3 THEN 5 
    END
WHERE id IN (1,2,3)

意思是,更新tablename表中的field 字段,当id=1时field =3;当id=2时field =4;当id=3时field =5。
MySQLdb提供了executemany函数执行数据库批量插入操作。
至此,实现了关键词统计结果批量写入数据库中的功能。


分页处理大数据量

以上的操作是一次性读取所有文章并循环处理记录。如果数据量较大,一次性读取的记录太多,会极大影响执行效率,甚至产生内存错误。
为了规避这类错误的发生,采用分页处理的方式,设定每次处理的记录数量,并记录最后一个读取到的记录ID,直至数据读取完成。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  
import random,time

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

##处理数据
number = 20 #设置每次处理的记录条数
last_id = 0 #每次循环的最后一个处理记录ID 
try: 
    table_name = 'article'
    while True:
        if (last_id>0):
            sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
        elif(last_id==0):
            #从第一个记录开始执行
            sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)

        count = cursor.execute(sql)
        if(count>0):
            results = cursor.fetchall() #取出全部数据集
            results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
            ##获取各关键词数目
            kw_list={} #存放词频统计结果的字典
            #遍历数据结果集
            for r_id,row in results:
                last_id = r_id #记录依次赋值,直到最后一条记录id
                kw_str = ('%s' % row) #字段转成字符类型
                kw_str = kw_str.strip() #去除文本前后空格
                if(kw_str!=''):
                    kw_arr = kw_str.split(' ')
                    for kw in kw_arr:
                        kw = kw.strip()
                        if (kw!=''):
                            if (kw_list.has_key(kw)):
                                kw_list[kw] = kw_list[kw] + 1
                            else:
                                kw_list[kw] = 1

            #print kw_list

            ##结果写入关键词统计表中
            update_values = [] ##update的值
            insert_values = [] ##insert的值
            for key,value in kw_list.items():
                kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
                if(kw_count>0):
                    update_values.append((key,int(value)))              
                else:       
                    insert_values.append((key,int(value)))     
                            
            #执行批量更新语句
            if (len(update_values)>0):
                sub_str = ''
                sub_str_in = ''
                for k,v in update_values:
                    sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
                    sub_str_in += "'"+k+"',"

                sub_str_in = sub_str_in.strip(',')
                sub_str_in = '(' + sub_str_in + ')'
                sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
                #print sql_update
                #原始数量+本次计算数量
                cursor.execute(sql_update)
                                
            #执行批量插入语句
            if (len(insert_values)>0):
                cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
        else:
            break #跳出while循环
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

设置每次读取记录数number,并记录每次循环处理的最后一个记录ID(last_id),使用while循环来读取、处理数据,直到没有数据则跳出循环。


定时执行增量数据

以上实现了对article表中所有记录的分页读取与批量处理,但在实际作业中,article表中的记录是会不断新增的,不可能每次都对全部记录执行操作,因此需要在每次执行程序后记录最后一个记录的ID,下次执行程序前读取文章ID,从该记录之后读取数据。
解决此问题的方式,我采用了通过一个txt文件记录文章ID,文件名为bak.txt,初识值为0,每次程序执行先读取该文件记录的ID,程序执行完后将处理的最后一篇文章的ID放入文件中。这里就包含了python对txt文件的读取和写入功能,具体代码如下所示:

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  
import random,time

##读取bak.txt文件中记录的ID
txt_id = 0 #文件中记录的ID
file_obj = open('bak.txt')
try:
    txt_id = file_obj.read()    
finally:
    file_obj.close()

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

##处理数据
number = 20 #设置每次处理的记录条数
last_id = int(txt_id) #每次循环的最后一个处理记录ID 
try: 
    table_name = 'article'
    while True:
        if (last_id>0):
            sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
        elif(last_id==0):
            #从第一个记录开始执行
            sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)

        count = cursor.execute(sql)
        if(count>0):
            results = cursor.fetchall() #取出全部数据集
            results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
            ##获取各关键词数目
            kw_list={} #存放词频统计结果的字典
            #遍历数据结果集
            for r_id,row in results:
                last_id = r_id #记录依次赋值,直到最后一条记录id
                kw_str = ('%s' % row) #字段转成字符类型
                kw_str = kw_str.strip() #去除文本前后空格
                if(kw_str!=''):
                    kw_arr = kw_str.split(' ')
                    for kw in kw_arr:
                        kw = kw.strip()
                        if (kw!=''):
                            if (kw_list.has_key(kw)):
                                kw_list[kw] = kw_list[kw] + 1
                            else:
                                kw_list[kw] = 1

            #print kw_list

            ##结果写入关键词统计表中
            update_values = [] ##update的值
            insert_values = [] ##insert的值
            for key,value in kw_list.items():
                kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
                if(kw_count>0):
                    update_values.append((key,int(value)))              
                else:       
                    insert_values.append((key,int(value)))     
                            
            #执行批量更新语句
            if (len(update_values)>0):
                sub_str = ''
                sub_str_in = ''
                for k,v in update_values:
                    sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
                    sub_str_in += "'"+k+"',"

                sub_str_in = sub_str_in.strip(',')
                sub_str_in = '(' + sub_str_in + ')'
                sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
                #print sql_update
                #原始数量+本次计算数量
                cursor.execute(sql_update)
                                
            #执行批量插入语句
            if (len(insert_values)>0):
                cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
        else:
            break #跳出while循环
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

##获取处理完的最后一条记录ID,写入文件中
file_obj = open('bak.txt', 'w')
file_obj.writelines(str(last_id))
file_obj.close( )

需要注意的是last_id 的初始值不再是0,需要改成从txt文件中读取的文章ID即last_id = int(txt_id)
另,python对于数据类型要求很严格,字符串的连接必须要先强制转换成字符型,数值类型亦然。
至此,所有的代码书写完成。


Python文件打包成exe

写完python脚本以后,需要在IDLE运行才能执行程序,而文章可能每天都会更新,因此需要脚本能够定期自动运行,所以考虑将python脚本打包成exe文件,设置成定时任务。
Python文件打包成exe有两种工具:py2exe和pyInstaller,根据网友推荐选择pyInstaller进行python文件打包。步骤如下所示:

  • 官网下载pyInstaller,解压到任意文件夹下。本人下载的版本是PyInstaller-3.2.1,解压到D盘。
  • 在pyInstaller文件目录下,点击(Shift+鼠标右键)在弹出菜单栏中选择“在此处打开命令窗口”。在命令窗口中输入setup.py install进行安装。
  • 若安装报错,则还需要安装PyWin32,输入import win32com若不报错则表示安装成功。
  • 在命令窗口输入pyinstaller.py -F D:/PyRoot/getkws.py,执行完成后在pyInstaller目录下生成了名字为python文件名的文件夹getkws,打开后看到如下内容。
    Python文件打包成exe.png
  • 打开dist文件夹,即可看到生成好的getkws.exe文件。

exe文件生成成功后,在系统自带的系统工具-任务计划程序中“创建基本任务”,选择执行文件并设置定时间隔,设定完成后即可。
至此,使用Python实现文章关键词分割、统计的功能就全部实现了。


本文通过一个简单的需求,运用python语言一步步的介绍了功能的解决思路和python的编程写法,其中遇到了很多的坑,例如中文乱码、字符串连接、批量修改、文件打包等。有问题的出现才会激发解决问题的冲动,不懂的就去百度谷歌,一个个的解决、实现、最终完成,很有成就感。虽然这只是一个小小的功能,代码的书写也比较基础,却也明白了python整个开发流程和部署,算是对本人python入门项目的一次梳理。

相关文章

  • 初识Python:通过实践来学习

    通常一门语言的学习都是由学习语法开始的,而本人在学习的过程中发现语法是很容易忘记的,即使学习完了假如不使用的话还是...

  • 正则表达式

    Python正则表达式初识(一) Python正则表达式初识(二) Python正则表达式初识(三) Python...

  • Head_First_Python

    第一章节 初识Python 一.使用IDLE来帮助学习Python 1.Tab键 Tab键会提供一些建议。 2.回...

  • 量化金融-python基础

        从上一篇文章量化金融-初识python 中我们已经了解如何开展python,下面我们开始学习python的...

  • Python学习(一)初识Python

    Python简介 Python是脚本语言,语法简洁清晰,重在逻辑而不是语法。正因为如此,Python才会被称为最适...

  • 【Python学习笔记】初识Python

    人工智能正在悄然地改变我们的生活方式,传统行业纷纷转型,科幻电影的一幕幕正在变成现实。 随着技术的变革,人类简单重...

  • 色即是空-Python疯狂爬虫-煎蛋美女图

    目标: 抓取煎蛋美女图片,通过实践熟悉python相关模块及字典的应用。 声明:本程序仅用于交流学习研究,请勿频繁...

  • 简单易懂的React魔法:序章 Q&A

    我将学到什么? 本书通过实践项目来学习React, React Router, Jest,Webpack, ES6...

  • python入门引导(一·初识)

    初识python python,当今十大热门语言之一,更是机器学习的领先者 python于1989年,由荷兰人Gu...

  • Python学习笔记(一)初识Python

    注意:本文是《Head First Python》学习笔记。欢迎关注我的 简书 。 Python术语 BIF -...

网友评论

      本文标题:初识Python:通过实践来学习

      本文链接:https://www.haomeiwen.com/subject/rpzfnttx.html