Pandas完成日志统计分析

作者: 刘小白DOER | 来源:发表于2022-01-28 22:57 被阅读0次

    Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,提供了大量能快速便捷地处理数据的函数和方法。最近使用pandas将一些运维日志提取出来做一些分析,一是作为工作量分析,优化流程;二是通过日志查看故障率,找到薄弱环节。在前期的实践中,数据告诉你怎么干掉琐事,笔者使用jieba分词和wordcloud词云图来完成日志的云图显示。现在做一些类别统计和关键字统计。

    使用pandas完成csv日志文件读取,并定义一个红色打印输出函数。

df = pd.read_csv('events.csv')

def red_print(string):

    print("\033[0;31;40m{0}\033[0m".format(string))

1、类别统计

  value_counts()函数可以统计Categroy字段的重复个数,然后利用matplotlib绘制bar图。

event_categroy_counts = df.Categroy.value_counts()

red_print("事件类别统计信息:")

print(event_categroy_counts)

names = list(event_categroy_counts.index)

percents = [item/len(df)*100 for item in event_categroy_counts.values]

plt.rcParams['font.sans-serif'] = ['simhei'] 

#plt.figure(dpi=180)

plt.figure(figsize=[11,8])

plt.bar(names,percents,color='green')

plt.ylabel("类别信息百分比(%)", fontproperties='SimHei', rotation=90, size=12)

plt.title("事件类别统计Percent", size=16)

plt.xticks(list(names), rotation=50, size=12)

red_print("生成png文件-事件类别统计信息.png")

plt.savefig("事件类别统计信息.png") 

2、关键字统计

    df.str.contains()函数搜索包含特定字符串的数据,笔者按照"debug_log ","info_log","warning_log","error_log"来进行搜索日志,然后利用matplotlib绘制bar图,实现不同log所需占比例显示。

debug_log = len(df[df.str.contains("debug_log")==True])

info_log= len(df[df.str.contains("info_log")==True])

warning_log= len(df[df.str.contains("warning_log")==True])

error_log= len(df[df.str.contains("error_log")==True])

critical_log= len(df[df.str.contains("critical_log")==True])

names = ["debug_log ","info_log","warning_log","error_log"]

numbers = [debug_log ,info_log,warning_log,error_log]

numbers_percent = [item/len(df)*100 for item in numbers]

plt.rcParams['font.sans-serif'] = ['simhei'] 

plt.figure(figsize=[10,6])

#plt.bar(names,numbers,color='green')

plt.bar(names,numbers_percent,color='green')

plt.ylabel("关键字百分比(%)", fontproperties='SimHei', rotation=90, size=12)

plt.title("关键字统计Percent", size=16)

plt.xticks(list(names), rotation=90, size=12)

red_print("生成png文件-关键字统计bar.png")

plt.savefig("关键字事件统计bar.png") 

相关文章

  • Pandas完成日志统计分析

    Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,提供了大量能快速便捷地处理数据...

  • 8月23日 星期二

    工作日志 所收任务 尝试设计“水污染行动调度系统_统计分析”功能设计 完成情况 基本完成 “统计分析”功能设计 存...

  • 8月24日星期三

    工作日志 所收任务 原型设计“水污染行动调度系统_统计分析” 完成情况 完成统计首页,制作汇总信息看板界面 完成结...

  • 8月29日 星期一

    工作日志 所收任务 更具昨日总结问题,修改“水污染行动调度系统_统计分析”原型 完成情况 完成40%更新,包括 对...

  • 8月30日 星期二

    工作日志 所收任务 更新“水污染行动调度系统_统计分析”原型 完成情况 完成90%更新,包括 各层级页面 交互内容...

  • 8月22日 星期一

    工作日志 所收任务 “科普页面”原型修改 尝试设计“水污染行动调度系统_统计分析”功能设计 完成情况 完成 “科普...

  • 8月26日 星期五

    工作日志 所收任务 原型“水污染行动调度系统_统计分析”更新 完成情况 大体完成,实例内容需要修改完善 存在问题 ...

  • 8月25日 星期四

    工作日志 所收任务 原型设计“水污染行动调度系统_统计分析” 参与环保培训 完成情况 完成60%,剩余内容重复度较...

  • 2019-07-01 python 第三方库相关介绍

    搭建网站:Django ,Flask,web 小游戏:PyGame 爬虫:Scrapy 统计分析:Pandas 在...

  • 8月28日 星期天

    工作日志 所收任务 提交“水污染行动调度系统_统计分析”原型并寻找其中问题 完成情况 问题不少,原型有很多地方需要...

网友评论

    本文标题:Pandas完成日志统计分析

    本文链接:https://www.haomeiwen.com/subject/kufxkrtx.html