周末了,大段长篇技术文不发了,知道没人愿意看,但是学习不能落下,毕竟我的心里只有学习
这里分享一个自然语言处理中对中文分词支持比较好的结巴分词库,属于NLP中的重量级分词库,我们通过下面有趣的解绕口令来学习这个库能的基本用法
本文如题所说,用python来解绕口令,先来五组绕口令,自己试验下,看大概怎么断句,有没有晕了
["今天下雨,我骑车差点摔倒,好在我一把把把把住了!",
"来到杨过曾经生活的地方,小龙女动情的说,我也想过过过儿过过的生活,",
"多亏跑了两步,差点没上上上海的车",
"用毒毒毒蛇会不会被毒毒死",
"校长说:校服上除了校徽别别别的,让你们别别别的别别别的你非得别别的!"]
下面看用python来解绕口令,用到jieba库和pandas库
jieba库用来切词,jieba.cut()方法
join方法将列表中逗号替换成空格,并转成字符串
pandas转成dataframe二维数据结构,直观看数据结构和数据处理分析
# 分词
res = [list(jieba.cut(i)) for i in a]
print(res)
[['今天', '下雨', ',', '我', '骑车', '差点', '摔倒', ',', '好', '在', '我', '一把', '把', '把', '把住', '了', '!'],
['来到', '杨过', '曾经', '生活', '的', '地方', ',', '小龙女', '动情', '的', '说', ',', '我', '也', '想', '过', '过', '过儿', '过过', '的', '生活'],
['多亏', '跑', '了', '两步', ',', '差点', '没上', '上', '上海', '的', '车'],
['用毒毒', '毒蛇', '会', '不会', '被', '毒', '毒死'],
['校长', '说', ':', '校服', '上', '除了', '校徽', '别别', '别的', ',', '让', '你们', '别别', '别的', '别别', '别的', '你', '非得', '别', '别的', '!']]
为了整齐些,把列表类型转换成Dataframe二维数据类型,更直观
res = [" ".join(i) for i in res]
print(res)
df = pd.DataFrame(res)
print(df)
['今天 下雨 , 我 骑车 差点 摔倒 , 好 在 我 一把 把 把 把住 了 !', '来到 杨过 曾经 生活 的 地方 , 小龙女 动情 的 说 , 我 也 想 过 过 过儿 过过 的 生活 ,', '多亏 跑 了 两步 , 差点 没上 上 上海 的 车', '用毒毒 毒蛇 会 不会 被 毒 毒死', '校长 说 : 校服 上 除了 校徽 别别 别的 , 让 你们 别别 别的 别别 别的 你 非得 别 别的 !']
0
0 今天 下雨 , 我 骑车 差点 摔倒 , 好 在 我 一把 把 把 把住 了 !
1 来到 杨过 曾经 生活 的 地方 , 小龙女 动情 的 说 , 我 也 想 过 过 过儿 过过 的 生活 ,
2 多亏 跑 了 两步 , 差点 没上 上 上海 的 车
3 用毒毒 毒蛇 会 不会 被 毒 毒死
4 校长 说 : 校服 上 除了 校徽 别别 别的 , 让 你们 别别 别的 别别 别的 你 非得 别 别的 !
整体看下来,结果除了过过和用毒毒两个地方有误,其他都被完美解开,是不是很棒,有兴趣动手试试吧!
网友评论