休息了大半年,想学下nlp,结果一步三折很难进行下去。别给自己找理由,在大脑未完全消失前填点东西吧。
言归正传,在做nlp二分类时,刚开始找不到酒店评论数据,原来没找对地方。
酒店评论数据集
下载地址http://www.idatascience.cn/dataset-detail?table_id=405
在做句子长度时报错:TypeError: countplot() got multiple values for argument 'data'
# 在训练数据中添加新的句子长度列,每个元素的值都是对应的句子的长度
train_data['sentence_length'] = train_data['review'].apply(lambda x: len(x) if isinstance(x, str) else 0)
# 绘制句子长度列的数量分布图
sns.countplot('sentence_length',data=train_data)
plt.xticks([])
plt.show()
image.png
刚开始想是数据类型的不对,查看了下没有任何问题,找了一圈。原来是画图时少了个参数,还没细揪原因,但这步先过去了。
image.png
网友评论