用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了

作者: 919b0c54458f | 来源:发表于2018-11-20 14:38 被阅读4次

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了
年薪百万的概率，比猝死还低
最值得做得就是，追随内心的兴趣
自媒体阅读量低，收益低，2018年是否还应该坚持？
说说焦虑
开了公众号不知道写什么？这个方法帮你解决问题
不逼自己，我会收获些什么？
熬夜5个小时写的严肃内容没人看？让你的文章登上人民日报
约稿函
【自媒体】7天让你通过自媒体赚钱，“稳赚不赔”的那种！

但是，有些作者发表的文章充斥着色情与暴力，一旦被青少年看到，会产生难以想象的后果。我们需要对网络上的文章进行检测，以标记出其是否为色情文章，如果是，那么我们就要将其过滤不予显示。而人工检测在信息爆炸的今天几乎不可能实现。所以，我们提出了基于神经网络的色情文章检测。

具体的模型工作原理可以参考我翻译的一个关于NLP中CNN研究的博文。

进群：548377875 即可获取数十套PDF以及大量的学习教程！源码也是有的哦！

据处理

因为色情文章中往往会有较多的标点符号，而且网络小说中也会有各种乱码存在，对我们提取特征造成困难。所以，我们先把文章中的特殊字符与标点符号去掉。

然后，我们考虑到一篇小说可能会有上万字甚至更多。而文本卷积神经网络要求所有输入数据有一个统一的长度，如此长的数据对计算压力要求太高。而且如此长的数据对于模型来说没有很大意义。

考虑到一篇文章内，往往中间部分的内容比较能够代表本篇文章的主旨，所以我们数据的选取方式如下所示：

如果文章大于3000个词，则选取中间的1500个词；

如果文章小于3000个词，但是大于1500个词，则选取最后1500个词；

如果文章不大于1500个词，则利用特殊符号补全到1500个词。

我们的数据是中文数据，不像英文单词可以利用空格进行区分单词。我们使用的 jieba 库对文章进行分词。

将选取好的数据转换成数字后，文章数据如图所示：

模型

中conv1的卷积核大小为2，也就是对嵌入矩阵的相邻两行进行卷积计算，conv2的卷积核大小为3，conv3的卷积核大小为4，conv4的卷积核大小为5。每个卷积的维度为2，也就是有两个大小相同的卷积核进行卷积。经过卷积之后生成了两个1499*1向量，两个1498*1向量，两个1497*1向量，两个1496*1向量。

在池化层对8个向量进行最大池化，分别从每个卷积提取出1个特征值。将8个特征值拼接成一个8*1维向量，至此，我们就把文章中的特征提取出来了。

最后，我们将提取出来的特征送入softmax层进行分类，获得最终结果。

神经网络具体工作流程见翻译的博文。

训练

参数设置

batch_size = 16

循环次数 = 3

学习率 = 0.005

嵌入矩阵维度 = 32

交叉验证机与测试集选取

我们选取2000条数据作为测试集，剩余数据作为训练集。

然后在每次训练循环中随机抽取剩余数据的10%作为交叉验证集。

Accurate变化

可以看出，在训练稳定之后，训练集上的准确率保持在90%以上，平均准确率在98%以上。

在交叉验证集和测试集的平均准确率也在98%以上。

github地址：https://github.com/yudake/porn_fiction_classify

相关文章

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了
但是，有些作者发表的文章充斥着色情与暴力，一旦被青少年看到，会产生难以想象的后果。我们需要对网络上的文章进行检测，...
年薪百万的概率，比猝死还低
年薪百万的概率，比猝死还低。不要让别人的成功，给自己带来焦虑。很多人看到网上各种年薪百万的人、月薪过万的自媒体...
最值得做得就是，追随内心的兴趣
最近看了自媒体大咖剽悍一只猫写的一篇文章，文章总结了自己的坚持的10个习惯，成功的让自己从失业到达了年薪百万。第...
自媒体阅读量低，收益低，2018年是否还应该坚持？
2017年有人在自媒体这个领域赚到了钱有月入上万的，甚至年薪百万的有月入上千的，而年薪只有几万的而我自媒体领...
说说焦虑
网络时代真的很容易焦虑，刷着短视频，羡慕年薪百万的博主；看着文章，羡慕自由职业的自媒体人。放下手机，想起自...
开了公众号不知道写什么？这个方法帮你解决问题
随着自媒体大军月入十万，年入百万的宣传，大家前赴后继的往自媒体方向涌去。或许你开今天开了公众号，写了篇文章，明天...
不逼自己，我会收获些什么？
随着某乎人均年薪百万，某抖博主自媒体创业买房等各大平台对薪资、行业收入的夸大其词，大肆渲染，我也陷入间歇性的焦虑中...
熬夜5个小时写的严肃内容没人看？让你的文章登上人民日报
熬夜通宵写了5个小时的科技文章没人看？用思维导图构思了3个小时，深度思考的3000字文章没人看？作为自媒体人，...
约稿函
《读物杂志》是高校文学联盟旗下出版的互联网杂志。杂志文章主要投放于联盟旗下各大自媒体平台。读物杂志约稿函稿件要...
【自媒体】7天让你通过自媒体赚钱，“稳赚不赔”的那种！
想进一步了解自媒体的请加我V：yaha23333 手把手教学免费送自媒体资料和工具 “什么样的人能做到年薪百万？...

网友评论

Python新世界

本文标题：用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了

本文链接：https://www.haomeiwen.com/subject/syfxqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Python新世界

热点阅读

Python新世界

关于我们|服务条款|联系我们|用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！