美文网首页大数据 爬虫Python AI SqlPython小哥哥
网站采集利用python洗稿!洗稿人太轻松了!

网站采集利用python洗稿!洗稿人太轻松了!

作者: 14e61d025165 | 来源:发表于2019-03-18 15:02 被阅读0次

一直在想怎么能正确高效的处理seo中,采集的文章怎么去伪原创和洗稿。如果是人工操作的话,那就太麻烦了。采集下来的文章不进行伪原创又害怕被飓风算法命中。

欢迎大家加入小编创建的Python行业交流群,有大牛答疑,有资源共享,有企业招人!是一个非常不错的交流基地!群号:683380553

1,tr算法提取摘要再人工重组新的文章。

正好今天发现了python中的textrank4zh库,依赖于jieba、numpy和networkx库,可以通过tr算法进行文章的摘要提取。然后根据摘要再人工洗稿,整合成一篇全新的文章。

测试一篇蚂蜂窝上面的问答,蚂蜂窝问答下面是有很多个答主的内容,通过python爬取所有内容,然后再利用tr算法提取摘要,根据摘要进行重组出一篇新的文章。这样基本上可以成功躲避飓风算法。

先安装依赖库,然后再利用tr4进行摘要提取。

from textrank4zh import TextRank4Keyword, TextRank4Sentence
content = "" # 这里是python采集下来的content html内容text = re.sub('<.*?>','',content)text = re.sub(r'\s','',text)zy = ''tr4s = TextRank4Sentence()tr4s.analyze(text=text, lower=True, source = 'all_filters')# 可修改num值,设置摘要长度。for item in tr4s.get_key_sentences(num=10): zy = zy + item.sentence

2,利用google翻译双向翻译洗稿

之前有接触一个所谓人工智能洗稿的网站小发猫,说的是利用NLP算法进行洗稿,本来我以为洗稿只有同义词替换这个办法。

后来研究了一下小发猫,我首先觉得这个绝对不是利用什么所谓的NLP算法来洗稿,研究了一下发现可能是利用google翻译进行双向翻译,就是先中文翻译英文,然后再拿翻译出来的英文再翻译成中文。

自己也开发了一个这样的伪原创工具,发现其实并不好用。如果不仔细读,这样双向翻译出来的文章还能读,但是仔细读的话。其实语法习惯还有用词根本不准确,甚至有些情况还改变了这句话原有的语义。

相关文章

  • 网站采集利用python洗稿!洗稿人太轻松了!

    一直在想怎么能正确高效的处理seo中,采集的文章怎么去伪原创和洗稿。如果是人工操作的话,那就太麻烦了。采集下来的文...

  • 洗稿人

    “编辑不是作者,不要想着阐述自己的观点。” 这是给我培训时,小曹姐说过的一句话。 那时候她语气,就像每天临近中午1...

  • 02 姥姥在 8.26日总结打卡

    一、今日完成目标: 今天没更新,看到大家都投卢松松了,他们也是洗的稿吗?好厉害,我还没抓住这些项目的 共性,洗稿也...

  • 洗稿

    媒体黑话。将别人的文章改头换面,保持原有的逻辑发出来,即为洗稿。洗稿并不是抄袭,但是本质上与抄袭相同。差评我也在看...

  • “洗稿”

    这两天腾讯针对公众号推出了一个关于整治洗稿的协议,目的是为了打击用伪原创赚取商业利益的公众号。 “天下文章一大抄”...

  • 痛恨洗稿人

    今日又接触了社会的阴暗面,不得不说,着实开了眼界。 洗稿,在我看来与盗窃无异,而竟有人明目张胆的在社交软件上结识好...

  • 写作 | 原创作者如何对抗抄袭和洗稿

    本文关键字:抄袭、洗稿、AI辅助洗稿、反洗稿合议、判断标准、流量文、爆文类型。 读书人的事,能叫偷吗? 以前读书人...

  • “差评”风波反思:要消灭洗稿,还得靠内容平台

    差评“洗稿”风波,闹得沸沸扬扬。 2016年,我就写过一篇文章:《抄袭不可耻,相对于洗稿而言》,对“洗稿”这个内容...

  • 将洗稿“小法庭”进行到底

    不管你是创作者,还是阅读者,相信对于洗稿,都不陌生。 百度上说“洗稿”,是从“洗钱”一词变化而来,“洗稿”大致就是...

  • 比“周冲洗稿”更可恶的是抄袭支持者

    洗稿,是抄袭的变种,是抄袭的升级版。周冲,是典型的洗稿者。至于证据大家网上搜,这里不多说了。我举例说说“洗稿”是啥...

网友评论

    本文标题:网站采集利用python洗稿!洗稿人太轻松了!

    本文链接:https://www.haomeiwen.com/subject/rcovmqtx.html