美文网首页红红火火恍恍惚惚
GitHub关于数据科学的六个强大的机器学习开源库

GitHub关于数据科学的六个强大的机器学习开源库

作者: 人工智能遇见磐创 | 来源:发表于2019-07-17 11:09 被阅读64次

介绍

您是否有时侯觉得机器学习内容太广泛而无法紧跟脚步?当然会有这种感觉。下面是去年自然语言处理(NLP)的主要发展方向:

  • Google’s BERT
  • OpenAI’s GPT-2
  • Google’s Transformer-XL

流行的机器学习GitHub存储库

XLNet:The Next Big NLP Framework

https://github.com/zihangdai/xlnet

我们首先从NLP开始。它是目前机器学习领域最热门的领域。如果你认为2018年是重要的一年(确实是这样),那么2019年就更进一步了。

目前最先进的NLP框架是XLNet。它已经风靡NLP和机器学习社区。XLNet的核心是Transformer-XL。开发人员已经发布了一个预训练模型帮助您开始使用XLNet。

到目前为止,XLNet在20个NLP任务上的表现优于谷歌的BERT,并在18个类似任务中取得了优异成绩。下面是一些流行NLP基准测试的结果:

Model RACE accuracy SQuAD1.1 EM SQuAD2.0 EM

Model RACE accuracy SQuAD1.1 EM SQuAD2.0 EM
BERT 72.0 84.1 78.98
XLNet 81.75 88.95 86.12

下面是文本分类结果:

Model IMDB Yelp-2 Yelp-5 DBpedia Amazon-2 Amazon-5
BERT 4.51 1.89 29.32 0.64 2.63 34.17
XLNet 3.79 1.55 27.80 0.62 2.40 32.26

XLNet确实是一个非常好的模型。你可以在这里阅读完整的论文。

XLNet的PyTorch实现

https://github.com/graykode/xlnet-Pytorch

你想知道怎样实现XLNet吗?不要犹豫,这个存储库可以让你立即实现。

如果您很熟悉NLP的特点,那么理解起来就非常容易。但是,如果您刚熟悉这个领域,请花一些时间阅读上面的论文然后进行尝试。

开发人员在Google Colab中提供了完整的代码,所以您可以免费使用它的GPU资源!这是一个你绝对不能错过的框架。

Google Research Football - 独特的强化学习环境

https://github.com/google-research/football

我是一个足球迷,所以这个存储库的标题引起了我的注意。谷歌的研究和足球,他们有什么关系吗?

好吧,这个“存储库包含一个基于开源游戏Gameplay Football的强化学习环境”。这个环境是专为Google Research团队的研究目的而创建。下面是环境中生成的一些场景:

代理人经过训练,可以在基于物理的3D模拟器中进行足球比赛。在过去的几年里,我已经看到了一些强化学习环境,但是这个环境可以解决问题。

如果你是一个足球或强化学习爱好者(或两者兼而有之!)可以阅读它的论文

CRAFT文本检测实现

https://github.com/clovaai/CRAFT-pytorch

这是一个诱人的想法。CRAFT代表文本检测的字符区域意识。如果您对计算机视觉感兴趣,那就应该阅读它的论文。看下面的图:

你想知道算法是怎样实现的吗?CRAFT通过检测图像中每个字符来检测文本区域。文本的边界框呢?这是通过简单的在二元图上找到最小边界的矩形而获得的。

如果你熟悉对象检测的概念,你会很快掌握CRAFT。这个存储库包含了预训练模型,因此您不需要重新编写代码。

你可以在论文中找到更多的细节和解释。

MMAction - 视频动作开源工具箱

https://github.com/open-mmlab/mmaction

您曾经编辑过视频吗?这是一个非常具有挑战性但也很有益的经历。想象一下我们可以从视频中做的大量事情并从视频中提取。

如何理解在特定视频帧中执行的操作?这就是MMAction存储库的功能。它是一个“基于PyTorch的动作理解的开源工具箱”。根据存储库,MMAction可以执行以下任务:

  • 修剪视频中的动作识别
  • 未修剪视频中的时间动作检测(也称为动作定位)
  • 未修剪视频中的空间动作检测

MMAction的开发人员还提供了处理不同类型视频数据集的工具。存储库包含了一些常规的步骤,可以帮助您启动和运行它。

MMAction入门指南

TRAINS - AI的自动实验管理和版本控制

https://github.com/allegroai/trains

数据科学家技能中最重要但又容被忽视的是软件工程。这是工作的重要组成部分。了解如何构建模型非常重要,但了解项目软件方面同样重要。

TRAINS“记录并管理大量的深度学习研究工作,并且几乎没有集成成本”。

关于TRAINS(还有其他)的最好的部分是它免费并且开源。您只需两行代码即可将TRAINS完全集成到您的环境中。它目前与PyTorch,TensorFlow和Keras集成,并且还支持Jupyter notebooks。

开发人员设置了一个演示服务器。您可以在那里使用TRAINS测试您的代码。

结束语

我这个月的选择肯定是XLNet。它为NLP科学家们提供了无限的机会。只需要注意一点,它需要强大的计算能力。

在相关领域中,NLP刚刚开始。但是它正以惊人的速度发展,我可以很容易地预测今年会有更多的事情发生。如果您还没有开始了解,请尽快学习它。

相关文章

网友评论

    本文标题:GitHub关于数据科学的六个强大的机器学习开源库

    本文链接:https://www.haomeiwen.com/subject/igxqlctx.html