美文网首页机器学习我是程序员Python数据科学
知道这些用于数据科学和机器学习的GitHub存储库和Reddit

知道这些用于数据科学和机器学习的GitHub存储库和Reddit

作者: 阿里云云栖号 | 来源:发表于2018-06-20 13:10 被阅读83次

摘要: 5月最热门的GitHub存储库和顶级Reddit讨论,戳进来~

GitHub和Reddit都是比较有趣的平台,在这里,我不仅学习了数据科学的一些最佳应用,而且还了解数据科学家们是如何编程的。

一直以来,GitHub都是开发人员之间进行协作的终极平台,并且,我们也看到了据科学和机器学习社区以同样的热情来改善它。

而Reddit仍然是一个很好的数据科学领域知识和见解的来源。人们在这个平台上共享代码、数据科学新闻、寻求帮助和意见、发表研究论文等。

这篇文章总结了Reddit平台上5月份的一些关于数据科学的讨论,其中包括数据科学家在未来3年的作用以及有史以来最好的机器学习论文集。在GitHub社区中,英特尔开放了其NLP架构库,微软推出ML.NET以支持Dot Net开发者进行机器学习等。

让我们来看看GitHub上的顶级存储库以及Reddit上个月发生的有趣讨论吧。下面是之前四个月较为流行的GitHub存储库和顶级Reddit讨论(从四月起):

一月

二月

三月

四月

ML.NET

ML.NET是一个开源机器学习框架。不需要任何构建机器学习模型的经验,机器学习和.NET开发人员就可以轻松使用.NET开发自己的模型。这是预发行版本,包含了基本的分类和回归算法。

ML.NET最初由Microsoft创建的,并且已用于各种产品,如Windows,Excel,Access,Bing等。此版本还捆绑了用于各种模型训练任务的.NET API。

NLP Architect

NLP Architect是一个开源Python库,由英特尔实验室的研究人员开发和开源,旨在帮助数据科学家够探索自然语言处理(NLP)和自然语言理解(NLU)领域最先进的深度学习技术。

这个库中我最喜欢的组件之一就是可视化组件,可视化组件很整洁的显示了模型的注释。更多NLP Architect的信息请点击这里

Amazon Scraper

Python包可以让开发人员在亚马逊上搜索和提取产品信息。你需要分析哪些产品,只需使用该包即可,而不再需要编码来确定。只需输入想要搜索的关键字和最大产品数量(可选),就可以输出CSV格式,然后进行分析。

PIGO – Face Detection in Go

Pigo是基于《基于像素强度比较的对象检测》论文、用Go语言开发的人脸检测库。Pigo库的主要特点如下:

1.处理速度快。

2.在检测前不需要做图像预处理。

3.不需要计算积分图像,图像金字塔,HOG金字塔或其他类似的数据结构。

4.人脸检测基于以二进制文件数据树结构编码的像素强度比较

RL-Adventure-2: Policy Gradients

这是所有强化学习(RL)爱好者所喜欢的库。深度学习推动了强化学习编写了一个人工智能机器人以人类专家级技能来玩Atari游戏。 该存储库涵盖了策略梯度算法的新扩展,这是目前解决强化学习问题最受欢迎的默认选择之一。 这些扩展缩短了训练时间、优化了强化学习的整体表现。

Reddit讨论

实时手势姿态估计

这个视频引起了数据科学家和机器学习发烧友的广泛关注,我希望你能看完这个视频,然后你就会很好地了解这项技术是如何实施的。

你会选择哪篇研究论文来证明机器学习是完美的

如果你是一个机器学习菜鸟,又或者是正在寻找一些用来阅读或参考的研究论文,这是一个很好的话题。这个话题中列举了一些优秀的机器学习研究论文,每个数据科学家都将从中受益匪浅。该讨论包括从基本机器学习概念(如高斯模型)到高级概念(如神经艺术风格转换),使用简单功能的增强级联等快速对象检测等论文。这是一个必读话题。

目前,我们对泛化有什么了解? 对于泛化,我们接下来应该提什么问题?

深度学习中的泛化一直都是一个争议不断的话题。正如作者所说的那样,我们仍然需要在不少场景中努力实现泛化。这个话题围绕目前泛化现状进行了深入探讨,以及它为什么在深度和强化学习中很难理解。这个话题帖子很长,如果你是这个领域的菜鸟,对于你来说可能会有点复杂。不过,我建议无论如何都要阅读这个话题,因为这个话题中包含了一些经验丰富和知识渊博的数据科学家的看法。

医疗行业的机器学习状况

该话题专门研究了医疗行业的机器学习现状。医疗领域数据科学家分享了他们工作中的经验和观点。想要查看任何生命科学领域机器学习和深度学习的任何信息,请参阅该话题!

数据科学家3年后潜在的职业发展方向

这是大多数人在进入该领域之前非常关心的一个问题。随着自动化机器学习工具的迅速采用,公司在几年内会需要数据科学家吗?本话题收集了数据科学中不同人员对未来几年内的职业发展方向的看法。想要寻求职业方向的指导,请查看这一话题!

本文作者:【方向】

阅读原文

本文为云栖社区原创内容,未经允许不得转载。

相关文章

  • 知道这些用于数据科学和机器学习的GitHub存储库和Reddit

    摘要:5月最热门的GitHub存储库和顶级Reddit讨论,戳进来~ GitHub和Reddit都是比较有趣的平台...

  • python 3.7安装:Linux(Ubuntu 18.04)

    Linux安装 Anaconda是最受欢迎的python数据科学和机器学习平台,用于大规模数据处理,预测分析和科学...

  • 01-特征抽取

    机器学习的数据 机器学习的文件一般都不存储在数据库中,常以文件形式存储,eg:csv数据库的缺陷:eg:mysql...

  • 2020-08-11数据库基本概念

    数据库的英文单词:Database简称DB 什么是数据库?用于存储和管理数据的仓库 数据库的特点:①持久化存储数据...

  • Arxiv网络科学论文摘要11篇(2020-10-12)

    GitEvolve:预测GitHub存储库的演化; 大规模随机实验揭示了机器学习可以帮助人们更有效地学习和记忆; ...

  • 【TensorFlow】自学笔迹 | TensorFlow介

    Google开源的基于数据流图的科学计算库,适合用于机器学习https://www.tensorflow.org/...

  • Python 资源大全(七)

    目录: 用来进行科学计算和数据分析的库进行数据可视化的库计算机视觉库机器学习库MapReduce 框架和库使用 P...

  • MySQL的基本概念与操作

    数据库的基本概念 1.什么是数据库? 用于存储和管理数据的仓库。 2.数据库的特点: 持久化存储数据的。其实数据库...

  • 数据科学指南

    摘要:本文为学习数据科学的指南,从编程语言、数据库管理、数据收集和整理方法、特征工程、机器学习模型、模型评估方面进...

  • 数据库知识

    1.什么是数据库。 数据库是用于存储和管理数据的集合。数据存储的方式可以有很多,数据库的好处在于提高管理效率。 2...

网友评论

    本文标题:知道这些用于数据科学和机器学习的GitHub存储库和Reddit

    本文链接:https://www.haomeiwen.com/subject/ktatyftx.html