背景 随着公司业务增长,如果每天1000多万笔订单的话,3个月将有约10亿的订单量,之前数据库采用单库单表的形式已...[作者空间]
分享嘉宾 | 王仲远(美团 AILabNLP 中心负责人) 整 理 | 周翔 出 品 | AI科技大本营 作为...[作者空间]
解决方式:创建shell脚本 /opt/datax/job/xxxx.sh crontab -e0 8 * * *...[作者空间]
1. 概述 在scikit-learn中,与逻辑回归有关的主要是这3个类。LogisticRegression, ...[作者空间]
hdfs常用命令: 第一部分:hdfs文件系统命令 第一类:文件路径增删改查系列: hdfs dfs -mkdir...[作者空间]
Pandas官方文档 缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFra...[作者空间]
本次分享将介绍如何在Python中使用Pandas库实现MySQL数据库的读写。首先我们需要了解点ORM方面的...[作者空间]
前言 推荐系统是一个相当火热的研究方向,在工业界和学术界都得到了大家的广泛关注。希望通过此文,总结一些关于推荐系统...[作者空间]
0.前言 二月份上旬参加了一个关于景区评分预测的竞赛,即根据游客对某景区的评论,预测该游客给该景区打几分。比赛还在...[作者空间]
hive性能优化 一、Map阶段的优化: (控制hive任务中的map数,确定合适的map数,以及每个map处理合...[作者空间]
Hadoop1.x:Hadoop 的两大核心组件 HDFS 的NameNode 和 JobTracker 都存在着...[作者空间]
客户端执行任务。 Client请求Resource Manager获取一个Application Master实例...[作者空间]
HDFS副本存放策略: 第一个副本,在客户端相同的节点(如果客户端是集群外的一台机器,就随机选节点,但是系统会避免...[作者空间]
core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml...[作者空间]
shuffle过程: map task: 1.首先每个输入分片(input split)会让一个map任务处理。默...[作者空间]
scala 版本 python版本 java版本 spark Examples[作者空间]
一、宽依赖与窄依赖 宽依赖(Wide or shffle Dependencies)和窄依赖(Narrow Dep...[作者空间]
Flume Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的日志收集系统,...[作者空间]
一 . kafka 快速安装使用 1.1 下载kafka 地址 1.2 开启服务 启动ZooKeeper(如果没有...[作者空间]
flume 使用 kafka作为 sink ,exec 执行命令作为source 1.1 安装kafka和flum...[作者空间]