ZooKeeper服务命令 启动ZK服务: sh bin/zkServer.sh start查看ZK服务状态: s...[作者空间]
主要用来理解yarn如何运行 1.4 源代码目录结构 bin 基本脚本 etc 配置信息 include 编程库头...[作者空间]
第五章 数据处理与执行 5.3 RDD转换与DGA 数据处理模型RDD 数据机构, 可控制数据存储位置, 提供操作...[作者空间]
记录遇到过的Spark各种错误 1. Too many open files linux 中 一切皆文件, Too...[作者空间]
分类指标 1.混淆矩阵 混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。 具体评价...[作者空间]
之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然...[作者空间]
使用场景 web请求日志 对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判...[作者空间]
梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降[作者空间]
目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录声明, 由于spark发展日新...[作者空间]
1.KNN介绍 k临近算法 也叫Knn 是一种基于样本的模型,当K取值为1时算法原理是 对于新的实例, 在训练集中...[作者空间]
连续值处理 西瓜书的例子 Temperature: 40 48 60 72 80 90 PlayTennis: N...[作者空间]
欧式距离 曼哈顿距离 切比雪夫距离 余弦夹角 线性回归 (欧氏距离) scipy sigmode 函数 numpy...[作者空间]
title: spark 使用ml步骤date: 2017-9-28 13:21:16tags: [spark,机...[作者空间]
以wordcount 为例子, 展示在hdp平台上使用mapreduce 1. 上传数据到HDFS 上传一个文本文...[作者空间]
celery 分布式任务队列工具 Celery是一个分布式任务队列工具,是一个异步的任务队列基于分布式消息传递 基...[作者空间]
局部敏感哈希(LSH) 文本相识度 计算文档文本相识度 主要方法 欧氏距离 编辑距离 余弦距离 Jaccard 距...[作者空间]
拖拽式机器学习框架 中科院开源图形化机器学习系统Easy ML 总结起来,Easy ML 的优势主要有三点: 降低...[作者空间]
环境: idea 2017 maven 4.0 hive 1.2.1.2.6 win10 创建maven项目 等...[作者空间]
ELK数据分析工具学习 ElasticSearch参考手册,学习http://elasticsearch.cn/b...[作者空间]