整理工作多年涉猎的技术与积累。
评价体系(递进):
★ 了解基本原理 。
★★ 用过,知道基本调优。
★★★ 有项目经验,成体系的使用+调优+排错流程。
★★★★ 了解代码框架,有阅读源码,熟悉API,看过不少PPT。
★★★★★ 熟悉。能在源码级修改/优化。丰富的使用和调优以及处理问题经验。
编程语言
1. java 2014-至今 ★★★
2. c/c++ 2014 ★★
3. scala 2016-至今 ★★★★
4. python 2018 ★★
数据库/组件
1. impala:CDH推出的MPP 2014.03-2014.09 ★★★
2. mdss:基于Lucene的存储检索系统 2014.09-2016.08 ★★★★★
3. spark:分布式计算框架 2016.09-至今 ★★★★★
4. greenplum/hawq:MPP数据库 2015.06-2016.09 ★★★
5. hive:HDFS数据仓库2015-至今 ★★★
6. hbase/phoenix :HDFS的宽表KV技术 2018-至今 ★★★
7. elasticsearch:全文检索数据库 2017.02-至今 ★★★★
8. 图数据库/janusgraph/hugegraph/gremlin/dgraph:分布式图数据库 插件化的存储引擎和索引提速引擎 2019.10 -至今 ★★
9. flink : 流计算和分布式计算框架 2020.09 至今 ★★★★
10. presto/(与华为的openLookeng):ad-hoc查询工具2020.10 至今 ★★★
11.京东开源的chubao分布式文件系统:ops超越ceph 2020.10 ★★
12. 一些文件格式+索引底层研究:ORC、稀疏索引、Zorder、carbondata 2021 至今 ★★
大数据/组件
1. hadoop/yarn/zk/hdfs:大数据基础组件 2015-至今 ★★★
2. hadoop权限体系/kerberos:权限和身份认证系统 2018 ★★★
3. hue:CDH推出的大数据可视化工作站 2018 ★★★
4. cdh:大数据平台 2015-至今 ★★★★
5. hdp:大数据平台 2018 ★★
6. kylin:基于hbase+hive/spark,预聚合方式提速的olap业务引擎 2019.07 ★★
7. prometheus+grafana:时序数据库,标签+值的方式存储。可视化。 2018.04 ★★★
8. TDengine:涛思数据库,轻量高效的时序数据库,存储设计值得借鉴。2019.08 ★★
中间件/底层技术
1. lucene:全文检索技术原理 2014.07-2015.08 ★★★
2. kafka:分布式高吞吐消息队列 2018-至今 ★★★
3. jvm/gc/调试技术:底层技术 2017-至今 ★★★
4. openstack:虚拟化、云计算框架 2019.07 ★★
5. ceph/ceph对象存储/ceph文件系统:去中心的统一分布式存储服务 2019.05 ★★★
6. docker:容器技术 2018.03 ★★
7. mysql/redis/rocksdb等:大众轻量小型数据库 2015-至今 ★★★
8. haproxy:http负载均衡、高可用、反向代理轻量库 2018.04 ★★
9. jetty/jersey:轻量http容器 + REST框架 2018 ★★
10. 数据库底层技术:索引、压缩、行列存储、查询规划、分布式mpp计算等 2015-至今 ★★
11. 大数据领域常见 rpc/序列化框架 thrift、protobuf、avro等 2015-至今 ★★
12. ignite :分布式缓存/内存网格/分布式队列/。。用途广泛的中间件 202108 ★★★
13. java轻量缓存技术: ehcache/guava 202108 ★★★
其他工具链
1. linux系统/shell/centos:通用基础技能 2014.06-至今 ★★★
2. maven :依赖管理框架 2016-至今 ★★★
3. git :代码管理和协作工具 2017-至今 ★★★
4.
了解未深入
1. carbondata:hdfs + 索引的方案 2017 ★
2. cuda编程/gpu:简单任务的超多核并行 2017 ★
3. clickhouse 2019.03 ★★★,2021-至今
4. 机器学习、深度学习 2018 ★
5. RedisGraph 2020.05 ★
6. Spring/nodejs/vue 2020 ★

网友评论