云原生人工智能CNAI
这份报告详尽地探讨了将云原生技术与人工智能融合的当前状态、面临的挑战、以及未来的发展方向。
深入解读:
什么是云原生 AI?
云原生 AI 指的是利用云原生技术原则来构建和部署人工智能应用和工作负载的方法。这包括利用微服务、容器化、声明式 API 和持续集成/持续部署(CI/CD)等云原生技术来增强 AI 应用的可扩展性、可复用性和可操作性。
下图是云原生AI架构
云原生 AI 的发展路径
白皮书中提出了几条云原生 AI 的发展路径,包括改进资源调度算法以更好地支持 AI 负载、开发新的服务网格技术以提高 AI 应用的性能和安全性,以及通过开源项目和社区合作来推动云原生 AI 技术的创新和标准化。
General Orchestration
- Kubernetes
- Volcano
- Armada
- Kuberay
- Nvidia NeMo
- Yunikorn
- Kueue
- Flame
Distributed Training
- Kubeflow Training Operator
- Pytorch DDP
- TensorFlow Distributed
- Open MPI
- DeepSpeed
- Megatron
- Horovod
- Apla
- …
ML Serving
- Kserve
- Seldon
- VLLM
- TGT
- Skypilot
- …
CI/CD - Delivery
- Kubeflow Pipelines
- Mlflow
- TFX
- BentoML
- MLRun
- …
Data Science
- Jupyter
- Kubeflow Notebooks
- PyTorch
- TensorFlow
- Apache Zeppelin
- …
Workload Observability
- Prometheus
- Influxdb
- Grafana
- Weights and Biases (wandb)
- OpenTelemetry
- …
AutoML
- Hyperopt
- Optuna
- Kubeflow Katib
- NNI
- …
Governance & Policy
- Kyverno
- Kyverno-JSON
- OPA/Gatekeeper
- StackRox Minder
- …
Data Architecture
- ClickHouse
- Apache Pinot
- Apache Druid
- Cassandra
- ScyllaDB
- Hadoop HDFS
- Apache HBase
- Presto
- Trino
- Apache Spark
- Apache Flink
- Kafka
- Pulsar
- Fluid
- Memcached
- Redis
- Alluxio
- Apache Superset
- …
Vector Databases
- Milvus
- Chroma
- Weaviate
- Quadrant
- Pinecone
- Extensions
- Redis
- Postgres SQL
- ElasticSearch
- …
Model/LLM Observability
- Trulens
- Langfuse
- Deepchecks
- OpenLLMetry
- …
网友评论