BentoML 是 AI 應用程序開發人員的平臺,提供工具和基礎架構來簡化整個 AI 產品開發生命周期。BentoML 使創建準備好部署和擴展的機器學習服務變得容易。
數據科學家和 ML 工程師可以使用 BentoML:
- 加速并標準化將 ML 模型投入生產的過程
- 構建可擴展的高性能預測服務
- 在生產中持續部署、監控和運行預測服務
BentoML 原生支持所有流行的 ML 框架,包括 Pytorch、Tensorflow、JAX、XGBoost、HuggingFace、MLFlow,以及最新的預構建開源 LLM(大型語言模型)和生成式 AI 模型。
BentoML 可擴展你使用 Python 構建的 AI 工作負載。多模型圖推理、并行模型推理和自適應批處理,以及許多高級 AI 功能,都包含在易于使用的 Python 原語中。
BentoML 是一個統一的 online、offline 和 streaming 框架;使用一個統一接口進行開發,該接口可以作為 REST API endpoin 或 gRPC service 輕松推出,集成到批處理工作負載的數據管道中,或使用流式架構進行實時處理。
BentoML 是用于創建 AI 應用程序的開放標準,它帶來了一致性,使開發人員能夠在所有 AI 產品團隊中變得更加敏捷、創新和高效。
Highlights
Unified Model Serving API
- 適用于Tensorflow、PyTorch、XGBoost、Scikit-Learn、ONNX等的框架無關的模型打包
- 為預處理/后處理和業務邏輯編寫自定義 Python 代碼以及模型推理
- 為在線(REST API 或 gRPC)、離線批處理和流式推理應用相同的代碼
- 用于構建多模型推理管道或圖形的簡單抽象
無摩擦過渡到生產的標準化流程
- 將Bento構建為 ML 服務的標準可部署工件
- 自動生成具有所需依賴項的 docker 鏡像
- 使用 GPU 進行推理的簡單 CUDA 設置
- 與 MLOps 生態系統的豐富集成,包括 Kubeflow、Airflow、MLFlow、Triton
具有強大的性能優化的可擴展性
- 自適應批處理根據服務器端最佳性能動態分組推理請求
- Runner 抽象將模型推理與你的自定義代碼分開進行 scales
- 通過自動配置最大化你的 GPU和多核 CPU 利用率
以 DevOps 友好的方式部署到任何地方
- 通過以下方式簡化生產部署工作流程:
- BentoML Cloud:部署便當的最快方式,簡單且大規模
- Yatai:在 Kubernetes 上大規模部署模型
- bentoctl:在 AWS SageMaker、Lambda、ECE、GCP、Azure、Heroku 等平臺上快速部署模型!
- 使用 Spark 或 Dask 運行離線批量推理作業
- 對 Prometheus 指標和 OpenTelemetry 的內置支持
- 用于高級 CI/CD 工作流程的靈活 API
評論