使用PAI——EAS部署ChatGLM

作者: 梅西爱骑车 | 来源:发表于2023-11-15 12:43 被阅读0次

2020设计之旅02-清单46【机器学习】独家解读！阿里重磅发布
EAS web化整体概括
EasyNVR使用体验
大模型本地化部署
2、EAS项目部署步骤
PAI-STUDIO通过Tensorflow处理MaxCompu
PAI-STUDIO通过Tensorflow处理MaxCompu
PAI-STUDIO通过Tensorflow处理MaxCompu
EasyExcel导出文件实体类加上@Accessor(chai
eas替换服务器文件路径

模型在线服务EAS（Elastic Algorithm Service）是一种模型在线服务平台，可支持您一键部署模型为在线推理服务或AI-Web应用。它提供的弹性扩缩容和蓝绿部署等功能，可以支撑您以较低的资源成本获取高并发且稳定的在线算法模型服务。此外，EAS还提供了资源组管理、版本控制以及资源监控等功能，方便您将模型服务应用于业务。EAS适用于实时推理、近实时异步推理等多种AI推理场景，并具备自动扩缩容和完整运维监控体系等能力。

EAS

其他基础知识需要自行学习，这只聚焦使用EAS服务部署ChatGLM，直接上干货。

进入如下菜单：

部署服务
注意我如下的填充信息，部署方式和镜像选择：

部署方式和镜像信息

运行命令保持默认信息，选择镜像版本后系统自动配置运行命令python webui/webui_server.py --listen --port=8000和端口号：8000。
其中：命令行参数--listen用于将WebUI服务或程序绑定到外部服务连接，从而使WebUI服务或程序能够接收外部服务的请求并对其进行处理。

资源组种类：选择公共资源组。
资源配置方法：选择常规资源配置。
资源配置选择：
如果您使用免费试用资源，本教程实例规格选择试用活动页签的ecs.gn7i-c8g1.2xlarge.limit。
如果您使用个人账户资源，本教程实例规格选择GPU页签的ml.gu7i.c16m60.1-gu30。
说明：阿里云免费试用提供的机型包括以下三种机型，仅选择试用活动页签下的这三种机型来部署服务产生的费用，才能使用抵扣包抵扣。 ecs.g6.xlarge.limit ecs.gn6i-c8g1.2xlarge.limit ecs.gn7i-c8g1.2xlarge.limit

资源选择非常重要不要选错产生费用

对应的配置文件信息：

{
    "metadata": {
        "name": "chatglm_guo",
        "instance": 1,
        "enable_webservice": true
    },
    "cloud": {
        "computing": {
            "instance_type": "ecs.gn7i-c8g1.2xlarge.limit",
            "instances": null
        }
    },
    "containers": [
        {
            "image": "eas-registry-vpc.cn-shanghai.cr.aliyuncs.com/pai-eas/chatglm-webui:1.0",
            "script": "python webui/webui_server.py --listen --port=8000",
            "port": 8000
        }
    ]
}

单击部署，等待一段时间即可完成模型部署。

创建中

实例详情，可以确认一下服务各项配置是否正确。

当服务状态为运行中时，表明服务部署成功。
部署成功后可以通过这个地址访问：https://chatglm-guo-1449824245063481.pai-eas.cn-shanghai.aliyun.com/

输入信息后的对话如图：

对话界面

启动和停止服务，注意不使用的时候及时停止防止产生费用，由于是容器部署可以进行弹性扩缩容的设置。

使用langchain来集成自己的业务数据

LangChain功能介绍：
LangChain是一个开源的框架，可以让AI开发人员将像GPT-4这样的大语言模型（LLM）和外部数据结合起来，从而在尽可能少消耗计算资源的情况下，获得更好的性能和效果。
LangChain工作原理：
将一个大的数据源，比如一个20页的PDF文件，分成各个区块，然后把它们嵌入到一个向量存储（Vector Store）里。
LangChain首先将输入的用户数据进行自然语言处理并作为大模型的知识库存储在本地。每次推理用户的输入会首先在本地知识库中查找与输入问题相近的答案，并将知识库答案与用户输入一起输入大模型生成基于本地知识库的定制答案。
设置方法：

在WebUI页面上方Tab页选择LangChain。