概述

部署ChatGLM3-6B私有模型后，写代码验证。

启动

登录到ai_project目录下的ChatGLM3目录，启动模型：

activate py3.10
python basic_demo/cli_demo.py

代码

from openai import OpenAI

base_url = "http://127.0.0.1:8000/v1/"
client = OpenAI(api_key="EMPTY", base_url=base_url)


def simple_chat(use_stream=True):
    messages = [
        {
            "role": "system",
            "content": "You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's "
                       "instructions carefully. Respond using markdown.",
        },
        {
            "role": "user",
            "content": "你好，请你用生动的话语给我讲一个小故事吧"
        }
    ]

    response = client.chat.completions.create(
        model="chatglm3-6b",  # 模型名称
        messages=messages,  # 会话历史
        stream=use_stream,  # 指定是否使用流式传输模式，如果设置为True，则返回一个生成器对象，可以逐个获取生成的文本片段；如果设置为False，则一次性返回完整的生成结果。
        max_tokens=256,  # 最多生成字数
        temperature=0.8,  # 温度
        presence_penalty=1.1,  # 控制生成回答时对已出现词汇的惩罚强度，较高的值会减少重复词汇的出现
        top_p=0.8)  # 采样概率
    if response:
        if use_stream:
            for chunk in response:
                print(chunk.choices[0].delta.content)
        else:
            content = response.choices[0].message.content
            print(content)
    else:
        print("Error:", response.status_code)