美文网首页
动手自制一个GPT对话软件(免费的GPT API、免费的语音文字

动手自制一个GPT对话软件(免费的GPT API、免费的语音文字

作者: 小黄不头秃 | 来源:发表于2024-04-04 00:09 被阅读0次

最近我有一个想法,因为看到GPT非常火爆,甚至GPT4已经能够实现语音对话的应用。但是在国内由于某些原因,我们无法使用GPT。即便通过特殊方式可以使用,GPT4的成本也相当高昂。
如果我们掌握了一些前后端编程技术,只要有一个GPT的API,我们就可以开发出GPT的应用。这样不仅可以实现语音转文字,还能帮助我们实现一些非常酷炫的功能。

(0) 引言

假设我们要开发一个基于GPT的语音对话机器人,其实现流程包括:前端录制语音 -> 发送语音至后端 -> 后端将语音转换成文本 -> 将文本发送至GPT API -> 接收GPT API的响应并将其转换成语音 -> 最后将语音反馈至前端
关键步骤主要包括:

  • 获取免费的GPT API接口及其使用方法
  • 实现免费的文本到语音及语音到文本的转换功能

(1)免费的GPT API接口

openAI(不是,close AI)有提供API的文档,但是这个接口是需要付费的,而且是按照token进行付费。我们需要对API Key进行充值后才能使用,我想这不是我想要的,当然富豪随意。模型(Model) | OpenAI 官方帮助文档中文版 (xiniushu.com)这里我也给出链接,随意选取。
最后还是发现了这个API:GitHub - chatanywhere/GPT_API_free: Free ChatGPT API Key,免费ChatGPT API,支持GPT4 API(免费),ChatGPT国内可用免费转发API,直连无需代理。可以搭配ChatBox等软件/插件使用,极大降低接口使用成本。国内即可无限制畅快聊天。
免费API Key限制150请求/24小时。我觉得就是普通用户使用也算是足够了。如果你是商用肯定就是付费了,即使是付费内容,我认为也是较为亲民的。其使用方法和openai的API的使用方式是一样的。

给一个python的代码示例吧:

from openai import OpenAI

client = OpenAI(
    # defaults to os.environ.get("OPENAI_API_KEY")
    api_key="YOUR API KEY",
    base_url="https://api.chatanywhere.tech/v1"
)



# 非流式响应
def gpt_35_api(messages: list):
    """为提供的对话消息创建新的回答

    Args:
        messages (list): 完整的对话消息
    """
    completion = client.chat.completions.create(model="gpt-3.5-turbo", messages=messages)
    print(completion.choices[0].message.content)

def gpt_35_api_stream(messages: list):
    """为提供的对话消息创建新的回答 (流式传输)

    Args:
        messages (list): 完整的对话消息
    """
    stream = client.chat.completions.create(
        model='gpt-3.5-turbo',
        messages=messages,
        stream=True,
    )
    for chunk in stream:
        if chunk.choices[0].delta.content is not None:
            print(chunk.choices[0].delta.content, end="")

if __name__ == '__main__':
    messages = [{'role': 'user','content': '鲁迅和周树人的关系'},]
    # 非流式调用
    # gpt_35_api(messages)
    # 流式调用
    gpt_35_api_stream(messages)

这里有个小彩蛋:不愧是老外,会将鲁迅和周树人认为是两个人。

(2)免费的语音转文字服务

通常我们会需要语音转文字这个功能,那么这个功能,主要是两种方案:

  • 方案一:使用云服务,将服务发送给云服务器(缺点是:可能需要科学上网、速度相对慢一些)
  • 方案二:本地部署(有能力的自己写模型自己进行推理,也可以直接部署一些现成的模型)

方案一:使用云服务

我这里也是提供一个方案,其实有很多免费的服务,大家可以在评论区讨论
比如说使用SpeechRecognition库,(这个方法需要科学上网哈)

pip install SpeechRecognition

python 示例代码:

import speech_recognition as sr

# 创建一个Recognize实例
recognizer = sr.Recognizer()

# 读取语音文件
audio_file = sr.AudioFile("audio.wav")
with audio_file as source:
    audio_data = recognizer.record(source)

# 使用Google语音识别引擎识别语音
text = recognizer.recognize_google(audio_data, language="en-US")
print("识别结果:", text)

方案二:本地部署

如果本地部署的话就相对方案一来说速度会更快。
可以参考:有什么开源的python汉语语音转文字项目?_语音转文字开源-CSDN博客

我这里也给一个例子:
使用vosk库VOSK Models (alphacephei.com)

pip install vosk
from vosk import Model, KaldiRecognizer
import sys
import os
import wave

if not os.path.exists("model"):
    print("Please download the model from the Vosk website and unpack as 'model' in the current folder.")
    exit(1)

wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("Audio file must be WAV format mono PCM.")
    exit(1)

model = Model("model")
rec = KaldiRecognizer(model, wf.getframerate())

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())

print(rec.FinalResult())

当然你可能会遇到文件格式的问题,所以你可能还需要一个进行wav格式转换的库,例如:wave、pydub、scipy.io.wavefile等


(3)免费的文字转语音库

如果你想要你的GPT能够通过语音回答你,那么你可能又需要一个文字转语音的库。我发现目前很多博客提供的API都无法使用,但是现有的库的语音还是很机器人,我暂时没看到有比较好的免费、易用的API。
但是也有一些示例,勉强能用:

pip install edge_tts
import edge_tts
import asyncio

TEXT = "这里是您想要转换为语音的文本。"
voice = 'zh-CN-XiaoxiaoNeural'  # 选择一个语音模型
output = 'output.mp3'  # 输出文件的名称
rate = '-4%'  # 语速调整
volume = '+0%'  # 音量调整

async def text_to_speech():
    tts = edge_tts.Communicate(text=TEXT, voice=voice, rate=rate, volume=volume)
    await tts.save(output)

if __name__ == '__main__':
    asyncio.run(text_to_speech())

相关文章

网友评论

      本文标题:动手自制一个GPT对话软件(免费的GPT API、免费的语音文字

      本文链接:https://www.haomeiwen.com/subject/gpfntjtx.html