Skip to content

PaddleSpeech Server WebSocket API

Honei edited this page Apr 25, 2022 · 20 revisions

PaddleSpeech Server WebSocket API

WebSocket Sever for Streaming ASR and/or TTS

1. 流式语音识别接口

1.1 开始信号

  • client 信息 通过开始信号传入流式识别音频信息,以及解码参数
字段 必选 类型 说明
name string 传入的音频名称
signal string 流式识别中命令类型
nbest int 识别nbest参数,默认是1
  • 请求示例
{
"name": "test.wav",
"signal": "start",
"nbest": 1
},
  • server 信息 server 端返回新连接的情况
字段 必选 类型 说明
status string ASR服务端状态
signal string 该流式连接必要的准备工作是完成状态
{
"status": "ok", 
"signal": "server_ready"
}

1.2 数据

client和server建立连接之后,client端不断地向服务端发送数据

  • client 信息 发送 pcm16 数据流到服务端

  • server 信息 每发送一个数据,服务端会将该数据包解码的结果返回出来

字段 必选 类型 说明
result string ASR解码的结果

1.3 结束

client 发送完最后最后一个数据包之后,需要发送给服务端一个结束的命令,通知服务端销毁该链接的相关资源。

通过开始信号传入流式识别音频信息,以及解码参数

字段 必选 类型 说明
name string 传入的音频名称
signal string 流式识别中命令类型
nbest int 识别nbest参数,默认是1
{
"name": "test.wav",
"signal": "end",
"nbest": 1
}
  • server 信息

server 端信息接收到结束信息之后,将最后的结果返回出去。

字段 必选 类型 说明
name string 传入的音频名称
signal string 流式识别中命令类型
result string 最后的识别结果
Clone this wiki locally