流星火雨Aioo»AI论坛 › 项目与案例 › 案例研究 › 使用科大讯飞API实现非实时语音转写

gztrlx

15 积分	0 好友	1 主题

发消息

使用科大讯飞API实现非实时语音转写

发表于 2024-10-8 11:02:59 | 查看: 1164| 回复: 0

技术原理1. API接口介绍

科大讯飞提供了丰富的语音处理API，其中非实时语音转写API主要包括两个主要接口：

上传接口：用于上传待转写的音频文件。
结果查询接口：用于查询转写结果。

2. 签名机制

为了保证API的安全性，科大讯飞采用了签名机制。每次请求都需要生成一个签名字符串，该签名字符串由应用ID、时间戳和密钥通过特定的算法计算得到。

3. 请求流程

上传音频文件：
- 生成签名。
- 构建上传参数。
- 发送POST请求上传音频文件。
- 获取上传成功的响应，包括订单ID。
查询转写结果：
- 使用订单ID构建查询参数。
- 发送POST请求查询转写结果。
- 定期查询，直到任务完成。

代码实现
1. 导入必要的库

import base64
import hashlib
import hmac
import json
import logging
import os
import time
import requests
import urllib.parse

复制代码

2. 配置日志

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

复制代码

3. 定义API类

class RequestApi(object):
def __init__(self, appid, secret_key, upload_file_path):
"""
初始化RequestApi类的实例。
:param appid: 应用ID
:param secret_key: 应用密钥
:param upload_file_path: 待上传文件的路径
"""
if not all([appid, secret_key, upload_file_path]):
raise ValueError("appid, secret_key and upload_file_path must be provided.")
if not os.path.isfile(upload_file_path):
raise FileNotFoundError(f"File {upload_file_path} does not exist.")
self.appid = appid
self.secret_key = secret_key
self.upload_file_path = upload_file_path
self.ts = str(int(time.time())) # 当前时间戳
self.signa = self.get_signa() # 计算签名
def get_signa(self):
"""
生成签名。
:return: 签名字符串
"""
m2 = hashlib.md5()
m2.update((self.appid + self.ts).encode('utf-8'))
md5 = m2.hexdigest().encode('utf-8')
signa = hmac.new(self.secret_key.encode('utf-8'), md5, hashlib.sha1).digest()
signa = base64.b64encode(signa).decode('utf-8')
return signa
def upload(self):
"""
上传文件到科大讯飞服务器。
:return: 上传结果
"""
logging.info("开始上传文件...")
try:
file_len = os.path.getsize(self.upload_file_path)
file_name = os.path.basename(self.upload_file_path)
param_dict = {
'appId': self.appid,
'signa': self.signa,
'ts': self.ts,
'fileSize': file_len,
'fileName': file_name,
'duration': '200', # 文件持续时间（秒）
}
with open(self.upload_file_path, 'rb') as f:
data = f.read(file_len)
response = requests.post(
url=lfasr_host + api_upload + "?" + urllib.parse.urlencode(param_dict),
headers={"Content-type": "application/octet-stream"},
data=data
)
response.raise_for_status()
result = response.json()
logging.info("文件上传成功，响应: %s", result)
return result
except Exception as e:
logging.error("文件上传失败: %s", str(e))
raise
def get_result(self, max_retries=10):
"""
获取语音转写的结果。
:param max_retries: 最大重试次数
:return: 转写结果
"""
logging.info("开始获取结果...")
try:
upload_response = self.upload()
order_id = upload_response['content']['orderId']
param_dict = {
'appId': self.appid,
'signa': self.signa,
'ts': self.ts,
'orderId': order_id,
'resultType': 'transfer',
'callbackUrl': 'https://dev.pdfxd.com/third/vorec/asr/callback'
}
status = 3
retries = 0
while status == 3 and retries < max_retries:
response = requests.post(
url=lfasr_host + api_get_result + "?" + urllib.parse.urlencode(param_dict),
headers={"Content-type": "application/json"}
)
response.raise_for_status()
result = response.json()
status = result['content']['orderInfo']['status']
logging.info("当前状态: %s", status)
if status == 4:
break
retries += 1
time.sleep(5)
if status != 4:
logging.warning("达到最大重试次数，但任务状态仍为处理中。")
else:
logging.info("任务完成，获取结果...")
order_result = json.loads(result['content']['orderResult'])
lattice = order_result['lattice']
with open("result.txt", "w", encoding='utf-8') as file:
for item in lattice:
json_1best = item['json_1best']
rt = json.loads(json_1best)["st"]["rt"]
for word_segment in rt:
for word in word_segment['ws']:
for char in word['cw']:
file.write(char['w'])
logging.info("结果已保存至 result.txt")
return result
except Exception as e:
logging.error("获取结果失败: %s", str(e))
raise

复制代码

4. 主程序

if __name__ == '__main__':
# 替换为你的appid和secret_key
api = RequestApi(
appid="your_app_id",
secret_key="your_secret_key",
upload_file_path=r"path_to_your_file.pcm"
)
api.get_result()

复制代码

运行步骤
   1.安装依赖：pip install requests
      2.配置参数：将your_app_id和your_secret_key替换为你的科大讯飞应用ID和密钥。
                           将path_to_your_file.pcm替换为你要上传的音频文件路径。
      3.运行代码： python your_script.py
结果输出运行脚本后，音频文件将被上传到科大讯飞服务器进行转写。转写完成后，结果将被保存到result.txt文件中。

收藏0 回复显示全部楼层举报

返回列表

		自动登录	找回密码
密码			立即注册