语音识别除了衡量语音识别的准确度之外,另外一个重要的指标就是处理的速度和延迟。其中RTF为衡量实时语音识别处理速度的重要指标,RTX为衡量离线语音识别处理速度的重要指标。

1 RTF

RTF(Real Time Factor),为实时语音识别的处理速度评价指标,其计算公式如下

RTF=\frac{ASR所有音频处理时间(单位秒)}{所有音频总时间(单位秒)}

即给定1秒时长的音频,语音识别需要花多长时间,这个比例小于1才能达到实时识别语音的效果,RTF指标越小越好。

RTF为1表示用户一说完话就能出识别结果(前提是忽略假设录音实时的传给语音识别系统,时间情况很多时候是在服务器端进行解码的,因此会有网络的延迟);RTF大于1就表示话说完了,系统还得再处理一段时间;RTF小于1表示识别速度比说话速度快,这样万一有网络延迟,它还能追上来。

2 RTX

RTX(Real Time X),为离线语音识别处理速度评价指标,其计算公式如下

RTX=\frac{所有音频总时间(单位秒)}{ASR识别所有音频处理时间(单位秒)}

即在1秒时间内,语音识别模型可以处理多长时间的音频,RTX指标越大越好。

参考