EarlyMedia早媒体声音分类

给对方打电话时, 对方电话还没有接通时, 有响铃, 音乐, 用户忙, 不在服务区, 无人接听, 已停机, 等状态.

号码拨打测试时, 会把电话接通前的录音保存, 给到算法. 我们的算法:

(1) 录音中的声音分为四种: 响铃, 音乐, 静音, 人声.

(2) 假如完整的录音有 20 秒, 首先按每秒一个分类标签对音频分类, 得到 20 个标签.

(3) 根据 20 个标签, 找到 "人声" 对应的音频段, 从 20 秒完整音频中截取出来.

(4) 在 "人声" 的音频上做模板匹配, 如果匹配到 "用户忙" 的模板, 则这通电话就是 "用户忙".

此模型就是基于此数据集训练的, 用于四种声音分类的模型, 它原本是用 AllenNLP 训练的, 现在训练代码已经找不到了, 但是此模型比较简单.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.