发布网友 发布时间:2022-04-20 07:31
共2个回答
热心网友 时间:2023-08-18 08:54
说一点我的个人见解:嘈杂环境的语音识别在于干扰因素太多。鸡尾酒会例子就更是如此。我觉得未来语音识别的发展方向除了继续在神经算法上发力之外,还需要持续在于如下方法上:在识别端预先构建一个先验式的对话模型。然后根据这个模型来猜测对方的语句,随后将这个猜测的语句的正确的发音,结合接收到的信息的发音,通过综合加权分析之后从而最终得出正确的理解。现在的问题在于,我们的语音识别还没有发展出先验的路子,无论采用*格多么高的方法,这只是重复性地走在了单行道上(听到---判断---识别)。*格越高,只是在判断的时候鲁棒性更好一些,实际上,哪怕是人之间进行沟通都会产生“误解”---因为歧义,发音不标准,干扰太多等因素。但是,我几乎可以肯定,如果让语音识别的另外一条腿长出来(先验式模型),那么语音识别的将永远会是一只跛脚鸭,而其辨识度将永远拼不过人类。
热心网友 时间:2023-08-18 08:54
做好嘈杂环境的语音识别,难点是如何将杂音与人声分离。传统的音频识别需要人工设计模块,并依靠Hidden Markov Models,常常需要大量的人力和经验来调整模型噪音和语音变异。未来的主要研究方向是,通过深度学习来替代Hidden Markov Models,如基于递归神经网络的深度神经网络(DNN)进行声学建模,使得语音识别系统变得更为简单。日立公司宣称自己已经研发出一项新技术,利用对话音量比杂音变化较少的特点,将杂音与话音进行分离。