说实话,玩了这么久的语音助手,最让我难受的不是它听不懂,而是那种明显的“割裂感”。 你说完一句话,系统开始转圈,把声音转成字,丢给大模型思考,生成文字,再找个TTS念出来。这一套流程下来,哪怕延迟只有一两秒,那种“我在跟机器说话”的感觉也挥之不去。 但在2025年年底,这个局面可能真的要变了。 就在12月23日,阿里通义大模型团队悄悄扔出了一个重磅炸弹:Fun-Audio-Chat-8B。这不是又一个普通的语音助手,而是通义百聆家族里首个主打端到端“语音对语音”交互的模型。 最关键的是,它直接开源了。 为什么这次不…
