2025年的跨年夜,当大多数人还在倒数计时迎接新年的时候,DeepSeek的团队干了一件非常极客的事——他们甩出了一篇重磅论文。 这篇名为《mHC: Manifold-Constrained Hyper-Connections》的论文,看似标题充满了晦涩的数学名词,但实际上,它可能刚刚解开了困扰大模型界已久的一个死结:模型越大,越容易练崩。 今天我们就抛开那些复杂的公式,用人话聊聊这项可能定义“后Transformer时代”的新技术。 贪婪的代价:当“宽带”变成灾难 过去这十年,深度学习能发展这么快,何凯明大神的R…
