说实话,我们已经听腻了“AI智能体”这个词。但在大多数时候,所谓的智能体还是像个只会答题的书呆子——你让它写首诗行,但让它帮你用手机订张从北京到上海的高铁票,再顺手发给秘书?它大概率会卡在第一步,或者胡乱点击一通。 为什么?因为它们不懂手机屏幕,也不懂人。 不过,阿里巴巴通义实验室最近扔出的这张王炸——MAI-UI,可能真的要改变这个局面了。这不仅仅是一个新的多模态模型,更像是一个给手机装上的“自动驾驶系统”。 终于学会了“张嘴问人” 现在的GUI Agent(图形界面智能体)有个通病:死脑筋。 举个例子,你跟它说…
