苹果iphone 17 pro用了两个绝招,跑起来速度简直让人抓狂

在3月23日这天,苹果的iPhone 17 Pro干了一件让人看了眼晕的事儿——它硬是把拥有4000亿个参数的大语言模型给塞进了手机里跑通了。要知道,这种大家伙即便经过了压缩,通常也得要个200GB的内存,而iPhone 17 Pro也就只有12GB的LPDDR5X内存,硬塞的差距这么大,苹果是怎么做到的呢? 原来他们用了两个绝招。一个是把闪存当内存用,通过Flash-MoE这个开源项目,直接把数据从固态硬盘里搬到了GPU上,这么一来就绕过了物理内存的瓶颈。另一个是用了Mixture of Experts(MoE)架构,这就好比干活的时候只需要动一小部分人,不需要把所有人都叫上。这套组合拳虽然把模型给装进了手机,但跑起来速度简直让人抓狂。实测下来每秒只能生成0.6个Token,也就是得等个1.5到2秒才出一个字。这速度要用来打字聊天是真的着急。而且这么高强度的运算对手机的电池消耗也很大,发热情况也很严重。 尽管速度慢得让人捉急,但这次演示却具有很强的象征意义。它证明了在手机上本地运行超大模型这条路还没死透。未来要是能把这个速度从0.6Token提升到60Token,智能手机就真的能变成咱们口袋里的超级大脑了。到时候要是能离线聊天、保护隐私,那可就太方便了。就像专家们说的,“能跑起来”和“能用起来”是两码事,不过随着算法优化和硬件升级,这一天应该不会太远。