苹果iphone 17 pro用了两个绝招，跑起来速度简直让人抓狂

在3月23日这天，苹果的iPhone 17 Pro干了一件让人看了眼晕的事儿——它硬是把拥有4000亿个参数的大语言模型给塞进了手机里跑通了。要知道，这种大家伙即便经过了压缩，通常也得要个200GB的内存，而iPhone 17 Pro也就只有12GB的LPDDR5X内存，硬塞的差距这么大，苹果是怎么做到的呢？原来他们用了两个绝招。一个是把闪存当内存用，通过Flash-MoE这个开源项目，直接把数据从固态硬盘里搬到了GPU上，这么一来就绕过了物理内存的瓶颈。另一个是用了Mixture of Experts（MoE）架构，这就好比干活的时候只需要动一小部分人，不需要把所有人都叫上。这套组合拳虽然把模型给装进了手机，但跑起来速度简直让人抓狂。实测下来每秒只能生成0.6个Token，也就是得等个1.5到2秒才出一个字。这速度要用来打字聊天是真的着急。而且这么高强度的运算对手机的电池消耗也很大，发热情况也很严重。尽管速度慢得让人捉急，但这次演示却具有很强的象征意义。它证明了在手机上本地运行超大模型这条路还没死透。未来要是能把这个速度从0.6Token提升到60Token，智能手机就真的能变成咱们口袋里的超级大脑了。到时候要是能离线聊天、保护隐私，那可就太方便了。就像专家们说的，“能跑起来”和“能用起来”是两码事，不过随着算法优化和硬件升级，这一天应该不会太远。