iphone 17 pro是怎么做到的？

现在智能手机能跑4000亿参数的大模型，这事儿听起来挺震撼的，不过速度真的是让人抓狂。最近有个叫Flash-MoE的开源项目，居然在iPhone 17 Pro上把这个大模型给跑起来了。苹果这个旗舰机表现确实亮眼，但专家们都觉得iPhone 17 Pro绝对不是干这事儿的首选。为啥这么说呢？因为这种大语言模型对配置要求太高了，得有大容量内存和高性能的硬件才能撑得住。就算是压缩或者量化后的版本，至少也得要200GB的内存。而苹果这代旗舰机只配了12GB的LPDDR5X内存，你要想把整个模型都塞进去，那是不可能的任务。那他们是怎么做到的呢？其实是利用了设备里的SSD，直接把数据流式传输到GPU里面。这种技术就是所谓的混合专家模型，也就是MoE（Mixture of Experts）。简单说就是每生成一个单词，只需要调用这4000亿参数中的一小部分。虽然这样做能让手机运行起来，但也有个明显的缺点：Token生成速度慢得吓人。网友@anemll展示了一个数据，iPhone 17 Pro生成一个单词大概需要1.5到2秒的时间。也就是说每秒只能生成0.6个Token。虽然速度很慢，但不管怎么说，一部智能手机能跑起来这么大的模型，这本身就证明了一件事：只要再做一些优化，未来在手机端本地运行大语言模型完全是有可能实现的。而且本地运行还有个好处就是保护隐私啊，不用联网也能获得回复。不过代价就是电池会被严重消耗。再说回这次演示吧，其实就是告诉大家一个事实：只要你能忍受每秒0.6个Token的缓慢生成过程，就可以在智能手机上运行4000亿参数的大语言模型。但也别忘了，“能跑起来”和“能流畅、可用地使用”完全是两码事啊。