iphone 17 pro是怎么做到的?

现在智能手机能跑4000亿参数的大模型,这事儿听起来挺震撼的,不过速度真的是让人抓狂。最近有个叫Flash-MoE的开源项目,居然在iPhone 17 Pro上把这个大模型给跑起来了。苹果这个旗舰机表现确实亮眼,但专家们都觉得iPhone 17 Pro绝对不是干这事儿的首选。为啥这么说呢?因为这种大语言模型对配置要求太高了,得有大容量内存和高性能的硬件才能撑得住。就算是压缩或者量化后的版本,至少也得要200GB的内存。而苹果这代旗舰机只配了12GB的LPDDR5X内存,你要想把整个模型都塞进去,那是不可能的任务。那他们是怎么做到的呢?其实是利用了设备里的SSD,直接把数据流式传输到GPU里面。 这种技术就是所谓的混合专家模型,也就是MoE(Mixture of Experts)。简单说就是每生成一个单词,只需要调用这4000亿参数中的一小部分。虽然这样做能让手机运行起来,但也有个明显的缺点:Token生成速度慢得吓人。网友@anemll展示了一个数据,iPhone 17 Pro生成一个单词大概需要1.5到2秒的时间。也就是说每秒只能生成0.6个Token。虽然速度很慢,但不管怎么说,一部智能手机能跑起来这么大的模型,这本身就证明了一件事:只要再做一些优化,未来在手机端本地运行大语言模型完全是有可能实现的。 而且本地运行还有个好处就是保护隐私啊,不用联网也能获得回复。不过代价就是电池会被严重消耗。再说回这次演示吧,其实就是告诉大家一个事实:只要你能忍受每秒0.6个Token的缓慢生成过程,就可以在智能手机上运行4000亿参数的大语言模型。但也别忘了,“能跑起来”和“能流畅、可用地使用”完全是两码事啊。