2.5岁的ai 创业公司搞出了“硬连线”(hard-wiring)的技术

Taals,这个刚满2.5岁的AI创业公司,为了解决大模型在延迟和成本上的难题,搞出了一种叫"硬连线"(Hard-wiring)的技术。他们把AI模型直接固化在硅片里,彻底摆脱了传统算力的束缚。他们的第一款芯片HC1性能特别强:生成速度比现在快10倍,成本只有之前的1/20。要是用上30个这样的芯片搭成集群,就能让DeepSeek R1达到每秒12000 tokens的零延迟效果。不过呢,这样做虽然快了,却给硬件迭代带来了不小的麻烦。 话说回来,现在AI算力竞争这么激烈,延迟已经成了制约Agentic应用的老大难问题。Cerebras和Groq是想通过集成SRAM来提速,Taals不走寻常路,直接选择了更为激进的ASIC路线。这家公司弄出了个能把任意AI模型变成定制硅片的平台,核心思路就是"计算和存储融合"。他们直接把LLM的神经网络画到了硅片电路上,在DRAM级密度下完成所有运算。这就省掉了HBM、复杂封装还有昂贵的散热系统,从物理层面上把"内存墙"这道坎给平了。 Taals已经拿出了他们的首款产品HC1,专门为Meta的Llama 3.1 8B模型设计的。这颗芯片用的是台积电6nm工艺,面积高达815 mm²,跟NVIDIA的H100差不多大。在EE Times上做演示的时候,他们的聊天机器人能跑到每秒15000多tokens,公司还说内部测试最高能冲到17000 tokens。但你看这个大家伙里才塞了80亿参数,跟现在动不动就万亿参数的模型比起来确实容量不够大。为了追求极致的硬连线速度,Taals在单位面积的参数密度上做了很大的妥协。 虽然参数密度不高,但HC1的表现还是挺吓人的。官方数据说,跟现有的高端算力比起来,它的TPS(每秒Token生成数)提高了10倍,生产成本也降到了原来的20分之一。为了对付单芯片容量不够的问题,他们搞起了集群化扩展。在针对DeepSeek R1模型的测试里,用30片HC1组个集群就能跑出12000 TPS / User的高吞吐(要知道现在GPU一般每人每秒也就200个tokens)。这数据意味着在实时聊天或者复杂推理的时候,用户几乎感觉不到延迟。 TPS这个指标其实就是AI打字速度的代名词。TPS越高代表AI回复得越快。虽然Taals的技术路线挺诱人,但搞商业运营还是挺难的。因为模型权重是被硬刻在硅片上的,芯片一旦做好就没法改参数了。这就意味着客户必须为特定的模型版本去买专用硬件,算法一更新换代,这些硬件可能立马就落伍了。