2.5岁的ai 创业公司搞出了“硬连线”（hard-wiring）的技术

Taals，这个刚满2.5岁的AI创业公司，为了解决大模型在延迟和成本上的难题，搞出了一种叫"硬连线"（Hard-wiring）的技术。他们把AI模型直接固化在硅片里，彻底摆脱了传统算力的束缚。他们的第一款芯片HC1性能特别强：生成速度比现在快10倍，成本只有之前的1/20。要是用上30个这样的芯片搭成集群，就能让DeepSeek R1达到每秒12000 tokens的零延迟效果。不过呢，这样做虽然快了，却给硬件迭代带来了不小的麻烦。话说回来，现在AI算力竞争这么激烈，延迟已经成了制约Agentic应用的老大难问题。Cerebras和Groq是想通过集成SRAM来提速，Taals不走寻常路，直接选择了更为激进的ASIC路线。这家公司弄出了个能把任意AI模型变成定制硅片的平台，核心思路就是"计算和存储融合"。他们直接把LLM的神经网络画到了硅片电路上，在DRAM级密度下完成所有运算。这就省掉了HBM、复杂封装还有昂贵的散热系统，从物理层面上把"内存墙"这道坎给平了。 Taals已经拿出了他们的首款产品HC1，专门为Meta的Llama 3.1 8B模型设计的。这颗芯片用的是台积电6nm工艺，面积高达815 mm²，跟NVIDIA的H100差不多大。在EE Times上做演示的时候，他们的聊天机器人能跑到每秒15000多tokens，公司还说内部测试最高能冲到17000 tokens。但你看这个大家伙里才塞了80亿参数，跟现在动不动就万亿参数的模型比起来确实容量不够大。为了追求极致的硬连线速度，Taals在单位面积的参数密度上做了很大的妥协。虽然参数密度不高，但HC1的表现还是挺吓人的。官方数据说，跟现有的高端算力比起来，它的TPS（每秒Token生成数）提高了10倍，生产成本也降到了原来的20分之一。为了对付单芯片容量不够的问题，他们搞起了集群化扩展。在针对DeepSeek R1模型的测试里，用30片HC1组个集群就能跑出12000 TPS / User的高吞吐（要知道现在GPU一般每人每秒也就200个tokens）。这数据意味着在实时聊天或者复杂推理的时候，用户几乎感觉不到延迟。 TPS这个指标其实就是AI打字速度的代名词。TPS越高代表AI回复得越快。虽然Taals的技术路线挺诱人，但搞商业运营还是挺难的。因为模型权重是被硬刻在硅片上的，芯片一旦做好就没法改参数了。这就意味着客户必须为特定的模型版本去买专用硬件，算法一更新换代，这些硬件可能立马就落伍了。