【顶级财经网-讯】

  翟季冬

  ■本报记者 田瑞颖

  这是一支自带“冠军基因”的团队。

  翟季冬是带领清华大学学生超算队十余次站上世界冠军领奖台的“总教头”,但他心里一直有个声音:能否改变所有参赛队伍都使用英伟达图形处理器(GPU)的境况,让国产算力走到“台前”。

  2023年12月,一群来自清华大学计算机系高性能计算研究所的年轻人联手创立了北京清程极智科技有限公司(以下简称清程极智),清华大学教授翟季冬担任首席科学家。他们选择从软件层面切入创新,为国产芯片量身打造系统软件,让国产算力也能高效运行最前沿的大模型。

  随后两年半的时间里,这支团队便打造出覆盖“训练—推理—流通”全链路的产品矩阵:“八卦炉”智能软件栈、“赤兔”推理引擎、“AI Ping”评测路由平台。他们还完成了三轮融资,获得中科创星、中金资本、中关村科学城公司等多家机构投资。

  清程极智联合创始人师天麾告诉《中国科学报》,公司高水平研发人员占比超过80%,平均年龄不到30岁。

  “八卦炉”内炼“真金”

  “清华的程序员很聪明!”这是“清程极智”名称的由来,也是创始团队的自勉。

  随着全球人工智能(AI)大模型参数持续突破、应用场景全面爆发,国内高端算力供给受限、算力结构性短缺、芯片利用率低、软硬件适配壁垒高等四大瓶颈,已成为制约大模型训练与产业规模化落地的核心堵点。

  2025年初,随着深度求索(DeepSeek)公司的出圈,清程极智接到了大批为企业做DeepSeek私有化部署的订单。这背后,是团队十余年在智能算力优化方向的积累。

  从2014年起,翟季冬就带领清华学生参加全球超算比赛,虽然拿到过十几次世界冠军,但使用的都是英伟达最好的GPU。他一直在思考,如何把实验室的技术搬到货架,助力国产芯片发展。

  在超算上验证过的“八卦炉”系统就是研究团队的核心技术之一。该系统提供针对芯片体系架构的算子编译优化,以及面向超大规模集群的并行计算解决方案,在国际上首次开源了支持深度学习框架PyTorch的大规模混合专家模型训练,在国产超算系统上实现了百万亿参数量的大模型训练加速。

  “八卦炉”系统的研发可以追溯到2021年。彼时大语言模型ChatGPT还没有引爆全球,翟季冬带领的清华学生团队便开始在国产超算上进行大规模训练探索,使用了超过10万台纯国产服务器。这种超大规模实践,练就了这支国内极少数真正具备国产算力集群使用和调优经验的团队。

  这支团队中不乏全国奥林匹克竞赛(奥赛)金牌得主、世界大学生超算比赛冠军、中高考状元。清程极智联合创始人唐适之曾是清华超算队的主力队员;师天麾曾获全国信息学奥赛金牌;首席执行官汤雄超毕业于清华大学计算机系,博士毕业后先后供职于深信服和字节跳动。

  从小喜欢玩游戏的师天麾对编程和算法有着天然的敏锐。2014年,他凭借全国信息学奥赛金牌保送清华大学计算机系,读博期间跟随翟季冬研究高性能计算。当多家大厂向他伸出高薪橄榄枝时,他却选择踏上一条最不好走的路——创业。

  “创业是我见过最难的事。”师天麾坦言,研发、产品、管理、融资……每一个环节都要做好。但比起赚钱,他更想做些有价值的事——让代码落地成产品,对国产算力起到实实在在的作用。

  师天麾解释,大模型的训练就像炼丹,大量语料投入训练系统,要炼得有模有样。“在大规模算力集群上,‘八卦炉’已实现比肩DeepSeek的混合专家模型训练效率,为国产大模型研发提供了有力的系统支撑。”

  让国产芯片“跑起来”

  训练之后是推理。

  DeepSeek“火”了,同时伴随着尴尬的市场局面:大多数国产芯片和英伟达旧卡无法原生支持DeepSeek采用的FP8数据格式。

  “如果在国产卡上运行,传统方案要么把FP8转成BF16,占用两倍显存,要么转成INT8,牺牲模型精度。”唐适之解释。

  随着AI的发展进入产业“深水区”,自主可控成为国内AI基础设施建设的重要方向。与此同时,海外厂商正加速通过资本并购和技术整合布局推理市场,但一些国内企业却陷入了“重融资、轻研发”的发展误区,过度追求融资规模与短期商业回报,忽视了推理引擎核心技术的自主研发,普遍采用国外开源软件搭建推理能力。

  在唐适之看来,过度依赖国外开源软件不仅会导致国内推理技术发展陷入被动,更会挤压国产推理引擎的生存空间,破坏国内AI产业自主可控的生态根基。

  于是,他们选择自主研发赤兔推理引擎,打破海外技术垄断,构建“国产算力+国产引擎+国产模型”全国产化闭环。“从最开始的第一行代码起,都是我们自己写的,完全自主可控。”唐适之表示,赤兔不仅做到了适配,而且针对昇腾、海光、沐曦、摩尔线程等国产芯片的标量向量计算、数据表达、硬件调度、卡间互联等硬件特性做了深度优化,以解决国产算力“能用不好用”的难题。

  在性能与成本上,赤兔推理引擎实现突破性提升:通过软件方案在不具备FP4/FP8硬件能力的算力设备上支持FP4/FP8低位宽量化,使用FP8量化可降低50%算力门槛,FP4量化可降低75%算力门槛。

  唐适之介绍,部署DeepSeek-V3满血版模型时,仅需1台8卡910B服务器即可替代传统4台8卡机,硬件成本从600万元降至150万元。

  目前,赤兔已在券商、能源企业等场景落地应用。某能源央企实现超3500名员工全国产化算力稳定使用,算力效率提升近40%,相关案例获2025人工智能应用大赛铜奖。

  评测倒逼行业“向上卷”

  如果说赤兔解决的是“产得出”的问题,AI Ping解决的则是“选得准、省得好”的问题。

  当词元(Token)成为AI时代的“水电煤”,这群年轻人还要解决一个根本问题:让Token像电流一样稳定、高效、低成本地流入千行百业。

  师天麾直言,Token犹如一个黑盒,你放进去问题,它吐出答案,中间发生了什么却不知道。同样的模型、同样的价格,不同服务商的性能可以差四五倍。

  AI Ping平台正是为此而生。目前,该平台已接入30余家主流服务商、600余个大模型服务,通过7×24小时多地域分布式监测,从真实用户视角进行端到端评测,实时输出延迟、吞吐、可靠性等指标。

  “AI Ping的核心功能是智能路由。”师天麾介绍,实测显示,使用AI Ping后用户平均成本降低超37%,吞吐提升超90%,延迟降低超20%。

  2025年9月,清华大学与中国软件评测中心联合发布《2025大模型服务性能排行榜》,AI Ping提供了评测工具和数据展示平台。这也让不少业内的用户将AI Ping比作大模型API(应用程序编程接口)服务的“大众点评”,这种榜单还成为倒逼这些榜上企业持续优化的动力。

  随着产品矩阵成型、商业化落地加速,资本的目光也悄然聚焦。从创业初期,需要花费大量精力向投资人和客户解释什么是AI Infra(人工智能基础设施),到Token经济爆发后,投资人主动咨询并表示投资意愿,这种变化让师天麾感触颇深。

  在融资策略上,汤雄超解释,AI Infra行业发展变化极快,“小步快跑”的融资节奏是为了持续储备现金流,加大产品研发投入,同时也是因为行业热度较高,持续有投资方表达投资意愿。

  作为清程极智的投资方之一,奇绩创投的相关负责人认为,这支团队有着构建高性能计算系统的罕见基因,能深入国产芯片的“毛细血管”进行优化,真正推动了国产算力从“能用”到“好用”。

  在最近一轮融资中,清华大学资产管理公司战略入股了清程极智,这也标志着产学研协同进入新阶段。

 

  面对日益激烈的国际竞争,翟季冬提出了一个更为高远的目标:“中国电力系统在全世界是第一的。我们希望把Token服务的质量和性能也做到全世界第一。”

【顶级财经网-www.vipcaijing.com】