本报讯 (记者刘琪)3月2日,中国人民银行发布消息称,为深入学习贯彻习近平总书记在民营企业座谈会上的重要讲话精神,落实党中央、国务院关于金融支持民营企业发展的决策部署,2025年2月28日,中国人民银行、全国工商联、金融监管总局、中国证监会、国家外汇局联合召开金融支持民营企业高质量发展座谈会。中国人民银行党委书记、行长潘功胜,中央统战部副部长、全国工商联党组书记沈莹,金融监管总局党委委员、副局长周亮,中国证监会党委委员、副主席李超出席会议并讲话。中国人民银行党委委员、副行长、国家外汇局党组书记、局长朱鹤新主持会议,全国工商联副主席安立佳出席会议。

  座谈会上,依文集团、吉利控股、商汤科技、圆通速递、伊利集团等5家民营企业及全联并购公会负责人介绍了企业经营情况并提出意见建议。工商银行、人保集团、中信证券、国担基金等4家金融机构及上海证券交易所负责人作经验交流。

  会议认为,习近平总书记在民营企业座谈会上的重要讲话,为民营经济发展把脉定向、提振信心、增添动力,为做好新时代促进民营经济发展工作提供了科学指南和根本遵循。支持民营经济发展是金融服务实体经济的内在要求,也是践行金融工作政治性、人民性的具体体现。金融部门要坚持“两个毫不动摇”,积极健全政策框架,强化督导落实,为民营经济健康发展和民营企业做强做优做大提供有力的金融支持。

  会议要求,要实施好适度宽松的货币政策,发挥好结构性货币政策工具作用,强化监管引领,引导金融机构“一视同仁”对待各类所有制企业,增加对民营和小微企业信贷投放。执行好金融支持民营经济25条举措,健全民营中小企业增信制度,加快出台规范供应链金融业务政策文件。强化债券市场制度建设和产品创新,持续发挥“第二支箭”的撬动引领作用。抓好“科创板八条”“服务现代化产业体系十六条”“并购六条”等政策落实落地,支持民营企业通过资本市场发展壮大。金融机构要强化金融服务能力建设,进一步畅通民营企业股、债、贷等多元化融资渠道,加大各类金融资源要素投入,将民营企业金融服务做实、做深、做精。

 

  会议强调,各方要增强协同联动,推动完善融资配套机制,下大气力解决民营企业融资难、融资贵问题,共同营造更优的民营企业发展环境。各级工商联要充分发挥桥梁纽带和助手作用,深化调查研究,搭建对接平台,会同金融管理部门、金融机构提升民营企业融资可得性和便利性。民营企业要加强自主创新,完善治理结构,重视信用管理,加强风险管控,坚定不移走高质量发展之路。

  特斯拉再次迎来“全球瞩目时刻”,这一刻与储能业务有关。2月11日,特斯拉上海储能超级工厂举行投产仪式,首台超大型商用电化学储能系统Megapack下线。

  这是特斯拉在上海临港(9.790, 0.03, 0.31%)投建的第二座超级工厂,也是特斯拉在美国本土之外投建的首个储能超级工厂,于2024年5月开工建设,用时仅7个月竣工完成,再度刷新了“特斯拉速度”和“上海速度”。

  特斯拉预期,2025年公司能源存储产品的装机量将同比增长至少50%。特斯拉上海超级储能工厂的投产不仅是特斯拉全球布局的重要一步,也是中国新能源(2.490, 0.00, 0.00%)产业发展的关键推动力。受访人士向证券时报记者表示,依托中国本土供应链的优势,特斯拉Megapack的生产成本有望大幅降低。与此同时,上海储能超级工厂的投产将带动上下游企业聚集,进一步完善储能产业链。

  1 本季度开始产能爬坡

  特斯拉上海储能超级工厂占地约20万平方米,面积相当于30个标准足球场大小。工厂内设焊装、涂装、总装等主要制造工艺,配备了先进的自动化生产设备和先进的管理系统。

  工厂所生产的Megapack,是特斯拉新一代超大型商用电化学储能系统。产品单体重量约30吨,超过一个集装箱。所谓储能系统,好比一个“超级充电宝”。它可以改变电力系统传统的即发即用方式,在用电低谷时充电、在用电高峰时放电,有利于促进新能源开发消纳和电力系统安全稳定运行。

  据悉,新建成的特斯拉上海储能超级工厂,规划年产Megapack1万台,储能规模近40GWh。在投产仪式现场,首台超大型商用电化学储能系统Megapack从上海储能超级工厂成功下线。Megapack外形就像一个白色集装箱,最大重量超过38吨,单个可以存储超过3900度电,相当于65辆Model 3后轮驱动版的电池容量,也相当于一辆Model 3后轮驱动版行驶超过3.9万公里。

  投产仪式上,特斯拉公司能源与充电业务副总裁麦克·斯耐德(Mike Snyder)表示:“我们致力于打造能源产品与电动车协同,来实现我们的愿景:加速世界向可持续能源的转变。今天,我们在这里共同庆祝上海储能超级工厂投产,它将于本季度开始产能爬坡,助力特斯拉开拓更多市场。”

  临港新片区管委会高科处处长陆瑜介绍,特斯拉与临港的二次合作,是对临港营商环境的深度认可。此次在与特斯拉上海储能超级工厂项目的合作中,临港不再只是快速响应,而是主动参与项目进程,主动为企业设计整个建设计划,对拿地到施工的所有中间环节一一梳理,才实现了“特斯拉速度”的再次刷新。

  2 储能业务毛利率攀升

  特斯拉早在成立之初就已经对储能产业进行布局。2015年开始,特斯拉在美国推出Megapack和Powerwall等产品,分别面向大型工商业储能和家庭储能市场。

  2023年,特斯拉储能装机总量达到了14.7GWh,是2022年的两倍以上,公司能源发电与存储业务的利润几乎翻了四倍。特斯拉公布的最新财务数据显示,2024年公司储能业务收入达到100.86亿美元,同比增长67%。这一增长幅度远高于公司整体营收的增长率,表明储能业务已成为特斯拉的重要增长极。同时,特斯拉储能业务的毛利率在2024年也有所提升,由18.9%提高至26.2%。

  特斯拉创始人马斯克此前表示,可再生能源的未来有赖于大规模储能。特斯拉Megapack储能系统可以支持高达千兆瓦时规模的低成本、高密度公用事业及商业项目。灵活性也是Megapack储能系统的一大特点,它随时能与电池模块、逆变器和温度系统集成安装,帮助电网更加稳定、可持续运行。

  设计层面,特斯拉也为各电池模块匹配了专属逆变器,每台机组均已经过大量测试,内含集成安全系统、专业监测软件等,大幅提升能源利用效率和安全性。同时,Megapack电池还可通过OTA(空中下载技术)空中升级实时更新,持续优化功能。

  特斯拉上海储能超级工厂是其在美国本土外的首个储能超级工厂项目。对比特斯拉美国的储能工厂,上海储能超级工厂更具生产成本优势。上海储能超级工厂的投产或将进一步推动储能业务成为特斯拉新的增长极。

  “中国的储能产业链比较全,供应商比较多,特斯拉可以挑选最佳的合作伙伴,也可以把成本压到比较低。”北方工业大学汽车产业创新研究中心研究员张翔向证券时报记者分析,特斯拉储能产品供应给中国的量比较大,有规模经济效应,特斯拉在储能领域的经验也很丰富,再加上品牌影响力,这些优势会让特斯拉在中国市场如鱼得水。依托中国本土供应链的优势,特斯拉Megapack的生产成本有望大幅降低,从而提升产品竞争力和利润率。

  3 促进产业链协同发展

  上海储能超级工厂的投产是特斯拉储能业务的里程碑,也是产业链协同发展的新起点。“希望通过上海储能超级工厂带动更多上下游企业在上海落地生根。”特斯拉对证券时报记者表示。

  上海储能超级工厂能否复制特斯拉上海超级工厂的“鲇鱼效应”尚待观察,但可以预知的是,储能工厂将同超级工厂一样带来产业链聚集。据悉,特斯拉上海超级工厂目前零部件本土化率已超过95%,在华签约的本土一级供应商超过400家,其中60多家供应商进入特斯拉全球供应链体系。特斯拉上海超级工厂平均每30多秒就有一辆整车下线。

  “特斯拉得以高效迅猛发展,中国供应链的参与功不可没。同时,特斯拉在中国市场的成功,也带动了上下游产业链供应链的迅速发展,促进了上下游合作共赢。”特斯拉表示。

  中国电池工业协会储能分会副秘书长张健分析指出,以生产新能源汽车的特斯拉上海超级工厂为代表,用市场换技术,带动本土产业链发展,可以实现多赢。特斯拉上海储能工厂的投产,可以促使国内相关企业进行技术升级,在此过程中,储能产品价格体系很可能会调整,短期对一些企业业绩有一定影响,但是从长期看,特斯拉上海储能工厂对带动中国储能产业链上下游企业发展是具有积极意义的。

  4 储能市场竞争或加剧

  当前,新型储能产业及应用规模不断壮大。《中国储能电池行业发展白皮书(2025年)》显示,2024年全球储能电池出货量达到369.8GWh,同比增长64.9%,其中中国企业储能电池出货量为345.8GWh,占全球储能电池出货量的93.5%,中国企业出货量全球占比进一步提升2.6个百分点。

  在中国和全球的储能产业方面,中国相关产业整体也在全球保持领先。有券商研报指出,中国储能产业链具有制造、成本和市场等优势。特斯拉在中国上海建设储能工厂,一方面看中了中国的规模制造、快速响应优势,能够快速补齐Megapack产能短板;另一方面利用中国完备且成本低廉的储能系统产业链优势,能够降低Megapack生产成本。

  盘古智库高级研究员江瀚认为,上海储能工厂的Megapack项目将有助于提升特斯拉在储能领域的竞争力。特斯拉电动汽车在中国市场销量很大,客户有充电需求,Megapack产品可以首先在特斯拉自家的充电场站应用。

 

  还有市场分析指出,储能市场竞争激烈,各家企业在技术研发、产能扩张、市场开拓、项目执行、商业模式创新等方面展开全方位竞争。随着政策驱动、技术进步以及成本下降,市场准入门槛逐渐降低,新进入者增多,竞争将进一步加剧。

  DeepSeek同时考虑算法精度和系统效率。除了极致的底层优化,协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。从最顶层的产品应用到底层的基础设施,大模型的每一个层级都已经形成了非常好的生态,每一个层级上都存在着优化空间。

  ·未来推理算力或将有2-3个数量级的提升。训练算力需求仍会有所增长,总体来看,算力需求会激增,成本会更高,但算力成本还有巨大压缩空间,单位算力成本将下降,效率得到提升。

  “原来大家觉得训练模型只需要招一批算法工程师,再融一大笔钱,买一大批卡,这事就能干了。但现在不是了,现在还需要招一批懂系统的人,这是AI行业的一个很大变化。”上海交通大学长聘教轨副教授、无问芯穹首席科学家戴国浩日前在接受澎湃科技采访时表示,DeepSeek使用的训练服务算力并没有随模型尺寸等比例成倍增加,而是通过底层优化释放底层硬件性能、软硬件协同创新“压榨”算力,大模型“炼制”开始追求极致性价比。

  利用2048张H800 GPU,预估不到两个月时间训练DeepSeek V3。H800每小时每卡2美元租赁成本,训练成本550万美元左右,其中不包括前期探索模型架构、消融实验等开销。戴国浩表示,DeepSeek打响生态闭环第一枪,对国产算力优化提出更清晰的路径。总体来看,算力需求会激增,推理算力或将有2-3个数量级的提升,算力成本会更高,但算力成本还有巨大压缩空间,单位算力成本将下降,效率得到提升。

  上海交通大学长聘教轨副教授、无问芯穹首席科学家戴国浩。

  底层优化释放底层硬件性能

  拆解DeepSeek的技术报告,相对于模型架构、预训练方法和后训练方法,DeepSeek着重介绍系统架构。相比之下,国外开源模型的公开技术报告中对于系统架构的介绍篇幅较少。

  戴国浩表示,DeepSeek的极致性价比来自于两大类优化,一是了解硬件细节,实现极致的底层优化;二是打通软件硬件,实现联合协同优化。前者基于确定性的算法模型及底层硬件,开展通信优化、内存优化,这些优化不改变任何程序执行结果。后者如混合精度的量化、对底层硬件的修改,扩大系统的优化空间。

  例如在通信优化上,DeepSeek采用双向流水线机制,让计算和通信将近100%重叠,实现更大的专家并行,使得模型能够像流水线一样“边算边传”,这被认为是使用有限资源训练更大模型的有效手段。在底层优化上,PTX的优化使得系统和模型可以更好地释放底层硬件性能,这也是DeepSeek能够更精细控制底层硬件、实现“边算边传”的重要原因。

  训练一个大模型,首先要有GPU。但开发者并不需要关注底层硬件的模样,只需要通过Python等高层次语言或英伟达CUDA等硬件接口进行编程,最终调用底层的GPU。而能够直接和底层硬件发生交互的PTX一般被隐藏在CUDA的驱动中,PTX是比CUDA更底层的硬件接口编程语言。越接近底层的语言对硬件的利用效率越高,在同样硬件能力下实现更精细的通信任务管理,将最费时的跨界点通信效率提升60%,跑出效果更好的模型。

  PTX编程并非行业机密,但此前几乎所有大模型算法工程师不会接触到这一层语言。因此,如果能够编程和调用PTX,就可以更好地调用底层硬件。不过,戴国浩解释,这并不意味着绕过了英伟达CUDA的垄断。从编程范式来看,DeepSeek在某些代码上绕过了CUDA的编程,但并未完全绕开CUDA生态。

  软硬件协同创新“压榨”算力

  “从最顶层的产品应用到底层的基础设施,大模型的每一个层级都已经形成了非常好的生态,每一个层级上都存在着优化空间。”戴国浩表示,除了极致的底层优化,协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。“原来的算法架构只考虑算法精度,大家觉得只要算法足够好就行了,但DeepSeek同时考虑算法精度和系统效率。”

  例如英伟达H800集成了FP8计算单元,戴国浩表示,使用更低精度训练,理论上可带来2倍的计算加速和50%的显存降低。但由于低精度训练极易损失模型效果,以及大模型高昂的试错成本,开源社区中尚无项目实现大规模FP8预训练落地。而DeepSeek实现了FP8低比特训练出高质量模型,坚定“榨干”硬件所有潜力。

  DeepSeek采用MLA(隐空间注意力计算机制)架构和MoE(混合专家模型)架构,MLA架构可进一步降低推理消耗的内存。在模型训练过程中,MoE架构采用1个共享专家和256个路由专家,每个token激活8个路由专家。

  据介绍,MoE架构训练超大模型,最大的挑战是负载均衡。DeepSeek引入一个专家偏见(expert bias),保证专家负载均衡,提升集群效率。专家偏见只影响专家路由,不产生任何梯度影响。专家偏见动态调整,如果某个专家过载,就会降低偏见,如果某个专家负载不足,就会增加偏见。DeepSeek采用MoE架构,又在算法和软件层面解决了MoE本身由于专家并行带来的通信开销问题,充分挖掘了算法、软件、硬件协同创新。

  打响国产AI生态闭环第一枪

  “无论是底层优化,还是协同优化,必须要对底层硬件和系统有非常深刻的理解,既要懂算法,又要懂硬件。”戴国浩表示,以PTX编程为例,这需要开发者清晰了解英伟达的硬件是如何制造的,因此门槛高,大模型公司少有对PTX编程。业内拥有系统优化能力的团队懂PTX编程,但模型训练本身投入大,难以持续优化。

  DeepSeek打响了第一枪,对国产算力优化提出了更清晰的路径。降低算力成本是国内发展大模型的核心之一。软硬件协同路径包含模型、系统、芯片等关键因素,在国外,这三者已经形成了完备的闭环生态。戴国浩表示,在以往的认知中,使用国外的芯片预训练、使用国外的模型做微调,得到的模型跟国外的闭源或开源模型相比总存在一定差距,国内的系统、芯片也难以形成闭环生态。但DeepSeek的出现使得国内的模型超越了国外的模型,软硬件协同降低了算力成本,这套方法论可以打破现在的闭环生态瓶颈。

  戴国浩说,DeepSeek在论文中单独用2页文字提出对于未来硬件设计的发展建议,进一步佐证了模型、系统、硬件的闭环路线。国外的闭环AI生态始终是一个同构的AI系统,其核心竞争力就在于CUDA-X的垂直整合能力。因此,他认为,未来国内AI发展要通过调动跨越软硬件和上下游生态,加大模型、芯片、系统协同优化和垂直打通,例如根据新一代模型架构来定义未来芯片的底层电路实现、根据国产AI系统的互联通信方式设计高效的混合专家模型架构。

  “如何将国内的模型、系统和芯片形成自主可控的闭环,这是未来一定会发生的事。”戴国浩表示,DeepSeek的崛起对国产算力的发展是好消息。未来推理算力或将有2-3个数量级的提升。训练算力需求仍会有所增长。总体来看,算力需求会激增,成本会更高,但算力成本还有巨大压缩空间,单位算力成本将下降,效率得到提升。

 

  戴国浩判断,未来大模型的发展趋势,一是继续国产化,二是极致的软硬件协同优化带来成本下降,提升模型训练和应用的极致性价比。性价比越高,算力需求量就越大,算力越吃紧。当前中国算力生态存在供不应求和供过于求的双重矛盾,中国特有的AI基础设施格局是多模型和多芯片,存在大量异构算力,需要把他们变得能用、好用,在使用闭环中形成硬件和算法的正向循环。戴国浩表示,要通过软硬协同和多元异构压榨算力,降低获取强大基座模型的成本,解决算力缺口,以有限算力实现国产模型能力赶超。