• 首页
  • 供应
  • 求购
  • 公司
  • 产品
  • 展会
  • 新闻
  • 人才
  • 会员商务室
  • 体育游戏app平台通过海量芯片半导体堆叠-开云·kaiyun体育(中国大陆)官方网站 登录入口

    发布日期:2026-02-21 09:14    点击次数:173

    体育游戏app平台通过海量芯片半导体堆叠-开云·kaiyun体育(中国大陆)官方网站 登录入口

      文 丨 新浪科技 周文猛

      在本质东说念主工智能大模子的进程中,采购超等缠绵服务或存储器,也正在成为灵验缓解算力惊险的新阶梯。

      近日,中国工程院院士、清华大学缠绵机系陶冶郑纬民在与新浪科技换取中指出,“以前本质一个大模子要参加几十亿,但如果把大模子本质拿到超算上去作念,价钱只需要用到英伟达的六分之一。”

      此外,郑纬民还指出了一种全新的AI推剪发展新趋势——“以存换算”。他以清华大学与AI独角兽企业月之暗面共同开导的Mooncake本事框架为例,先容了该本事基于“以存换算”念念路,匡助月之暗面kimi智能助手缓解算力弥留需求的旨趣,从而幸免服务器宕机。

      “把大模子本质搬到超算上,价钱只需英伟达1/6”

      郑纬民看到,在经过ChatGPT发布后全球各科技企业快速追逐后,本年大模子有两个特色:第一,基础大模子进入多模刻画态,不惟有文本,还有图像、视频等;第二,果真用起来了,大模子正与各行业本体的联接,比如大模子+金融,大模子+医疗、大模子+汽车、大模子+智能制造等。

      “大模子果真在与国民经济GDP、跟东说念主们的生流水平密切联接,我一直以为基础大模子咱们的水平跟好意思国比照旧差小数,但‘大模子+’这件事,咱们照旧有但愿着手好意思国的。”郑纬民暗示。

      联系词,大模子着实的应用进程中,在触及数据取得、数据预处理、模子本质、模子微调、模子推理等五个措施在内的全人命周期中,却需要多半的算力资源。若何以更低的本钱取得愈加高效、更高可靠的AI大模子算力资源,成为每家企业齐在念念考的问题。

      迫于国际高端芯片取得的贫困,当今国内为安静AI大模子本质带来的海量算力需求,主要发展出的一种处分念念路是:通过搭建千卡、万卡集群,通过海量芯片半导体堆叠,采购多家厂商的芯片进行异构卡辘集本质,来安静我方大模子居品本质的海量算力需求。但在郑纬民看来,这种姿色虽能处分算力紧缺问题,但也存在一些缺欠。

      着手,关于构开国产万卡系统,建成虽然伏击,但用好却很难。郑纬民以我方作念高性能缠绵的亲自资历身材力行说念:“建一个2000卡的系统,其中1000块用英伟达芯片,另外1000块用其他厂家的,系统建成也开动起来了,但最终发现这些芯片性能不一,有的身手小小数,有的身手大小数,一个任务下来分红2000份,还要给其中1000个芯片分小小数的任务,另外1000个分大小数的任务,这照旧静态的,如果是动态的,则成功分红了2000份最小的进行处理,性能很低。”

      郑纬民指出,大畛域算力集群成立进程中存在木桶效应,有的缠绵卡才气强,有的则弱,就像扫数桶装若干水最终是由短板决定的,板子再长也莫得用。“是以1000个老GPU和1000个新GPU合起来,性能比2000个老GPU性能还低小数,作念大畛域算力集群的本钱也挺大。”

      在郑纬民看来,进行大畛域异构卡辘集本质,在静态环境下想要完了最高的性能很难,并不合算,如果再触及他乡卡,就会更难,数据从北京传到贵州,贵州作念出来甩掉再送到上海,这中间触及的时分本钱极高。“钱少的东说念主不需要作念,钱多的东说念主不错试试。”

      郑纬民提倡企业尝试弃取超算来进行AI大模子本质。“我国有14亿超算系统,钱齐是国度付的,有的机器还有小数敷裕,因为国内超算机器收费低廉,不像英伟达要把机器本钱收回首还要赢利,是以巨匠作念大模子本质到青岛神威超算上作念,六分之一的价钱就够了。”郑纬民暗示。

      “以存换算,粗略灵验裁汰AI推理本钱”

      事实上,大模子着实的应用进程中,在触及数据取得、数据预处理、模子本质、模子微调、模子推理等五个措施在内的全人命周期中,需要多半算力资源的同期,也需要有着多半的存储资源,用于存储海量缠绵甩掉。尤其在模子推理进程中,若何存得多、传得快、性价比高,成为扫数行业齐在共同念念考的问题。

      此前,郑纬民曾公开说起,“AI存储是东说念主工智能大模子的重要基座,存储系统存在于大模子人命周期的每一环,是大模子的重要基座,通过以存强算、以存换算,先进的AI存储粗略升迁本质集群可费用,裁汰推理本钱,升迁用户体验。”

      在与新浪科技换取中,郑纬民共享了“以存换算”的基承诺趣。他指出,“大模子岂论是本质照旧推理,齐需要很大的算力,同期也需要好多存储,用来存储大模子本质出来的海量参数,以及推理进程中产生的一些进程数据。”联系词,如果扫数本质或推理进程中需要存储的数据越来越多,这会导致存储器资源紧缺,最终反而又会成为大模子性能升迁的“职守”。

      据郑纬民先容,为处分上述问题,清华大学想了两个主义:第一,在推理进程当中,当今主如果推理卡就业,主机CPU跟主机存储器是无谓的,因此,不错想主义把主机上的存储工具到推理进程中,升迁了存储器欺诈率,性能升迁的同期,也从简了束缚购买推理卡的资金本钱;第二,将推理进程中产生的共性的、用户共用的内容存储起来,通过存储必要推理进程中产生的数据,当后续遭受访佛问题的时候成功调用,成功省去了每次遭受访佛问题时推理进程,升迁了效果,同期从简了资源。

      郑纬民以清华大学与月之暗面共同研发的Mooncake本事框架为例先容指出,“通过将不同用户与Kimi对话的人人内容提取出来,存储下来,这不仅减少了每次用户发问齐要再行生成的进程,从简了许多算力卡,也减少了kimi因探访过大导致的‘探访延长’或‘宕机’等问题。”

    海量资讯、精确解读,尽在新浪财经APP

    就业裁剪:李昂 体育游戏app平台