亚洲精品午夜久久久久久久久久久,国产91精品久久久久久久,国产精品成人av,热99re久久免费视精品频软件,欧美一区欧美二区,在线不卡av网站,亚洲欧洲日本精品一区二区三区

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

華為,正式發(fā)布!計劃于9月開源

2025-08-12 17:42:16

每經(jīng)編輯|張錦河    

8月12日,華為正式發(fā)布AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器)。據(jù)了解,作為一款以KV Cache為中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),可擴大推理上下文窗口,實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。該技術(shù)已率先在中國銀聯(lián)“客戶之聲”“營銷策劃”“辦公助手”三大業(yè)務(wù)場景中,開展智慧金融AI推理加速應(yīng)用試點,并已取得成果。

華為計劃于2025年9月正式開源UCM,屆時將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲廠商和生態(tài)伙伴。

圖片來源:每日經(jīng)濟新聞 資料圖

據(jù)悉,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中實現(xiàn)按需流動,同時融合多種稀疏注意力算法實現(xiàn)存算深度協(xié)同,使長序列場景下TPS(每秒處理token數(shù))提升2至22倍,從而降低每個Token的推理成本。

Token是AI模型中的基本數(shù)據(jù)單位。在訓(xùn)練過程中,AI大模型會學習標記Token之間的關(guān)系,從而執(zhí)行推理并生成準確、相關(guān)的輸出。

數(shù)據(jù)顯示,國外主流AI大模型的單用戶輸出速度已進入200 Tokens/s區(qū)間(時延5ms),而我國主流AI大模型的單用戶輸出速度普遍小于60 Tokens/s(時延50至100ms)。

每日經(jīng)濟新聞綜合自公開信


如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0