近期,國家數據局發(fā)布首批104個具有推廣示范價值的高質量數據集典型案例,中國電信申報的“網絡大模型高質量數據集”從663個案例中脫穎而出。這是繼今年5月榮膺國務院國資委首批30項央企人工智能行業(yè)高質量數據集優(yōu)秀建設成果后,中國電信在該領域取得的又一成果,充分彰顯了在推動數字經濟高質量發(fā)展中的領軍企業(yè)責任與擔當。
中國電信網絡大模型高質量數據集旨在精準破解大模型在通信行業(yè)落地應用時面臨的通用性與專業(yè)性鴻溝、知識沖突與幻覺、深度數據匱乏等核心挑戰(zhàn)。網絡大模型通過構建科學體系化的高質量數據集,為云網運營的全面AI化及自智水平提升奠定了堅實的數據基石,不僅顯著賦能企業(yè)自身發(fā)展,更惠及廣大行業(yè)客戶,有力促進了產業(yè)鏈的協(xié)同共進。
中國電信網絡大模型高質量數據集以“5+2”云網知識體系為堅實基礎,以組織、流程、運營和安全為四大支柱,確立了科學體系化的建設方法。通過深度整合通信領域多源復雜數據,打造了6TB大規(guī)模、高質量、多模態(tài)領域數據集,并構建數百個場景化知識庫。統(tǒng)一建設的啟明知識管理平臺提供高效數據集加工工具、分鐘級建庫工具、精準數據增強服務及動態(tài)管理能力,知識增強服務檢索量已突破千萬次,準確率穩(wěn)定在90%以上。
在技術層面,網絡大模型團隊融合多源智能解析、動態(tài)清洗、多級去重及數據合成等先進技術,研發(fā)出高精度的隱私保護算法與高效知識圖譜流水線。首創(chuàng)的SIE(來源 - 索引 - 編碼)分層建庫技術,實現了多模態(tài)數據的分鐘級建庫入庫;創(chuàng)新的多模態(tài)混合檢索架構及重排序技術,顯著提升了隱性知識發(fā)現效率與召回準確率,構建起通信行業(yè)高質量數據治理的典范。
網絡大模型高質量數據集首創(chuàng)SIE分層建庫技術,打通實時數據與大模型動態(tài)交互鏈路;依托“5+2”知識體系,實現數據精準治理與高安全性知識轉化;創(chuàng)新性地構建了“生產-規(guī)劃-采集-加工-應用-評估-反饋”的全生命周期閉環(huán)運營模式,建立了從集團到省公司的多級協(xié)同機制,保障了數據集的持續(xù)優(yōu)化與價值釋放。通過職責分工、質量追溯、周期聯動等創(chuàng)新管理手段,確保了數據集的動態(tài)更新與高質量維護,有力支撐了數百個知識庫的高效穩(wěn)定運行。