國家數據局印發行業高質量數據集建設行動的實施方案(全文)

觀點網

2026-06-08 18:04

  • 行業高質量數據集是經過采集、加工等數據處理,可直接用于開發和訓練人工智能模型,能有效提升模型性能的行業數據的集合,包含行業通識和行業專識數據集。

    觀點網訊:6月8日,國家數據局印發《關于推進行業高質量數據集建設行動的實施方案》。

    國家數據局關于印發《關于推進行業高質量數據集建設行動的實施方案》的通知全文如下:

    行業高質量數據集是經過采集、加工等數據處理,可直接用于開發和訓練人工智能模型,能有效提升模型性能的行業數據的集合,包含行業通識和行業專識數據集。行業高質量數據集是推動“人工智能+”賦能千行百業、實現産業落地的基礎性、關鍵性資源。為落實國民經濟和社會發展“十五五”規劃《綱要》,深入實施“人工智能+”行動,推動行業高質量數據集建設推廣與“人工智能+”同頻共振、互促共進,強化數據賦能人工智能創新發展,制定本方案。

    一、總體要求

    以習近平新時代中國特色社會主義思想為指導,深入貫徹黨的二十大和二十屆歷次全會精神,全面落實“人工智能+”行動,主動順應人工智能發展範式躍遷,按照“需求牽引、急用先行、應用驗證、安全保障”原則,聚焦國民經濟發展重點行業和戰略性新興産業,圍繞行業高質量數據集供給、流通、應用等關鍵環節,部署強基擴容、標注攻堅、提質增效、應用賦能、管理服務、價值釋放六個專項行動,形成“場景牽引數據、數據驅動模型、模型賦能應用、應用創造價值”的“數據飛輪”,加快構建數據要素與人工智能協同演進的共生生态。

    到2028年底,建成一批覆蓋重點領域、經過應用驗證的行業高質量數據集,打造一批數據驅動人工智能創新發展的典型應用場景,培育一批具備領先優勢的創新型數據企業和專業人才,形成一批行業高質量數據集建設工具和標準。數據從供給到價值釋放的良性循環基本形成,數據賦能人工智能創新發展的作用更加凸顯,數據産業與人工智能深度融合,持續催生智能經濟新增長點。

    二、實施強基擴容行動

    順應人工智能加速向行業滲透,從對話向多模态生成、決策執行、具身智能、物理交互等範式躍遷的趨勢,拓寬數據供給渠道,豐富數據供給類型,加快建設行業高質量數據集,為人工智能發展和應用提供充足“燃料”。

    (一)聚焦行業領域推進高質量數據集建設。聚焦科學研究、工業制造、農業農村、智慧能源、交通運輸、金融服務、醫療衛生、教育教學、電子商務、人力資源、文化旅遊、應急管理、氣象服務、綠色低碳、公共安全、城市治理、住房建設、自然資源、社會信用等重點領域,以及低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等創新領域,加快推進行業高質量數據集建設。

    (二)夯實行業高質量數據集建設基礎路徑。梳理行業數據資源底數和應用場景,建立數據資源清單和數據集需求清單。以應用為牽引,持續推進行業高質量數據集建設先行先試,加快形成一批可復制、可推廣的數據驅動型示範場景。強化鏈主單位牽引帶動作用,支持鏈主單位以聯合體等形式推動産業鏈上下遊協同共建和資源整合,持續擴大行業高質量數據集供給規模,鼓勵鏈主單位面向行業開放數據集並提供數據服務,賦能産業鏈上下遊中小企業。鼓勵高等院校、科研院所、行業協會、數據流通服務機構、第三方專業服務機構等各類主體參與行業高質量數據集建設。加大公共數據資源開發利用力度,推動公共數據與行業數據融合利用,建設一批高質量數據集。

    (三)面向人工智能應用需求豐富行業高質量數據集建設形态。持續推進文本、代碼、圖像、音頻、視頻、點雲、時序數據、科學數據等多模态高質量數據集建設,賦能人工智能預訓練、指令微調、強化學習、測評等各階段。加強知識庫、知識圖譜、本體等數據集建設,加快復雜任務規劃、長程推理、人機交互、決策執行等數據集建設,賦能智能體等新型智能應用形态。加快重點場景物理交互、環境感知、運動控制等真機交互數據集建設,積極應用仿真模拟與合成技術擴大數據供給,賦能具身智能發展。積極面向世界模型等前沿方向,推進數據集建設。

    (四)強化與數據基礎設施建設有機聯動。鼓勵依托國家數據基礎設施,充分運用隐私保護計算、可信數據空間等能力,開展數據集安全存儲、可信流通、高效應用,推動數據集從分散持有向集約化、標準化供給轉變。鼓勵探索建設支撐大規模、多模态數據集的數據基礎設施存力中心。

    三、實施標注攻堅行動

    數據標注是将知識和經驗注入到訓練數據的過程,是行業高質量數據集建設不可或缺的關鍵環節。引導數據標注從“以人為主”向“人機協同、專家深度參與”的多層次標注模式轉變,推動數據標注向專業化、智能化躍升。

    (五)推動數據標注轉型升級。加強數據標注領域科技創新,強化自動化工具和平台的研發與應用,發展“模型預標注+人工校準”“人工標注+模型檢驗”“模型預標注+模型檢驗”等智能化標注服務,全面提升數據標注水平。發展專家型數據標注服務,建立行業專家認證機制,推動專家深度參與指令微調、強化學習等階段所需的專業知識標注,生産領域知識、邏輯推理等高質量數據集,提高數據集的知識密度與專業價值。

    (六)持續推動數據標注先行先試。指導首批七個承擔數據標注先行先試任務的城市,持續做強做深數據標注産業。面向創新能力強、發展基礎好、産業特色優的地區,梯次布局一批數據標注創新試驗區。有序引導具備條件的地區因地制宜開展試驗區建設,促進數據標注産業鏈上下遊緊密協同,形成産業集聚效應。培育一批數據標注龍頭企業、獨角獸企業、瞪羚企業,壯大數據標注産業。

    (七)擴大數據標注人才供給。支持有條件的院校增設數據標注相關課程,依托産教融合、校企協同等方式,培育具備專業知識的數據標注人才。鼓勵開展數據標注職業技能等級認定,強化繼續教育與在職培訓,暢通人才發展通道。完善分層分類人才評價體系,建設專職與兼職相結合的專業標注人才隊伍。鼓勵高校畢業生等群體參與標注工作,通過靈活就業、項目協作、多元崗位供給等方式,擴展就業渠道。

    四、實施提質增效行動

    推動構建符合結構完整性、内容多樣性、標注準确性、模型适配性等質量標準、滿足人工智能就緒(AI-Ready)的高質量數據集,降低訓練推理成本,有效提升模型性能。

    (八)提升行業高質量數據集建設質效。加強數據清洗、增強、標注、對齊、質檢等關鍵技術攻關和全過程自動化工具研發應用,支撐高效率、高標準構建行業高質量數據集。針對行業特定應用場景,鼓勵運用數據智能過濾與配比等技術,構建更精、更強的高知識密度數據集,降低訓練推理成本。發揮數據合成在數據集建設中的積極作用,利用模型、仿真系統等生成的數據,解決稀缺場景數據集構造難、真實場景數據采集成本高等問題。

    (九)推動高質量數據集標準體系建設和應用落地。加快推進高質量數據集格式、類型、標注、質量測評等相關國家標準研制、應用驗證和貫標,健全高質量數據集標準體系。鼓勵各行業、各地方與國家標準聯動,推動重點行業領域高質量數據集標準研制。加強在産業政策、政府采購、招投標中引用相關標準,引導産業執行高水平標準,用好檢驗檢測等手段推動標準實施,促進高質量數據集規範化建設。

    (十)強化高質量數據集質量測評和結果互認。持續完善“數據質量驗證+模型應用反饋”的測評方法,加快建設覆蓋多行業、多場景、多模态的測評數據集,有效評估高質量數據集應用效果。發起高質量數據集測評聯合行動倡議,推動相關單位按照標準,采用統一測評方案和工具開展測評和封裝工作,實現“一次測評、全國互認”。

    五、實施應用賦能行動

    堅持行業高質量數據集建設與實際應用深度融合,以模引數、用數賦模,促進高質量數據集建設與“數據要素×”“人工智能+”同頻共振,全面賦能産業數智化轉型。

    (十一)打造“數據飛輪”應用閉環。以模型應用牽引數據供給、以數據賦能模型叠代,推動形成“場景—數據—模型”協同發展的良性循環。發揮“人工智能+”場景牽引作用,推動數據供給和場景的精準匹配,以用促建,以實際需求吸引更多數據資源匯聚,推動行業高質量數據集有效供給和持續優化。結合“數據要素×”行動,深化行業高質量數據集建設,以建促用,充分利用模型應用産生的動态交互數據等,驅動行業模型能力持續提升。

    (十二)打造行業應用標杆和典型案例。着力打造集“數據集生産加工和流通利用、支撐模型訓練應用”于一體的數據賦能工場,打造一批行業標杆,加速人工智能應用落地。打造一批數據賦能智能體解決實際問題的典型案例,推動高質量數據集規模化應用。

    (十三)繁荣數據集協同發展生态。加強統籌協調,強化部門聯動,分行業分領域有序推進高質量數據集建設和應用。搭建“政産學研用金”多方交流平台,形成共建共享、互利共赢的産業生态,破解“數據孤島”“數據煙囪”。常态化舉辦供需對接活動,提升供需匹配效率,促進實質性合作落地。組織遴選行業高質量數據集建設和應用典型案例,發揮行業示範引領作用。支持舉辦行業高質量數據集創新賽事活動,以賽促建、以賽促用。深化國際交流合作,建立健全數據集跨境安全有序流動機制,推動跨境流動規則互認,鼓勵行業高質量數據集建設主體積極參與全球數據生态建設。

    六、實施管理服務行動

    加強數據集管理,完善數據倫理和治理機制,推動落實數據權益相關制度,推進數據集建設體系更加規範有序。

    (十四)構建數據集全生命周期的管理體系。加強覆蓋數據采集、清洗、加工、標注、質檢、測評、叠代、審計等全生命周期的數據集管理服務能力建設,依托數據基礎設施,強化隐私保護計算、區塊鏈等技術應用,确保數據可管、可控、可追溯。建設“物理分散、邏輯集中”的國家數據集管理服務系統,實現數據集目錄、供需等信息互聯互通。支持各地方、行業依托國家系統設置專區,支持已有系統與國家系統對接。

    (十五)探索面向人工智能發展的數據相關制度。落實數據持有權、使用權、經營權三權分置制度。研究合成數據等新情況新問題。兼顧産權保護與創新發展需求,完善人工智能訓練階段數據使用規則,推動版權作品數據等有序用于模型訓練,完善數據授權使用機制和收益分配規則,打造權責清晰、合規包容的制度環境。

    (十六)堅持倫理先行與公平普惠。研究探索高質量數據集倫理道德規範,堅持有益社會的價值導向,嚴禁非法收集或使用敏感數據。防範數據集建設全流程産生數據偏見與歧視,充分考慮社會各界多元需求,最大限度确保數據集建設成果惠及全民。

    七、實施價值釋放行動

    發揮數據集的應用價值,以行業高質量數據集賦能人工智能發展。釋放數據要素價值,推動數據集商業化、資産化,培育為數據付費的市場共識,探索以詞元(Token)為基礎的價值體系。

    (十七)發揮行業高質量數據集的應用價值。建立數據集和模型需求對接機制,推動行業高質量數據集和模型精準适配,提高模型質量和效率,深度賦能行業發展。推動行業高質量數據集跨行業、跨領域、跨場景融合利用,鼓勵“以數換數”“數模互換”“數據托管”“數算一體”等多種應用模式。積極參與開源社區建設,鼓勵中介機構、公益機構将基礎性、公益性數據集作為公共産品向社會公開,激發用數活力。

    (十八)創新行業高質量數據集商業模式。完善數據集長效運營機制,鼓勵數據集在數據交易所(中心)等數據流通服務機構挂牌交易,發展“訂閱模式”“商場模式”“定制模式”等多元服務形态,推動商業模式從基礎數據包銷售向API調用、模型化解決方案及全棧服務梯次躍升。探索詞元交易等新型交易模式,構建以詞元為基礎,可量化、可定價的數據價值體系。

    (十九)探索行業高質量數據集資産化創新路徑。鼓勵有條件的單位率先探索開展數據集資産盤點、登記、評估等試點工作,為數據資産化積累可復制、可推廣的經驗。鼓勵探索數據集質押融資、作價入股、資産證券化、數據信托、數據保險等多元資産化創新模式,拓寬數據價值轉化渠道。

    (二十)培育為高質量數據付費的市場共識。建立健全市場化利益分配機制,确保數據供給、加工、流通、應用等各環節主體均能獲得市場化價值回報,共享數據紅利。鼓勵數據需求方通過購買、合作等形式加大投入,充分發揮政府部門、國有企業、模型企業等單位的示範引領作用,推動數據采買納入預算編制,率先開展數據采購實踐,帶動形成數據有償使用市場共識,構建健康可持續的數據市場生态。

    八、保障措施

    國家數據局發揮統籌協調作用,會同有關部門協同推進高質量數據集建設與應用,構建“部門協同、領域聯動”的工作格局。各地要落實屬地管理責任,加大組織實施力度,避免一哄而上,防止同質化、低水平重復建設,結合實際制定配套措施,統籌安排數據産品和服務采購經費,用于支持行業高質量數據集建設。支持各類主體以應用為牽引,積極開展和參與行業高質量數據集建設。引導金融機構、耐心資本、産業基金等,加大對行業高質量數據集建設的投資力度,鼓勵地方設立專項資金,探索多元化、多渠道投入機制。鼓勵在依法依規、風險可控前提下開展創新探索。持續跟蹤行業高質量數據集建設工作,完善監測指標,評估建設和應用成效,階段性總結經驗。強化安全保障,落實數據安全相關法律法規要求,建立全流程安全治理機制,防範數據投毒與污染、數據洩露等安全風險,守牢數據安全底線。

    免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。

    審校:



    相關話題讨論



    你可能感興趣的話題

    科技

    大數據

    政策