聯想控股參與“高質量數據集煉金工坊”生態計劃
數據之于人工智能,猶如石油之于工業時代。高質量數據集的建設是提升AI模型性能的關鍵,也是推動“人工智能+”行動落地的保障,標志著人工智能發展正在進入“數據驅動”新階段。
在近日舉行的人工智能高質量數據集暨數據標注產業成果發布會上,依托中國人工智能產業發展聯盟,聯想控股聯合中國信息通信研究院人工智能研究所、中國國家圖書館、高等教育出版社、中國科學院文獻情報中心、景德鎮陶瓷研究院、中國版權保護中心以及百度等單位共同發起“高質量數據集煉金工坊”生態計劃。該計劃旨在打造一個人工智能與數據要素協同發展的可持續生態體系,將原始數據轉化為具有高價值的“數據黃金”,為人工智能的發展提供源源不斷的動力,讓數據從“沉默的礦藏”變為“流動的黃金”。
數據集,簡而言之,是由一系列相關數據整合而成的集合,具備明確的主題,且能夠被標識與計算機化處理。作為機器學習和統計建模的基石,數據集為算法學習提供了關鍵的 “原料”,也是智能應用背后的 “智慧之源”。無論是在助力 AI 模型能力提升方面,還是在推動行業應用落地進程中,根據具體場景選擇合適的數據集類型并構建科學合理的數據結構,都已成為人工智能工程中不可或缺的基礎性環節。
然而,當前我國在高質量數據集方面卻面臨著嚴峻的短缺形勢:數據集質量參差不齊,缺乏具有主流高價值的數據引領方向。數據集的混用現象時有發生,這不僅會干擾訓練效果,還可能導致大模型出現諸如測試分數虛高、泛化能力減弱、在不相關任務中表現大幅下滑等問題,甚至可能引發實際應用中的不良后果;高質量數據集的標準體系尚處于待完善狀態,數據質量評估評價缺乏統一標準,政務領域和重點行業也缺乏典型的主流價值數據集。
鑒于此,各方面正積極投身于高質量數據集的建設工作。國家數據局等17部門聯合印發的《“數據要素×”三年行動計劃(2024—2026年)》提出,“推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集”。中國電子信息產業發展研究院院長張立表示,建設高質量數據集是落實《中共中央國務院關于構建數據基礎制度更好發揮數據要素作用的意見》,推動數據產業和數據標注產業高質量發展,推進“人工智能+”行動的重要抓手。
高質量數據集的建設需要政府、行業組織以及龍頭企業集團的緊密協作。聯想控股將憑借其在制造、醫療、教育、安防、能源、新材料、專業服務、 金融 和消費等多個領域的應用場景優勢,能夠提供相應的高質量數據集,其聯合中國信息通信研究院人工智能研究所等機構共同發起的 “高質量數據集煉金工坊” 生態計劃,正是為了充分釋放數據要素的價值,為人工智能的發展筑牢根基。