国产精品手机在线,亚洲国产精品影视,免费日韩av在线播放,中文字幕2区,超碰在线94,亚洲男人的天堂网,日韩av免费在线观看

AI 破解新污染物治理難題,中國數據集彰顯硬核實力

2025-8-11 14:07 來源: 中國環境 |作者: 卜元卿 胡昊

日前,化學品和廢物三公約締約方大會于瑞士日內瓦召開,大會主題為“讓無形變得有形:化學品和廢物的健全管理”。化學污染物具有種類繁多、來源廣泛、危害巨大等特點,已成為全球亟待解決的新型污染治理難題。以大數據、機器學習等為核心的人工智能技術,為新污染物治理開創了新的科學范式。

要實現新污染物治理的智能化,關鍵在于掌握系統、清晰且準確的數據資源。自上世紀中后期起,歐美發達國家及國際組織積極建設化學物質數據集,為全球治理和履約談判提供了有力支撐。為提升我國新污染物治理能力和在國際上的話語權,我國正積極推進全國新污染物生態毒理和健康毒理數據集成專項工程,構建國家新污染物計算毒理和暴露預測大數據平臺,憑借中國力量為“無形”的化學污染提供切實可行的“有形”解決方案。

一、主要成果

生態環境部南京所攜手生態環境部信息中心、中國科院生態環境研究中心、天津大學等20余家國內頂尖科研機構,聚焦新污染物環境與毒理數據集構建、計算毒理和暴露預測工具開發、應用場景適配三大核心方向,持續進行技術攻關。通過系統集成環境和毒理數據資源,不斷提升新污染物計算毒理與環境暴露預測的模擬能力,已基本實現面向應用場景的新污染物生態環境風險智能評估。

(一)建立新污染物環境與毒理數據集。一是系統集成多源多模態數據。利用Apache Nutch、Scrapy等大數據技術系統集成了國際國內數據集、文獻和技術報告等來源公開發表的多模態(結構化、非結構化)數據,累計收錄化學物質超40萬種,分為3類,一是我國有可能在產在用的“所有”化學物質約38萬種(類),二是新登記化學物質46,928種(類)(最近更新為2025年4月30日),三是我國環境標準中涉及的污染物、優評優控化學物質和重點管控新污染物(2023版)共574種(類)。二是構建數據集多維參數體系。數據集包含生態毒理、健康毒理和環境暴露等超過1600項參數,其中生態毒理數據包含1.3萬余種環境生物的40類參數;健康毒理數據包含358種實驗生物的1522類參數;理化性質共36類參數,環境行為12類參數。數據總量已超1300萬條,替補國內空白。三是建立全生命周期質控體系。數據集收錄了來自我國良好實驗室規范的實測數據,提供了一手本土化環境生物(2028種)急/慢性毒性數據資源,也為新污染物元數據參數體系構建提供了研究依據。融合多模態AI技術,構建跨文本/圖像關聯分析模型,數據審查效率提升3倍以上。

(二)開發計算毒理和暴露預測工具。一是開發新污染物急性毒性預測模型。基于定量-構效關系(QSAR)與機器學習技術開發了環境敏感生物的智能化急性毒性預測模型及其配套軟件,可快速預測新污染物毒性水平,識別毒性警示片段,為綠色化學設計、高通量毒性預測等提供了支撐技術。二是開發本土場景新污染物環境遷移與暴露模擬器。結合我國氣象氣候、生態系統及地理環境等區域特征,開發環境新污染物遷移與暴露模擬器,模擬敏感區域新污染物在污染源-暴露途徑-受體遷移過程的動態變化,為今后新污染物實施分區域差異化風險精準管控提供了研究基礎與平臺支撐。

(三)建立場景化的生態環境風險評估“智能”模型。一是建立可交互的數據發表平臺。該平臺允許用戶以單個或批量形式自主上傳新污染物數據,系統能夠自動開展數據格式校驗與內容審核工作,達成數據上傳與審核的智能化、可追溯管理,保障數據的可靠性與可信度。二是建立本土化的數據查詢平臺。此平臺不僅彌補了我國本土數據的空白,還研發出基于化學信息學的化學名稱檢索工具,提供精準、模糊和自定義檢索服務,支持批量識別與檢索,大幅提高信息識別能力與檢索效率。三是研發生態閾值智能研判模型。該模型支持用戶根據自身需求個性化選擇應用場景(土壤/淡水)及毒性數據(急性/慢性),經由數據自動檢索和算法匹配,完成數據正態分布檢驗、SSD擬合、最優模型篩選和生態閾值計算,將研究過程和結果進行可視化呈現,支持以PDF與Word格式輸出報告。四是研發場地新污染物生態環境風險評估智能模型。該模型依據環境風險評估流程,整合危害識別、效應評估、環境暴露與風險計算模塊,實現“一鍵式”場地新污染物生態環境風險的智能評估。江蘇、廣東、西藏等多地示范項目中,成本降低20%—30%,運行周期最大縮短50%。

(四)構建場景化的生態環境風險評估“智能”模型。其一,搭建可交互的數據發布平臺。該平臺允許用戶以單個或批量形式自主上傳新污染物數據,系統能夠自動開展數據格式校驗與內容審核工作,達成數據上傳與審核的智能化、可追溯管理,保障數據的可靠性與可信度。其二,構建本土化的數據查詢平臺。此平臺不僅彌補了我國本土數據的空白,還研發出基于化學信息學的化學名稱檢索工具,提供精準、模糊和自定義檢索服務,支持批量識別與檢索,大幅提高信息識別能力與檢索效率。其三,研制生態閾值智能研判模型。該模型支持用戶根據自身需求個性化選擇應用場景(土壤/淡水)及毒性數據(急性/慢性),經由數據自動檢索和算法匹配,完成數據正態分布檢驗、SSD擬合、最優模型篩選和生態閾值計算,將研究過程和結果進行可視化呈現,支持以PDF與Word格式輸出報告。其四,研發場地新污染物生態環境風險評估智能模型。該模型依據環境風險評估流程,整合危害識別、效應評估、環境暴露與風險計算模塊,實現“一鍵式”場地新污染物生態環境風險的智能評估。江蘇、廣東、西藏等多個示范項目運行顯示工作周期最大縮短50%,成本降低20%—30%。

二、存在的問題

盡管我國在新污染物環境與毒性數據的集成、計算毒理及暴露預測開發方面取得了顯著進展,但目前仍面臨數據完整性和覆蓋度不足、數據規范和標準缺失,以及數據挖掘與垂直場景應用不充分等挑戰。

(一)數據完整性不足。一是新污染物關鍵參數匱乏。目前,僅有少數新污染物具備完整的環境遷移、歸趨及毒理的監測和實驗數據,難以構建涵蓋多介質、多物種、多終點的新污染物全景式數據視圖。例如,環境監測數據在空間覆蓋上有限,且缺乏連續的時間序列;毒理實驗數據普遍缺少慢性低劑量暴露、長期毒性以及聯合污染效應等復雜毒性終點信息。二是實驗條件元數據缺失。無論是國際主流數據集,還是文獻、報告等資料,大部分數據均未提供完整的數據生成試驗條件,缺乏溯源信息及可追溯性,這使得數據建模過程受到限制。三是多模態數據自動獲取難。大量新污染物的相關信息散布于學術論文、技術報告、監測報告等非結構化或半結構化文本之中。此外,部分實驗數據僅以半定量或定性形式呈現(如光譜圖、色譜圖等)。然而,由于缺乏專業的判斷以及計算機融合技術,這些數據尚未得到充分的采集與整合,從而削弱了數據的完整性與全面性。

(二)數據標準化不足。一是新污染物目前尚無通用的身份標識符。現行的化學文摘社登記號(CASRN)在不同數據集中可能關聯多條記錄,存在重復或歧義現象,導致跨數據集信息的自動化整合面臨困難;此外,混合物、聚合物以及未知或可變成分物質(UVCBs)等復雜化學物質,仍缺乏清晰、系統和一致的識別機制。二是數據字段體系復雜且異構。不同數據集在參數術語、字段命名規則、單位標注方式以及數據結構層級深度上存在差異,這導致在數據集合并或比對過程中,需要額外復雜的映射邏輯。此外,字段含義注釋不充分,多數字段僅以簡短的術語或縮寫形式呈現,缺乏標準化的定義和說明,容易引發跨平臺解釋上的歧義。三是數據“加工流程”缺乏標準化管控。當前,各數據集在數據的篩選、清洗和質量評價等方面缺乏統一的規范標準和流程。例如,對同一參數或研究結果的不同來源,其可信度判斷和可靠性分級存在不一致性;同時,缺乏針對冗余、重復、異常等數據的操作技術規范,以及新生成數據的標注規范。此外,數據質量評估的評價指標體系亦顯不足,這些問題共同降低了數據的可用性和可靠性。

(三)數據挖掘度不足。一是我國新污染物種類尚未完全厘定。數據顯示,全球主要國家已登記使用的化學品及其混合物數量已超過35萬種。然而,由于各國在監管體系、產業結構及應用場景方面存在顯著差異,我國迫切需要進一步排查并梳理出符合本土情況的新污染物清單。二是多模態數據融合不足。由于缺乏多源異構數據的對接技術和統一標準,難以對多源數據信息的語義關聯、時空動態識別及混合效應進行深入分析。三是算法與模型應用局限。計算毒理和環境暴露的算法與模型在面對大規模、非線性、高階及多源異構數據時的自適應能力仍需進一步提升。例如,毒性預測的QSAR模型尚無法自動從多終點毒性數據(包括急性毒性、慢性毒性、生殖毒性、內分泌毒性等)中識別出潛在的毒性機制。

三、工作建議

新污染物環境與毒理數據集成具備專業性、應用性、動態性和長期性等顯著特點。以本數據集為基石,借助人工智能等數字技術的賦能,系統性強化高質量數據資源的開發,全面提升新污染物生態環境風險防控能力,共同構筑美麗健康的世界的目標。

(一)構建統一的數據標準化體系。一是明確數據采集、編碼、審核和存儲各環節的標準和規范。制訂統一的數據篩選標準及采集技術標準,構建定量化的數據評估質量指標體系,建立新污染物數據集字段命名指南,明確必填的元數據項,如新污染物標識、參數類型、實驗條件、測試方法等。建立數據字典與字段注釋說明庫,對每一個字段提供標準化定義、數據類型、允許取值范圍及示例,確保不同來源的數據能夠統一格式化、校驗去重與歸檔。二是編制本土化與受控詞表指南。開展我國高關注新污染物及特色區域環境場景的調研與梳理工作,并增補相關受控詞條,構建層級化結構并制定映射規范,以確保系統的兼容性與可擴展性。三是制訂合成數據與交換協議標準。建立標準化的數據檢測、清洗及處理規范,制定“合成數據標注標準”及數據版本管理規范,明確區分“計算值”與“實測值”,確保派生數據可追溯至原始數據及計算流程。同時,制定數據交換協議和數據導入/導出接口規范,構建字段校驗、格式校正和錯誤反饋機制,保障不同來源的數據能夠按照統一標準實現無縫對接。

(二)持續開發多源多模態數據資源。一是建立智能化數據收集和提取體系。開發基于環境領域的大數據技術,實現對非結構化和半結構化文本的自動化批量抽取與結構化處理,并構建自動抽取結果的人工智能校驗機制,確保批量數據的品質與精準度。二是開發新污染物多模態數據標注技術。構建涵蓋圖片、視頻、聲音等多模態數據的高效標注框架,融合先進的跨模態學習算法,研發自動化標注工具,以顯著降低標注成本并提升標注效率。三是構建新污染物語義知識圖譜?;谖覈瘜W物質基礎數據、地理信息、環境狀況及毒理數據等核心基礎信息,并整合政策法規、環境標準等多維要素,構建全面的關系語義網絡,旨在為深入挖掘多源數據間的潛在關聯提供豐富語料。

(三)創新數據挖掘與算法模型。一是提高算法模型適用性。構建數據資源-模型開發-場景應用-優化評估-結果驗證的閉環模型體系,建立完善的模型性能評估指標體系,深入進行模型可解釋性分析及外部驗證,旨在全面提升算法在各類應用場景中的可靠性與穩定性。二是持續迭代新污染物環境暴露模擬器。構建新污染物空間與時序模擬監測網絡,研發全生命周期虛實映射的數字孿生技術,開發適用于不同尺度的環境暴露數字化仿真系統,實現對多區域、多介質及不同時間序列新污染物的精準數據模擬,從而彌補環境暴露監測數據的不足。三是開發智能決策輔助系統。研發針對細分場景的知識蒸餾輕量化技術,構建垂直領域的大模型矩陣,以實現新污染物在環境評價、污染協同治理及應急管控等場景中的高效精準分析。

最新評論

碳市場行情進入碳行情頻道
返回頂部