數據加工

簡介

數據加工實現農業科學數據按照一定規則進行農業科學數據清洗,檢查數據一致性并處理無效值、缺失值等,開展數據治理控制與數據治理標識,確保數據處理全流程管理并保障科學數據質量。數據加工主要包括:數據清洗、文本數據結構化處理、數據格式轉換、數據質量管控等。

數據清洗:對農業科學數據進行重新審查和校驗,發現并糾正數據文件中可識別的錯誤,從數據準確性、完整性、一致性、唯一性、適時性、有效性等方面檢查數據,并按照一定清理規則將原始數據中“臟數據”轉換為滿足數據治理要求的科學數據。

文本數據結構化處理:通過文本“碎片化”加工實現文本數據由非結構化數據形式處理成為半結構化、結構化數據。中心可根據科學數據用戶業務需求實現文本數據的半結構化轉換,即識別文本數據中各級標題及其所屬文本、插圖和表格等數字對象,并進行規范化標注,支撐知識組織與知識挖掘。

數據格式轉換:實現不同學科領域、不同類型數據的格式轉換,如地理信息數據、空間數據、遙感數據等的格式轉換,實現數據從一種表示形式轉變為另一種表現形式的過程,支持數據的有效存儲、應用與共享。

數據質量管控:中心實現對農業科學數據治理相關規范的制定、審核、發布,基于有效的數據治理管理規范、數據質量監督手段和工具、治理方法和過程等提升農業科學數據質量管理水平。

福彩怎么玩