臺灣經驗實證調查資料的幕後工作

前言

在「凡走過必留下痕跡-簡介臺灣實證調查資料庫」一文中,我們深入介紹了國科會人文處所建立的「臺灣經驗實證調查資料庫」以及該資料庫對於社會科學發展和政策制定的重要性。儘管國科會近年來積極投入大型實證資料庫的建置,但我們也意識到這些大型資料庫的發展可能受到各自研究領域的限制,缺乏跨領域、跨團隊的交流與合作。此外,大型資料庫的持續運作通常依賴計畫團隊的長期參與。然而,當計畫主持人因退休等原因離開時,可能會面臨資料庫尋求其他學者接續主持的情況,稍有差池則可能導致資料收集中斷,對後續研究者進行針對臺灣社會問題的長期研究帶來一定困難。

因此,國科會委託中央研究院人文社會科學研究中心推動了「臺灣實證資料推動與加值計畫」,目的在讓實證資料庫能夠跨領域整合資源,透過共同合作策略實現研究資料的長期持續收集。除了有助於推動科研政策制定發展,更可以確保國家資源能夠永久共享並回饋社會。然而,為了讓臺灣珍貴的實證資料能夠永續管理與分享,SRDA提供的「核心資料庫專屬服務」,在本期電子報中,我們將深入介紹這項服務,說明SRDA如何與臺灣經驗實證調查資料庫的團隊緊密協作,實現FAIR (Findable、Accessible、Interoperable、Reusable) 原則,以求更好地管理和共享資料,並共同推動臺灣實證資料的公開和再利用。

核心資料庫專屬服務方案

SRDA學術調查研究資料庫自1994年成立以來,一直積極蒐集臺灣重要的調查資料,並使其能夠有效的被再利用,進而對學術社群有所貢獻。SRDA確保資料是以負責、完整的方式保存、管理與開放。然而,對於資料從蒐集到開放的整段過程,SRDA提供了哪些服務,對於計畫主持人與資料使用者來說往往不夠透明。因此,SRDA將歷年來累積提供給實證資料庫的服務,整理如下圖二「核心資料庫專屬服務方案」,說明從資料入庫至開放階段,SRDA所提供的支援服務項目、流程和所需時間,協助讀者更深入地了解SRDA臺灣經驗實證調查資料管理的幕後工作。

圖一、「核心資料庫專屬服務方案」的完整流程

步驟一、資料寄存前諮詢 (工作時間2~8週)

首先,SRDA需取得資料著作權人、其所屬機構同意授權,將資料提供予SRDA重製、保管及開放,並與實證資料庫團隊就「資料寄存」項目進行初步討論。這包括說明線上寄存流程和除了調查執行報告、研究成果報告、原始數據資料檔案之外,還需提供的基本項目(如調查問卷、相關說明文件等),以及如何準備提交資料。此外,若資料含有隱私、敏感資訊,則進一步討論資料分級開放的方式(公共版、標準版、限制版)或設定資料取用限制,將使用對象限定在較嚴格的會員申請審查方式外,亦提供限制性資料遠距服務(Remote)或現場使用(Onsite)供作選擇。

步驟二、資料寄存協助與協調(工作時間:2~4週)

協助實證資料之寄存、檢查寄存項目內容,為資料管理與開放共享預作準備,並進行追蹤與溝通協調。

步驟三、隱私資料識別風險評估(工作時間:1~2週)

首要檢查資料中是否有涉及個資、隱私資訊,以確認資料是否有公開揭露的問題,其目的在於確保受訪者隱私沒有被揭露的風險。

步驟四、資料寄存後諮詢(工作時間:2~4週)

與實證資料庫團隊討論隱私資料識別風險評估的結果、採用何種去識別化處理或轉換技術,讓資料不再具有直接或間接識別性;並向其取得任何缺漏的文件或檔案,以補齊資料文件不足之處。

步驟五、資料管理與品質控管(工作時間:2~20週)

為確保提供給使用者的資訊足夠讓其瞭解資料是如何產生、及各個數值代表的意義,準確且完整的描述說明可以確保以後開啟檔案時,能清楚理解檔案內容。我們所採取的作業程序包括:

  • 高品質的資料整理檢核程序
  • 隱私資料處理,確保去識別化,刪除或轉換敏感資訊。
  • 欄位一致性檢查,確保變項名稱、變項說明、選項數值說明、格式和欄位相互一致
  • 執行資料檢核,包括不合理值檢查和邏輯檢核,並核對調查執行報告和研究成果報告的次數分配數據。
  • 轉換多種數據格式,包括CSV、ASCII、SPSS和STATA。
  • 整理參考文件,如問卷和資料使用說明。
  • 建置完整詮釋資料(metadata)欄位,採用DDI國際標準的XML格式,建置完整且結構化的詮釋資料欄位,促進資料共享。
  • 提供永久有效的數位物件連結DOI(Digital Object Identifier),為每一筆調查資料註冊唯一且永久有效的數位物件識別碼。
  • 協助生成可分析的英文資料檔,特別是針對提供英文問卷的計畫,SRDA協助製作英文資料檔、英文版資料使用說明和相關英文文件,以增加調查資料被國外研究者使用的機會。

步驟六、資料開放共享(工作時間:2~4週)

為致力於讓資料開放共享變得簡單易懂,提供以下服務:

  • 發布資料公開資訊:在SRDA網頁上即時發佈有關資料開放的最新消息,讓大眾能夠迅速瞭解有關調查資料檔和相關文件的資訊。
  • 實證資料專屬網頁介紹:優化網頁內容,運用資料視覺化以增強內容的可讀性和易理解性,使每筆資料的詮釋資訊、相應的問卷變項以及數據結果清晰可見。

步驟七、資料使用支援服務(工作時間:持續)

為確保資料能夠有效地被研究人員使用,提供了幾項重要的資料使用支援服務:

  • 資料使用諮詢:SRDA協助解決會員對於資料的任何問題,並建立了一個諮詢資料庫,以累積資料相關知識。
  • 資料改版支援:協助資料更新、修正,根據最新版本重新註冊DOI,並公告說明歷次改版內容,以便版本追蹤。
  • 彈性化資料使用管理:我們根據資料的敏感程度進行分級,包括公共版、會員版和限制版。會員可以在資格有效期內自由存取公共版和會員版資料。如果需要使用限制版資料,則透過相關規定提交申請進行審核,並可以選擇遠距或現場方式進行資料分析。

步驟八、資料再利用(工作時間:持續)

著重於將實證資料庫的價值最大化,讓更多的研究者受益。以下是有關提升資料再利用的相關資訊:

  • 資料著作收集:我們利用Python爬蟲技術自動搜集與使用資料出版相關著作,包括期刊論文、會議論文、學位論文、專書和專書章節等,並與實證資料庫團隊以共同協作的方式建置著作書目資料,透過實踐行動與回饋機制,深化研究成果。
  • 資料使用統計:提供資料使用者下載統計報告給資料庫參考,並透過永久有效的數位物件識別碼(DOI)追蹤調查資料被引用的情況。
  • 會員整合:整合使用者的不同身份(如資料使用者、著作作者和資料提供者),便於了解完整的使用者行為。
  • 數據多元應用與國際化:SRDA按國際標準建立的metadata資料,利用資料庫串連技術,與國際數據資料網絡接軌,可於SRDA Harvard Dataverse平台查詢,提高資料的國際能見度,促進更多的學術交流機會。

結語

「核心資料庫專屬服務方案」是「臺灣實證資料推動與加值計畫」的關鍵組成部分。簡單來說,它透過一系列符合國際資料治理規範要求的流程和步驟,讓研究人員可以在這個框架下安全使用實證資料,創新研究成果。

與此同時,開放資料科學的重要性已成為國際學術研究的發展主軸,各國紛紛建立研究資料基礎設施,讓研究者能夠應用此設施為社會帶來實質效益,國科會與中央研究院人文社會科學研究中心共同規劃與推動這項計畫,目的就是確保國家資源能夠永久共享並回饋社會,同時也豐富學術知識寶庫。

參考資料

  1. Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18

撰文:王俞才、陳家玉