兩種人不能不知道,帶您快速瞭解「CDNA群眾外包媒合平台」!

什麼是「群眾外包」(Crowdsourcing)?

在調查研究或機器學習領域中,群眾外包(crowdsourcing)已經成為一種常見的資料蒐集方式。「群眾外包」是指利用大量來自網際網路上的人力資源來完成一項任務,而這些人的背景、地區、使用語言等可能各不相同。以自然語言處理( Natural Language Processing, NLP)領域為例,群眾外包主要應用在文本分類、實體識別、語音識別等方面的標記工作。在ChatGPT熱潮中,群眾外包也扮演了重要的角色。例如,許多開發者和研究者使用群眾外包平台進行對話資料集的標記,這樣ChatGPT就可以從這些資料集中學習人類對話的模式和趨勢。這樣的標記工作也可以讓ChatGPT精確學習到各種不同背景和文化的對話方式,產生更加自然的對話內容。因此,群眾標記在ChatGPT的發展和成功中也扮演了不可或缺的角色。

「群眾外包」之所以重要,是因為它可以有效地降低標記的成本和時間,同時也可以透過更多元特質的標記者協助完成資料標記。相比於傳統的標記方式,如聘請專家或經過訓練的標記者進行標記,群眾外包可以更快速地進行標記工作,也可以在多個時區和地區進行,因為可以吸引更多的人參與,進一步提高了標記的效率和可行性。例如 Amazon 建立的群眾外包平台Mechanical Turk(簡稱 MTurk),就常被台灣研究者用來蒐集外文資料的標記。

「CDNA群眾外包媒合平台」

本中心於2021年委外開發「CDNA群眾外包媒合平台」,主要希望服務有群眾外包需求的學術社群,同時讓參與的任務執行者可以接取任務並獲取獎勵。透過近一年時間的實際運作,本中心已針對不同業務需求,進行介面與功能上的調整與重新設計,以符合需求。傳播數據與網絡分析實驗室(Communication Data and Network Analytics, CDNA)透過「CDNA群眾外包媒合平台」除了執行「民眾關心大小事」計畫前測問卷調查,也分波次發布了「有毒言論標記」、「道德字典驗證」以及「幸福感字典驗證」等系列的自然語言標記任務。藉由平台上千位任務執行者的幫助,蒐集到寶貴的標記結果,應用於後續研究分析。

我是一位執行者,平台究竟「媒合」什麼?

做為一個執任務行者,您或許會持續關注臉書、PTT、Dcard等社群媒體的貼文,希望可以參與大大小小、不同性質的市場調查或學術研究。在「CDNA群眾外包媒合平台」,您會發現目前發布的專案性質多屬於學術研究。若抱著支持國內學術研究的理念,我們真的非常感謝,而您也可以在平台上持續看到各種研究的招募資訊。若您好奇機器學習相關研究如何標記資料,CDNA在平台上也會陸續發布自然語言相關的標記任務,等待您來執行。在標記過程中您可能會有不同的挑戰,使用不同於一般問卷的介面,歡迎回饋您的觀點或想法。如果您厭倦了守在各種問卷受測者徵求版,請持續追蹤、關注CDNA社群平台,您將會收到最新的任務發布訊息!

我是一位研究者,為什麼需要「群眾外包」?

研究者在蒐集研究資料過程中,時常會需要瞭解一般民眾的態度、意向。又或者在應用到機器學習方法的研究中,希望在資料標註上研究關注的概念、符號,後續使用在模型訓練或驗證模型效能。「CDNA群眾外包媒合平台」會員中,不乏一些具有自然語言標記經驗的標記者。在CDNA自行發布的專案中,我們導入了「資料檢核」、「題組訓練」兩種機制,在正式標記前,執行者必須完成訓練題組,過程中若不符資料檢核將被重新分派到不同的任務,歷經這樣的檢核及訓練機制,使得有一部分的會員成為較有經驗的標記者。即便檢核及訓練機制不是平台內建功能,其他發布於平台的專案也可以間接受益,或者您也可以在研究問卷中自行設計更好的機制。

現在就註冊去吧!

若您還不是本中心「​​CDNA群眾外包媒合平台​​」會員,請您先在本中心「​​CDNA群眾外包媒合平台​​」註冊成為會員。成為執行者,未來本平台會有更多任務(含資料標記、問卷等),邀請您參與來換取獎勵喔!​ 作為研究者,平台在未來也規劃新增任務發布功能,您將有機會在平台發布自己的研究專案,透過平台上千位的執行者,蒐集您所需要的研究資料,邀請有群眾外包需求的研究者先行註冊,並持續關注CDNA社群平台,獲得發布功能上線消息。

現在就點選連結「CDNA群眾外包媒合平台」註冊去吧!不過特別注意,每一位研究者或執行者僅能註冊一個帳號。

如有任何疑問,請來信,本中心有專人解答。