謝旻均
管理學院
經營與管理學系
近年來,數據科學和數據分析競賽在各行各業中崛起,成為提升技能、學習最新技術和解決實際問題的有效途徑。為了配合系上必修人力資源管理課程,老師也要求了班上所有人必須參加「2023 WIN the PRIDE:用指標說故事」競賽,這個競賽是為支援科技政策規劃及研究工作,國研院科技政策研究與資訊中心建置了「政策研究指標資料庫(Policy Research Indicators DatabasE),簡稱 PRIDE」,資料範圍涵蓋社會、經濟、科技、人文等領域的指標資料,並提供指標資料查詢、立即性的線上圖表展現, 以及跨期間、跨國比較等功能,以及節省研究人員到處尋找、處理指標資料及繪製圖表的時間。為鼓勵青年學子利用數據建立資料處理與邏輯分析之能力,進而藉由 PRIDE 豐富的各國指標資料了解國際現況並開拓國際視野。
競賽內容顧名思義就是利用指標分析去說故事,即使得出的結論不合乎常理,但只要你的分析數據能夠合理的解讀出來也可以。一開始,我們團隊花了不少時間研究競賽題目,由於競賽有規定至少三項的參考來源必須來自PRIDE資料庫,這個資料庫雖然內容很多,但分類功能不佳,非常不易搜尋,且也會有資料過於久遠的問題。以我們的主題「社會犯罪率」來說,假設我們想要知道失業率是否會是犯罪的原因之一,當我們在PRIDE資料庫裡搜尋「失業率」時,則會跑出許多不相關的資料,如兒童急性呼吸道感染治療率、農家與全體家庭所得總額之比較-平均每戶所得總額-比率等。這樣的一個搜尋問題讓我們花了不少時間在尋找數據。我們在這個競賽中換過一次題目,在原本選擇的第一個主題,因為上述提到的「至少三項參考來源須來自PRIDE資料庫」的要求,而PRIDE資料庫的數據沒有找到我們需要的內容,只能再更換主題,在這部分我們團隊花了很多心力,後來我們選擇了先找出數據,確定有可以的分析內容,再去思考我們的主題該訂定什麼,找不到可用的數據是我們在這次競賽中遇到的最大挑戰。
後來老師讓我們以科展的形式進行組間報吿,看了其他小組的報告,我們最大的問題是前後內容連貫性不足,在團隊合作裡大家就是把各自的部分完成後就結束了,而沒有更精準地去做到整理數據,加上時間不足,無法提高我們的數據品質,所以最後的結果可想而知沒有入圍,但仍是一個難忘的學習經驗,讓我深刻體會到了數據清理在整個分析過程中的關鍵性作用。通過整理數據,我們不僅提高了數據的可靠性,還使得後續的分析更加順利。