近幾年大數據(big data)在許多領域廣泛被引用。因此政治學作為一門「政治科學」自然不能落人於後,目前國內外已經有不少學者投入大數據在政治學研究上的運用,雖然相關研究成果仍有待累積,但對於正投身準備國家考試的我們來說,能夠多掌握政治學發展的最新動態,無疑也有助於我們理解當下的學習內容。
有關大數據介紹的著作,雖然不能夠稱得上是俯拾皆是,但真正具有引領作用的入門讀物依舊鳳毛麟角。其中有一本是由哈佛大學經濟學博士史帝芬斯-大衛德維茲(Seth Stephens-Davidowitz),由其博士論文改寫的《數據、謊言與真相》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)結合數據分析與社會科學研究,或許可以一窺大數據在政治學上的運用與限制。
一開始,我先談談我對「科學理論」的基本看法。或許你有聽過「奧卡姆剃刀」(Occam’ s Razor),它指的是如果我們可以用更少的「變數」,而能獲得一樣好的解釋,這時一種「科學的態度」是,我們不應該任意增加不必要的變數,「吝嗇的簡潔」在科學研究上應當被視為是一種「美德」。我同樣以這樣的觀點,來看待大數據在政治學上的運用。
大數據做為一門新興的數據科學,相對於抽樣調查(這很可能是一般認為,大數據最主要的「對手」),能提供我們對於政治現象更多、更好的認識嗎?
作者在這本書中提出四個論點,支持大數據在社會科學研究上的運用。我認同前三點,但對第四點持保留態度。
首先,大數據提供了我們新類型的數據。這點毋庸置疑,相較於抽樣調查所得的數字,對於大數據而言,任何結構、非結構,甚至圖像資料都可能轉化為數據資料,拓展我們以「數據」表徵外在世界的可能性。
其次,大數據提供誠實的數據。這邊要稍微解釋一下,作者的意思是,許多的調查訪談,受訪者很可能做出「虛假」的回答,而與真正的現實不符合,這或許是受到「社會期許偏誤」(social desirability bias)的影響:我們希望在別人面前展現「正面」,或者符合他人期待的形象。但大數據如果蒐集的是人們在網路上搜尋、點擊、連結的「足跡」,行為說明一切,這樣的數據將更為「誠實」。這可能因此「揭穿」一些我們過去的研究成果,例如在政治傳播研究上,我們現今認為資訊接受者會依照偏好,主動去搜尋符合其偏好的新聞來源,因此自由派立場者會專注在自由派新聞媒體上,但有政治學者以大數據分析,其實一位自由派立場者接觸保守派新聞媒體的次數,並不少於保守派立場者。
第三,大數據可以允許我們做「小子集」的研究。這指的是,在調查訪問中如果我們要進一步討論次一層級變項影響,在樣本數上我們就要增加非常多的採樣,提高研究成本,而大數據的龐大資料可以輕易跨過這一「鴻溝」。
最後,作者認為大數據可以允許我們進行許多因果關係的實驗。所謂的因果關係實驗,就是我們傳統上隨機抽樣所進行的實驗/對照組試驗,但作者的原意並不清楚,如果他指的是,因為大數據取得快速、成本低廉,因此可以進行「許多」實驗,這我可以認同;但如果作者是指透過大數據可以找出「因果」關係,我就持保留立場。但實務上,有時我們能找到「相關性」,確實也足夠讓我們進行決策。
當然,作者也承認現階段大數據有其運用上的侷限。首先,人們在網路上的行為,不代表在實際社會生活中也必然有這樣的行為。這指的是我們在網路上可以搜尋到許多「反社會行為」的大數據,但這並非暗示這個社會的治安即將敗壞,或者我們將看更多的犯罪案件,簡言之人們在網路上的「匿名性」行為,並不會原封不動地搬移到社會生活中;其次,人類行為影響變項太多,我們一時難以窮盡,這當然會影響大數據研究的可靠性,誠如作者回覆是否能以大數據預測某一支股票的走勢,作者的回覆相當簡潔:不能夠。
- 面授課程:高普考
- 雲端課程:政治學、兩岸關係
- 考試用書:政治學(概要)、兩岸關係、政治學概要測驗題完全制霸、政治學(概要)申論題完全制霸