在當代公共衛生與流行病學研究中,數據的「時效性」(Timeliness)與「可及性」(Accessibility)是決定危機干預成效的關鍵變量。傳統的自殺死亡統計數據,主要依賴於政府官方機構(如死因裁判庭、政府統計處)的發佈。這一流程通常涉及漫長的司法程序、死因研訊以及行政核實,導致官方數據往往存在數月甚至以年計的滯後。這種「回顧性」(Retrospective)的數據雖然在準確性上具有權威地位,但在應對突發性公共衛生危機的情況下,如某種特定自殺方式的模仿效應、或社會動盪引發的情緒波動時,往往顯得反應遲緩,無法制定即時的政策與社會服務介入提供「當下」(Real-time)的指引。
在此背景下,由民間發起的「香港自殺報道資料庫」(Hong Kong Suicide Press Database,簡稱 HKSPD)應運而生。該項目始於 2019 年 1 月 1 日,旨在填補官方數據的時間真空,通過系統性地收集、整理及分析媒體報道的自殺個案,構建了一個高頻率、高透明度的動態監測系統。HKSPD 不僅是一個數據資料庫,更是一個集成了數據視覺化、地理空間分析、應用程式介面(API)服務以及為防止自殺預警系統(Early Warning System,簡稱 EWS)制定穩固基礎的綜合性平台。
本報告旨在根據現有文獻與技術文件,對 HKSPD 進行鉅細無遺的解構。深入探討其核心定位、創辦背景、數據收集方法論、技術架構、功能模塊、倫理框架以及其在學術與社會服務領域的實際應用。重點分析 EWS 如何利用統計製程管制(SPC)與即時預測(Nowcasting)技術,將非結構化的新聞資訊轉化為具備預警功能的結構化數據,從而為香港的自殺預防工作提供了一個全新的視角與工具。
理解 HKSPD 的首要前提,是釐清其數據的本質。HKSPD 明確定位自己並非提供「官方自殺總數」(Official Suicide Statistics),而是呈現「媒體報道層面的自殺樣貌」(Media-reported profile of suicide),這是一個至關重要的學術區隔。媒體報道受限於新聞價值判斷(Newsworthiness)、版面資源、採訪難度以及媒體自身的編輯方針,必然無法覆蓋社會中發生的每一宗自殺事件,例如發生在公共場所、涉及特殊方式或青少年的個案,往往比高齡個案更容易獲得媒體關注。
因此,HKSPD 的數據反映的是「社會大眾透過媒體鏡頭所感知的自殺現象」。這一特性使得該資料庫特別適用於以下幾類研究:
HKSPD 是一個典型的「公民科學」(Citizen Science)與「開放數據」(Open Data)項目。它完全由民間自發創立,不隸屬於任何政府部門或大型學術機構。項目的唯一創辦人與維護者為 Benny Ho-Men Yeong(楊皓文)。Benny 在數據科學應用於社會公益方面具有豐富經驗,除 HKSPD 外,還創立了「義工情報局 V.I.A」及「香港動物領養資料庫 HKAAD」等平台。這種由單一個人維護但具備高度專業性與自動化能力的運作模式,展示了現代資訊技術如何賦能個體,使其能夠承擔以往需要龐大機構資源才能完成的社會監測任務。
儘管是民間項目,HKSPD 的學術價值已獲得廣泛認可。其數據與方法論已被多位學者、本地大學及國際學術期刊引用,包括精神醫學領域的權威期刊《Asian Journal of Psychiatry》及公共衛生期刊《BMJ Public Health》。這證明了只要遵循嚴謹的方法論與倫理規範,民間資料庫同樣能夠產出高質量的科研成果,並為公共衛生政策提供實證支持。
HKSPD 的運作建立在四個核心使命之上:
HKSPD 的數據生產過程是一個結合了自動化技術與人工專業判斷的嚴謹流程,確保了數據的「高時效性」與「高準確度」。
資料庫的數據來源覆蓋了香港六間本地主流媒體。系統後端運行著自動化程式(Web Crawlers),全天候監察這些新聞平台。程式內置了特定的關鍵字庫(Keywords)與語意規則,用於識別涉及「自殺」、「墮樓」、「燒炭」、「服藥」等關鍵詞的新聞標題或內文。系統一旦偵測到「疑似自殺」的報道,便會自動抓取該報道的元數據(URL、標題、發佈時間)並存入待人工核實的隊列。這種自動化機制確保了監測的全面性與即時性,通常在新聞發佈後的數分鐘內,系統便能完成抓取。
為了確保資料庫的信度與效度,HKSPD 制定了明確的收錄與排除標準,這些標準在人工核實階段被嚴格執行。
| 標準類型 | 具體內容與定義 |
|---|---|
| 收錄對象 (Inclusion) | 1. 地理範圍:必須是在香港境內發生的個案。 |
| 2. 事件性質:報道必須明示自殺(Suicide)或企圖自殺(Attempted Suicide)事件。 | |
| 3. 公開性:必須已被媒體公開報道,有可查證的新聞來源。 | |
| 4. 核實狀態:必須經過編者人工核實,確認符合上述條件。 | |
| 排除對象 (Exclusion) | 1. 隱形個案:未被媒體報道的個案(這是與官方數據最大的差異點)。 |
| 2. 境外個案:非香港地區發生的事件,即使當事人為香港居民。 | |
| 3. 私人案件:僅由警方或家屬處理,未經媒體曝光的案件。 | |
| 4. 意外或自然死亡:經核實後確認為意外墮樓、工業意外或自然死亡的個案。 |
這種嚴格的篩選確保了資料庫內每一條記錄都具有可追溯的新聞來源,同時也劃定了數據的適用邊界。
從非結構化的新聞文本中提取結構化數據是 HKSPD 的核心工作之一。編者在核實新聞後,會依據標準化的編碼簿(Codebook)將信息錄入系統。此外,編者還需處理重複報道的問題,由於同一宗案件可能被多間媒體同時報道,或隨著警方調查進展有後續更新,HKSPD 使用唯一的 caseID 作為識別碼,將針對同一事件的多篇報道歸併,避免統計上的重複計算。
HKSPD 的數據結構設計極為詳盡,涵蓋了事件的多個維度,為研究者提供了豐富的變量以進行多層次分析。根據提供的文件,資料庫的核心欄位可分為四大類別。
這部份記錄了數據的來源屬性與時間標記。
地理欄位是 HKSPD 進行空間分析的基礎,其精細度達到了街道/建築級別。
為了保護隱私,個人資料經過了去識別化(De-identification)處理,僅保留統計學特徵。
這部份數據試圖捕捉事件背後的社會心理因素,但受限於媒體報道的深度,通常僅供參考。
HKSPD 的網站不僅是數據的展示窗口,更是一個功能強大的分析平台。其架構設計邏輯清晰,滿足了從一般公眾到專業研究者的不同需求。
儀表板是 HKSPD 的核心分析工具,利用 Google Sheets 與 Google Apps Script 技術構建,提供了極高自由度的交互式圖表。
利用 GIS(地理資訊系統)技術,HKSPD 將抽象的統計數字還原為地理空間上的分佈。