自殺地圖

香港自殺報道資料庫 (HKSPD) 系統架構、監測方法與社會影響評估

1. 導言:公共衛生數據監測的新範式

在當代公共衛生與流行病學研究中,數據的「時效性」(Timeliness)與「可及性」(Accessibility)是決定危機干預成效的關鍵變量。傳統的自殺死亡統計數據,主要依賴於政府官方機構(如死因裁判庭、政府統計處)的發佈。這一流程通常涉及漫長的司法程序、死因研訊以及行政核實,導致官方數據往往存在數月甚至以年計的滯後。這種「回顧性」(Retrospective)的數據雖然在準確性上具有權威地位,但在應對突發性公共衛生危機的情況下,如某種特定自殺方式的模仿效應、或社會動盪引發的情緒波動時,往往顯得反應遲緩,無法制定即時的政策與社會服務介入提供「當下」(Real-time)的指引。

在此背景下,由民間發起的「香港自殺報道資料庫」(Hong Kong Suicide Press Database,簡稱 HKSPD)應運而生。該項目始於 2019 年 1 月 1 日,旨在填補官方數據的時間真空,通過系統性地收集、整理及分析媒體報道的自殺個案,構建了一個高頻率、高透明度的動態監測系統。HKSPD 不僅是一個數據資料庫,更是一個集成了數據視覺化、地理空間分析、應用程式介面(API)服務以及為防止自殺預警系統(Early Warning System,簡稱 EWS)制定穩固基礎的綜合性平台。

本報告旨在根據現有文獻與技術文件,對 HKSPD 進行鉅細無遺的解構。深入探討其核心定位、創辦背景、數據收集方法論、技術架構、功能模塊、倫理框架以及其在學術與社會服務領域的實際應用。重點分析 EWS 如何利用統計製程管制(SPC)與即時預測(Nowcasting)技術,將非結構化的新聞資訊轉化為具備預警功能的結構化數據,從而為香港的自殺預防工作提供了一個全新的視角與工具。

2. 核心定位與機構背景

2.1 數據性質的界定:媒體報道與客觀事實的區隔

理解 HKSPD 的首要前提,是釐清其數據的本質。HKSPD 明確定位自己並非提供「官方自殺總數」(Official Suicide Statistics),而是呈現「媒體報道層面的自殺樣貌」(Media-reported profile of suicide),這是一個至關重要的學術區隔。媒體報道受限於新聞價值判斷(Newsworthiness)、版面資源、採訪難度以及媒體自身的編輯方針,必然無法覆蓋社會中發生的每一宗自殺事件,例如發生在公共場所、涉及特殊方式或青少年的個案,往往比高齡個案更容易獲得媒體關注。

因此,HKSPD 的數據反映的是「社會大眾透過媒體鏡頭所感知的自殺現象」。這一特性使得該資料庫特別適用於以下幾類研究:

  1. 媒體報道趨勢分析:研究媒體對自殺議題的關注度隨時間的變化。
  2. 社會事件影響研究:探討大型社會運動、經濟波動或公共衛生危機(如 COVID-19 疫情)如何影響媒體對自殺事件的報道頻率與框架。
  3. 維特效應(Werther Effect,或稱 Copycat suicide)監測:分析特定新聞報道後,是否出現相似背景或方式的自殺報道聚集現象。

2.2 創辦背景與組織架構

HKSPD 是一個典型的「公民科學」(Citizen Science)與「開放數據」(Open Data)項目。它完全由民間自發創立,不隸屬於任何政府部門或大型學術機構。項目的唯一創辦人與維護者為 Benny Ho-Men Yeong(楊皓文)。Benny 在數據科學應用於社會公益方面具有豐富經驗,除 HKSPD 外,還創立了「義工情報局 V.I.A」及「香港動物領養資料庫 HKAAD」等平台。這種由單一個人維護但具備高度專業性與自動化能力的運作模式,展示了現代資訊技術如何賦能個體,使其能夠承擔以往需要龐大機構資源才能完成的社會監測任務。

儘管是民間項目,HKSPD 的學術價值已獲得廣泛認可。其數據與方法論已被多位學者、本地大學及國際學術期刊引用,包括精神醫學領域的權威期刊《Asian Journal of Psychiatry》及公共衛生期刊《BMJ Public Health》。這證明了只要遵循嚴謹的方法論與倫理規範,民間資料庫同樣能夠產出高質量的科研成果,並為公共衛生政策提供實證支持。

2.3 核心使命與價值觀

HKSPD 的運作建立在四個核心使命之上:

  1. 記錄(Recording):將每日稍縱即逝的新聞報道轉化為永久保存的結構化數據。
  2. 促進(Promoting):透過數據的可視化,提高公眾對預防自殺與精神健康議題的關注。
  3. 研究(Researching):打破數據獲取的壁壘,為學術界與政策制定者提供開放的數據基礎。
  4. 倫理(Ethics):明確聲明絕不鼓吹或美化自殺行為,並在所有接觸點提供求助資源,呼籲珍惜生命。

3. 數據收集方法論與處理流程

HKSPD 的數據生產過程是一個結合了自動化技術與人工專業判斷的嚴謹流程,確保了數據的「高時效性」與「高準確度」。

3.1 數據來源與自動化採集

資料庫的數據來源覆蓋了香港六間本地主流媒體。系統後端運行著自動化程式(Web Crawlers),全天候監察這些新聞平台。程式內置了特定的關鍵字庫(Keywords)與語意規則,用於識別涉及「自殺」、「墮樓」、「燒炭」、「服藥」等關鍵詞的新聞標題或內文。系統一旦偵測到「疑似自殺」的報道,便會自動抓取該報道的元數據(URL、標題、發佈時間)並存入待人工核實的隊列。這種自動化機制確保了監測的全面性與即時性,通常在新聞發佈後的數分鐘內,系統便能完成抓取。

3.2 收錄與排除標準(Inclusion & Exclusion Criteria)

為了確保資料庫的信度與效度,HKSPD 制定了明確的收錄與排除標準,這些標準在人工核實階段被嚴格執行。

標準類型 具體內容與定義
收錄對象 (Inclusion) 1. 地理範圍:必須是在香港境內發生的個案。
2. 事件性質:報道必須明示自殺(Suicide)或企圖自殺(Attempted Suicide)事件。
3. 公開性:必須已被媒體公開報道,有可查證的新聞來源。
4. 核實狀態:必須經過編者人工核實,確認符合上述條件。
排除對象 (Exclusion) 1. 隱形個案:未被媒體報道的個案(這是與官方數據最大的差異點)。
2. 境外個案:非香港地區發生的事件,即使當事人為香港居民。
3. 私人案件:僅由警方或家屬處理,未經媒體曝光的案件。
4. 意外或自然死亡:經核實後確認為意外墮樓、工業意外或自然死亡的個案。

這種嚴格的篩選確保了資料庫內每一條記錄都具有可追溯的新聞來源,同時也劃定了數據的適用邊界。

3.3 數據清洗與結構化 (Data Cleaning & Structuring)

從非結構化的新聞文本中提取結構化數據是 HKSPD 的核心工作之一。編者在核實新聞後,會依據標準化的編碼簿(Codebook)將信息錄入系統。此外,編者還需處理重複報道的問題,由於同一宗案件可能被多間媒體同時報道,或隨著警方調查進展有後續更新,HKSPD 使用唯一的 caseID 作為識別碼,將針對同一事件的多篇報道歸併,避免統計上的重複計算。

4. 數據架構與欄位詳解

HKSPD 的數據結構設計極為詳盡,涵蓋了事件的多個維度,為研究者提供了豐富的變量以進行多層次分析。根據提供的文件,資料庫的核心欄位可分為四大類別。

4.1 報道基本資料 (Report Metadata)

這部份記錄了數據的來源屬性與時間標記。

  • caseID:個案的唯一識別編號,是用戶進行數據檢索與引用的主鍵。
  • newsDate / newsTime:新聞報道的建立日期與時間。這反映了信息傳播的時間點。
  • caseDate / caseTime:個案被發現的日期與時間。這與新聞發佈時間可能存在差異(例如深夜發生的案件可能在次日早晨報道)。
  • newsURL:新聞報道的來源,確保數據的可查證性。
  • newsHelp:一個重要的倫理指標,記錄該篇新聞報道是否在文末或顯眼處提供了求助熱線資訊。這可用於評估媒體的報道倫理水平。

4.2 地理資訊 (Geographical Information)

地理欄位是 HKSPD 進行空間分析的基礎,其精細度達到了街道/建築級別。

  • Area:大區分類(香港島、九龍、新界)。
  • District:全港 18 區行政分區(如觀塘區、沙田區)。
  • subDistrict:更細緻的社區劃分。
  • Unit / subUnit:具體的街道名稱、屋苑或建築名稱。
  • Latitude / Longitude:精確的經緯度座標。這是生成「自殺地圖」與進行熱點分析(Hotspot Analysis)的關鍵數據。
  • House:房屋類型分類。這是一個極具社會學意義的變量,通常分為「私人屋苑」、「公共屋邨」(公屋)、「居者有其屋」(居屋)、「非住宅」(如商場、酒店、橋樑)等。透過分析房屋類型,研究者可以探討社會經濟地位(SES)與自殺風險之間的潛在關聯。

4.3 個人資料 (Demographics)

為了保護隱私,個人資料經過了去識別化(De-identification)處理,僅保留統計學特徵。

  • firstName:姓氏或稱謂(如「陳先生」、「一名女子」)。
  • Gender:性別(男/女)。
  • Age:年齡。
  • Hospitalized:是否送院治理。
  • State:個案的最終狀態(如「身亡」、「清醒」、「昏迷」)。這區分了自殺死亡(Suicide Death)與企圖自殺(Attempted Suicide)。

4.4 背景與成因 (Context & Causality)

這部份數據試圖捕捉事件背後的社會心理因素,但受限於媒體報道的深度,通常僅供參考。

  • suicideNote:是否有檢獲遺書。
  • mental_illness:是否有提及精神病患記錄。
  • emotional_illness:是否有提及情緒病患記錄。
  • missingRecord:死者生前是否被列為失蹤人士。
  • reason1 / reason2 / reason3:懷疑自殺原因(如「因病厭世」、「金錢問題」、「感情困擾」)。需注意,這些原因通常源自警方初步調查或家屬透露,並非臨床心理剖析的結果。
  • type1 / type2 / type3:自殺方式類別(如「跳落」、「燒炭」)。這一數據對於監測特定自殺方式的流行趨勢至關重要。

5. 網站功能系統與視覺化分析

HKSPD 的網站不僅是數據的展示窗口,更是一個功能強大的分析平台。其架構設計邏輯清晰,滿足了從一般公眾到專業研究者的不同需求。

5.1 儀表板 (Dashboard):多維度時間序列分析

儀表板是 HKSPD 的核心分析工具,利用 Google Sheets 與 Google Apps Script 技術構建,提供了極高自由度的交互式圖表。

5.1.1 時間趨勢監測

  • 每日數字 (Daily Counts):透過折線圖與柱狀圖,清晰呈現每日自殺報道數量的波動。
  • 移動平均 (Moving Averages):為了過濾單日數據的隨機噪聲(Noise),系統提供了移動平均線(如 7 天、30 天平均),幫助使用者識別更穩定的短期與中期趨勢。
  • 多年度比較 (Multi-year Comparison):這是一個極具洞察力的功能,允許使用者將當前年份的數據與過去五年的同一時段進行疊加對比(Five-year Level)。通過這種比較,使用者可以直觀地判斷當前的自殺數字是處於「季節性常態」還是出現了「異常高峰」。

5.1.2 人口統計特徵分析

  • 年齡散佈圖:展示不同年齡層的個案分佈,有助於識別高危年齡組別(如長者或青少年)。
  • 性別比例:監測男女自殺比例的變化。
  • 熱力圖 (Heatmap):以「日 × 年」的矩陣形式呈現數據,顏色的冷暖或深淺代表每日個案的多少。這種視覺化方式能讓使用者一眼看出全年的「熱點月份」或連續的高頻日子。

5.2 地理視覺化:自殺地圖 (Suicide Map)

利用 GIS(地理資訊系統)技術,HKSPD 將抽象的統計數字還原為地理空間上的分佈。

  • 點狀標記與熱域 (Point & Heatmap):使用者可以在地圖上查看個別個案的具體位置(經緯度標記),或切換至熱域模式,查看哪些區域的顏色冷暖,愈暖即代表該區的個案密度愈高。
  • 多重篩選:地圖支持按年份、年齡層、性別及房屋類型進行篩選。例如,社工可以篩選「60歲以上」且居住在「公共屋邨」的個案,以識別長者自殺的高危社區,從而精準地投放社區關懷資源。
  • 應用價值:這種地理分析有助於識別「自殺熱點」(Suicide Clusters),為環境預防策略(如在特定