詳盡介紹

香港自殺報道資料庫 (HKSPD):系統架構、監測方法與社會影響評估

1. 導言:公共衛生數據監測的新範式

在當代公共衛生與流行病學研究中,數據的「時效性」(Timeliness) 與「可及性」(Accessibility) 是決定危機干預成效的關鍵變量。傳統的自殺死亡統計數據,主要依賴於政府官方機構(如死因裁判庭、政府統計處)的發佈。這一流程通常涉及漫長的司法程序、死因研訊以及行政核實,導致官方數據往往存在數月甚至以年計的滯後。這種「回顧性」(Retrospective) 的數據雖然在準確性上具有權威地位,但在應對突發性公共衛生危機的情況下,如某種特定自殺方式的模仿效應、或社會動盪引發的情緒波動時,往往顯得反應遲緩,無法制定即時的政策與社會服務介入提供「當下」(Real-time) 的指引。

在此背景下,由民間發起的「香港自殺報道資料庫」(Hong Kong Suicide Press Database,簡稱 HKSPD)應運而生。該項目始於 2019 年 1 月 1 日,旨在填補官方數據的時間真空,通過系統性地收集、整理及分析媒體報道的自殺個案,構建了一個高頻率、高透明度的動態監測系統。HKSPD 不僅是一個數據資料庫,更是一個集成了數據視覺化、地理空間分析、應用程式介面 (API) 服務以及為防止自殺預警系統 (Early Warning System,簡稱 EWS) 制定穩固基礎的綜合性平台。

本報告旨在根據現有文獻與技術文件,對 HKSPD 進行鉅細無遺的解構。深入探討其核心定位、創辦背景、數據收集方法論、技術架構、功能模塊、倫理框架以及其在學術與社會服務領域的實際應用。重點分析 EWS 如何利用統計製程管制 (SPC) 與即時預測 (Nowcasting) 技術,將非結構化的新聞資訊轉化為具備預警功能的結構化數據,從而為香港的自殺預防工作提供了一個全新的視角與工具。


2. 核心定位與機構背景

2.1 數據性質的界定:媒體報道與客觀事實的區隔

理解 HKSPD 的首要前提,是釐清其數據的本質。HKSPD 明確定位自己並非提供「官方自殺總數」(Official Suicide Statistics),而是呈現「媒體報道層面的自殺樣貌」(Media-reported profile of suicide),這是一個至關重要的學術區隔。媒體報道受限於新聞價值判斷 (Newsworthiness)、版面資源、採訪難度以及媒體自身的編輯方針,必然無法覆蓋社會中發生的每一宗自殺事件,例如發生在公共場所、涉及特殊方式或青少年的個案,往往比高齡個案更容易獲得媒體關注。

因此,HKSPD 的數據反映的是「社會大眾透過媒體鏡頭所感知的自殺現象」。這一特性使得該資料庫特別適用於以下幾類研究:

  • 媒體報道趨勢分析:研究媒體對自殺議題的關注度隨時間的變化。
  • 社會事件影響研究:探討大型社會運動、經濟波動或公共衛生危機(如 COVID-19 疫情)如何影響媒體對自殺事件的報道頻率與框架。
  • 維特效應 (Werther Effect,或稱 Copycat suicide) 監測:分析特定新聞報道後,是否出現相似背景或方式的自殺報道聚集現象。

2.2 創辦背景與組織架構

HKSPD 是一個典型的「公民科學」(Citizen Science) 與「開放數據」(Open Data) 項目。它完全由民間自發創立,不隸屬於任何政府部門或大型學術機構。項目的唯一創辦人與維護者為 Benny Ho-Men Yeong(楊皓文)。Benny 在數據科學應用於社會公益方面具有豐富經驗,除 HKSPD 外,還創立了「義工情報局 V.I.A」及「香港動物領養資料庫 HKAAD」等平台。這種由單一個人維護但具備高度專業性與自動化能力的運作模式,展示了現代資訊技術如何賦能個體,使其能夠承擔以往需要龐大機構資源才能完成的社會監測任務。

儘管是民間項目,HKSPD 的學術價值已獲得廣泛認可。其數據與方法論已被多位學者、本地大學及國際學術期刊引用,包括精神醫學領域的權威期刊《Asian Journal of Psychiatry》及公共衛生期刊《BMJ Public Health》。這證明了只要遵循嚴謹的方法論與倫理規範,民間資料庫同樣能夠產出高質量的科研成果,並為公共衛生政策提供實證支持。

2.3 核心使命與價值觀

HKSPD 的運作建立在四個核心使命之上:

  1. 記錄 (Recording):將每日稍縱即逝的新聞報道轉化為永久保存的結構化數據。
  2. 促進 (Promoting):透過數據的可視化,提高公眾對預防自殺與精神健康議題的關注。
  3. 研究 (Researching):打破數據獲取的壁壘,為學術界與政策制定者提供開放的數據基礎。
  4. 倫理 (Ethics):明確聲明絕不鼓吹或美化自殺行為,並在所有接觸點提供求助資源,呼籲珍惜生命。

3. 數據收集方法論與處理流程

HKSPD 的數據生產過程是一個結合了自動化技術與人工專業判斷的嚴謹流程,確保了數據的「高時效性」與「高準確度」。

3.1 數據來源與自動化採集

資料庫的數據來源覆蓋了香港六間本地主流媒體。系統後端運行著自動化程式 (Web Crawlers),全天候監察這些新聞平台。程式內置了特定的關鍵字庫 (Keywords) 與語意規則,用於識別涉及「自殺」、「墮樓」、「燒炭」、「服藥」等關鍵詞的新聞標題或內文。系統一旦偵測到「疑似自殺」的報道,便會自動抓取該報道的元數據(URL、標題、發佈時間)並存入待人工核實的隊列。這種自動化機制確保了監測的全面性與即時性,通常在新聞發佈後的數分鐘內,系統便能完成抓取。

3.2 收錄與排除標準 (Inclusion & Exclusion Criteria)

為了確保資料庫的信度與效度,HKSPD 制定了明確的收錄與排除標準,這些標準在人工核實階段被嚴格執行。

標準類型 具體內容與定義
收錄對象 (Inclusion) 1. 地理範圍:必須是在香港境內發生的個案。
2. 事件性質:報道必須明示自殺 (Suicide) 或企圖自殺 (Attempted Suicide) 事件。
3. 公開性:必須已被媒體公開報道,有可查證的新聞來源。
4. 核實狀態:必須經過編者人工核實,確認符合上述條件。
排除對象 (Exclusion) 1. 隱形個案:未被媒體報道的個案(這是與官方數據最大的差異點)。
2. 境外個案:非香港地區發生的事件,即使當事人為香港居民。
3. 私人案件:僅由警方或家屬處理,未經媒體曝光的案件。
4. 意外或自然死亡:經核實後確認為意外墮樓、工業意外或自然死亡的個案。

這種嚴格的篩選確保了資料庫內每一條記錄都具有可追溯的新聞來源,同時也劃定了數據的適用邊界。

3.3 數據清洗與結構化 (Data Cleaning & Structuring)

從非結構化的新聞文本中提取結構化數據是 HKSPD 的核心工作之一。編者在核實新聞後,會依據標準化的編碼簿 (Codebook) 將信息錄入系統。此外,編者還需處理重複報道的問題,由於同一宗案件可能被多間媒體同時報道,或隨著警方調查進展有後續更新,HKSPD 使用唯一的 caseID 作為識別碼,將針對同一事件的多篇報道歸併,避免統計上的重複計算。


4. 數據架構與欄位詳解

HKSPD 的數據結構設計極為詳盡,涵蓋了事件的多個維度,為研究者提供了豐富的變量以進行多層次分析。根據提供的文件,資料庫的核心欄位可分為四大類別。

4.1 報道基本資料 (Report Metadata)

這部份記錄了數據的來源屬性與時間標記。

  • caseID:個案的唯一識別編號,是用戶進行數據檢索與引用的主鍵。
  • newsDate / newsTime:新聞報道的建立日期與時間。這反映了信息傳播的時間點。
  • caseDate / caseTime:個案被發現的日期與時間。這與新聞發佈時間可能存在差異(例如深夜發生的案件可能在次日早晨報道)。
  • newsURL:新聞報道的來源,確保數據的可查證性。
  • newsHelp:一個重要的倫理指標,記錄該篇新聞報道是否在文末或顯眼處提供了求助熱線資訊。這可用於評估媒體的報道倫理水平。

4.2 地理資訊 (Geographical Information)

地理欄位是 HKSPD 進行空間分析的基礎,其精細度達到了街道/建築級別。

  • Area:大區分類(香港島、九龍、新界)。
  • District:全港 18 區行政分區(如觀塘區、沙田區)。
  • subDistrict:更細緻的社區劃分。
  • Unit / subUnit:具體的街道名稱、屋苑或建築名稱。
  • Latitude / Longitude:精確的經緯度座標。這是生成「自殺地圖」與進行熱點分析 (Hotspot Analysis) 的關鍵數據。
  • House:房屋類型分類。這是一個極具社會學意義的變量,通常分為「私人屋苑」、「公共屋邨」(公屋)、「居者有其屋」(居屋)、「非住宅」(如商場、酒店、橋樑)等。透過分析房屋類型,研究者可以探討社會經濟地位 (SES) 與自殺風險之間的潛在關聯。

4.3 個人資料 (Demographics)

為了保護隱私,個人資料經過了去識別化 (De-identification) 處理,僅保留統計學特徵。

  • firstName:姓氏或稱謂(如「陳先生」、「一名女子」)。
  • Gender:性別(男/女)。
  • Age:年齡。
  • Hospitalized:是否送院治理。
  • State:個案的最終狀態(如「身亡」、「清醒」、「昏迷」)。這區分了自殺死亡 (Suicide Death) 與企圖自殺 (Attempted Suicide)。

4.4 背景與成因 (Context & Causality)

這部份數據試圖捕捉事件背後的社會心理因素,但受限於媒體報道的深度,通常僅供參考。

  • suicideNote:是否有檢獲遺書。
  • mental_illness:是否有提及精神病患記錄。
  • emotional_illness:是否有提及情緒病患記錄。
  • missingRecord:死者生前是否被列為失蹤人士。
  • reason1 / reason2 / reason3:懷疑自殺原因(如「因病厭世」、「金錢問題」、「感情困擾」)。需注意,這些原因通常源自警方初步調查或家屬透露,並非臨床心理剖析的結果。
  • type1 / type2 / type3:自殺方式類別(如「跳落」、「燒炭」)。這一數據對於監測特定自殺方式的流行趨勢至關重要。

5. 網站功能系統與視覺化分析

HKSPD 的網站不僅是數據的展示窗口,更是一個功能強大的分析平台。其架構設計邏輯清晰,滿足了從一般公眾到專業研究者的不同需求。

5.1 儀表板 (Dashboard):多維度時間序列分析

儀表板是 HKSPD 的核心分析工具,利用 Google Sheets 與 Google Apps Script 技術構建,提供了極高自由度的交互式圖表。

5.1.1 時間趨勢監測

  • 每日數字 (Daily Counts):透過折線圖與柱狀圖,清晰呈現每日自殺報道數量的波動。
  • 移動平均 (Moving Averages):為了過濾單日數據的隨機噪聲 (Noise),系統提供了移動平均線(如 7 天、30 天平均),幫助使用者識別更穩定的短期與中期趨勢。
  • 多年度比較 (Multi-year Comparison):這是一個極具洞察力的功能,允許使用者將當前年份的數據與過去五年的同一時段進行疊加對比 (Five-year Level)。通過這種比較,使用者可以直觀地判斷當前的自殺數字是處於「季節性常態」還是出現了「異常高峰」。

5.1.2 人口統計特徵分析

  • 年齡散佈圖:展示不同年齡層的個案分佈,有助於識別高危年齡組別(如長者或青少年)。
  • 性別比例:監測男女自殺比例的變化。
  • 熱力圖 (Heatmap):以「日×年」的矩陣形式呈現數據,顏色的冷暖或深淺代表每日個案的多少。這種視覺化方式能讓使用者一眼看出全年的「熱點月份」或連續的高頻日子。

5.2 地理視覺化:自殺地圖 (Suicide Map)

利用 GIS(地理資訊系統)技術,HKSPD 將抽象的統計數字還原為地理空間上的分佈。

  • 點狀標記與熱域 (Point & Heatmap):使用者可以在地圖上查看個別個案的具體位置(經緯度標記),或切換至熱域模式,查看哪些區域的顏色冷暖,愈暖即代表該區的個案密度愈高。
  • 多重篩選:地圖支持按年份、年齡層、性別及房屋類型進行篩選。例如,社工可以篩選「60 歲以上」且居住在「公共屋邨」的個案,以識別長者自殺的高危社區,從而精準地投放社區關懷資源。
  • 應用價值:這種地理分析有助於識別「自殺熱點」(Suicide Clusters),為環境預防策略(如在特定地點加裝圍欄或求助告示)提供依據。

5.3 個案搜索與報道追蹤

這一系統為深度調查與個案研究提供了便利。

  • 最近個案:實時列出最新核實的個案。
  • 個案搜索:使用者可以像使用學術資料庫一樣,組合多個變量(如「2023 年」+「屯門區」+「55 歲」+「身亡」)進行精確檢索。
  • 報道列表:提供完整的新聞連結庫。這對於媒體研究者分析不同媒體機構的報道風格、標題用語以及發佈時間規律極有幫助。

6. 防止自殺預警系統:從數據到預防

HKSPD 最具前瞻性的伸延在於促進本地大學研究中心開發「防止自殺預警系統」。這標誌著資料庫從被動的「記錄者」轉變為在危機發生前發出警示的「守望者」。

6.1 統計製程管制 (Statistical Process Control, SPC)

SPC 原本是工業工程中用於監控生產線品質的技術,EWS 創新性地將其應用於公共衛生監測。

  • 原理:系統根據歷史數據計算出自殺報道數量的「基準值」(Baseline) 以及統計學上的「控制界限」(Control Limits,通常設定為標準差的倍數)。
  • 運作機制:當每日或每週的觀測數據突破了上控制界限 (Upper Control Limit),即意味著當前的自殺數字出現了統計學上的「異常升高」(Statistically Significant Increase),而非僅僅是隨機波動。
  • 意義:這種客觀的數學判斷排除了主觀感覺的干擾,能夠在危機萌芽初期(例如出現連續多宗個案的跡象時)及時發出警示。

6.2 即時預測 (Nowcasting)

鑑於官方數據的滯後,EWS 利用 Nowcasting 技術進行短期預測。

  • 方法:結合實時的媒體報道數據流與歷史季節性模式,模型會估算「當下」或「未來極短時間內」的潛在趨勢。
  • 應用:如果 Nowcasting 模型預測到近期可能出現顯著上升,系統會提示相關機構留意。這在應對如「開學日」、「長假期後」或「大型社會創傷事件」後的潛在風險期尤為重要。

6.3 學術驗證

這一預警系統並非空談,其方法論基礎已在 2025 年發表於權威期刊《Asian Journal of Psychiatry》。研究證實,基於媒體報道的 SPC 與 Nowcasting 系統能夠有效捕捉香港自殺趨勢的異常波動,為建立高頻率的自殺監察機制提供了堅實的科學依據。


7. SUEY_Bot:線上干預生態系統

除了數據層面的監測,HKSPD 還衍生出了一個直接介入的線上工具 SUEY_Bot。這體現了項目「數據服務於人」的理念。

7.1 演化歷程

SUEY_Bot 主要活躍於香港最大的線上討論區 LIHKG(連登),經歷了三個版本的迭代,反映了干預策略的優化:

  • 1.0 版本:基於關鍵字 (Keyword-based) 搜索。SUEY_Bot 會掃描論壇帖文,一旦發現與自殺或情緒困擾相關的關鍵詞,便自動在帖文留言並張貼求助熱線與支持訊息。
  • 2.0 版本:SUEY_Bot 會檢查由 LIHKG 管理員標籤為「討論自殺」的帖文,並自動進行回覆。這種監測平台方的方法提高了干預的精準度,減少了誤判。
  • 3.0 版本 (當前):引入了人工智能 (AI) 生成更柔和的字句,降低受助者的抗拒感(避免被視為冷冰冰的機械說教),亦在提供求助資訊的同時,加入了貓咪 GIF 動圖等能夠舒緩情緒的視覺元素,試圖以更具同理心的方式發文者。

7.2 生態定位

SUEY_Bot 與 HKSPD 共同構成了一個完整的「線上預防生態系統」:

  • HKSPD 負責宏觀層面的「新聞數據收集」與「趨勢分析」,提供戰略指引。
  • SUEY_Bot 負責微觀層面的「論壇即時干預」與「資源推送」,執行戰術行動。

兩者互為補充,覆蓋了從數據監測到個體援助的完整路徑。


8. 開放數據生態與 API 技術規格

HKSPD 堅信數據的價值在於流通與應用,因此建立了一個高度開放的數據生態系統。

8.1 開放數據策略

自 2019 年以來,所有數據均對公眾免費開放。HKSPD 鼓勵第三方開發者、研究人員及社福機構下載並使用這些數據。

  • Raw Data:通過 Google Sheets 直接提供原始數據,每小時自動更新。這使得不具備編程能力的用戶(如學生、社工)也能輕鬆獲取最新數據進行簡單分析。
  • CSV 下載:提供標準化的 CSV 檔案,方便導入 SPSS、R、Stata 等統計軟件進行複雜運算。
  • Codebook:提供詳盡的變量說明書,解釋每個欄位的定義與編碼規則,確保使用者能正確解讀數據,避免誤用。

8.2 API 技術詳解

對於需要進行系統整合的開發者,HKSPD 提供了 RESTful API 介面,支援 JSON 格式的回傳。

  • API 基礎 URL:https://hkspd.siuyeong.com/api

主要參數 (Parameters):

參數名稱 描述與功能 默認值 適用場景
page 指定頁碼。用於分頁瀏覽數據。 1 瀏覽大量歷史數據時。
limit 每頁顯示的記錄數量。 全部 (若未指定) 批量抓取或限制顯示數量。
caseID 按特定個案編號檢索。 無 精確查詢某一宗特定個案。
order 排序方式 (升序/降序)。 依日期降序 按時間順序獲取最新或最舊數據。

應用場景:

  • 社福機構:機構可將 API 接入內部的個案管理系統,實時顯示全港自殺趨勢。
  • 學術爬蟲:研究人員可編寫腳本,定期自動抓取最新數據進行時間序列建模。
  • 媒體監察:媒體機構可開發內部工具,監控自身的報道是否涵蓋了所有重要個案。

9. 倫理框架、法律責任與使用指引

在處理自殺這一極度敏感的議題時,倫理考量是 HKSPD 運作的基石。

9.1 倫理原則與限制

  • 非商業用途:數據僅限於研究、教育、學術分析及非牟利的公眾教育用途。任何形式的商業變現均被嚴格禁止。
  • 隱私保護:嚴禁使用者利用數據進行「起底」(Doxxing),即重新識別去識別化後的個人身份。亦禁止利用數據進行網絡霸凌、誹謗或歧視。
  • 防止維特效應:媒體在引用數據時,必須保持客觀,避免煽情誇張的標題,並且不得詳述自殺的具體方法與過程,以防止模仿行為。

9.2 引用規範與道德責任

HKSPD 強烈建議(並在某種程度上強制要求)使用者在引用其數據時,必須履行以下道德責任:

  1. 標明來源:必須註明「資料來源:香港自殺報道資料庫 (HKSPD)」及網址,並標註提取數據的日期。
  2. 提供求助資源:在使用數據的所有出版物、網頁或報道中,必須同步列出求助熱線。
  3. 生命尊重聲明:加入聲明,強調數據僅供研究,呼籲珍惜生命。

求助熱線資源列表 (部份):

機構名稱 熱線號碼 服務特色
情緒通 18111 24 小時、一站式全港性支援
香港撒瑪利亞防止自殺會 2389 2222 歷史悠久、專業輔導
撒瑪利亞會 2896 0000 24 小時情緒支援
生命熱線 2382 0000 24 小時聆聽服務
社會福利署 2343 2255 官方福利支援
醫院管理局精神健康專線 2466 7350 醫療專業支援

9.3 法律免責與權利主張

創辦人保留對違反使用指引者採取法律行動的權利,特別是針對未經授權的商業使用、斷章取義造成的誤導性傳播,以及侵犯當事人隱私的行為。使用者需自行承擔因不當使用數據而產生的所有法律後果。


10. 利益相關者的應用案例

HKSPD 的價值已滲透至香港社會的多個層面,成為不同利益相關者手中的重要工具。

10.1 學術界:實證研究的基石

研究人員利用 HKSPD 的長跨度數據進行多種複雜分析。

  • 時間序列建模:利用 ARIMA 等模型分析自殺率的季節性變化及長期趨勢。
  • 事件研究 (Event Study):量化評估特定社會事件(如名流自殺、政策變動)對自殺報道的衝擊。
  • 文本挖掘:結合新聞連結與自然語言處理 (NLP),分析媒體在報道自殺新聞時的措辭變化與情感傾向。

10.2 社福機構:前線服務的雷達

  • 即時訂閱:透過「開放訂閱服務」,社工能在收到電郵通知後的數小時內掌握區內發生的個案,迅速評估是否需要介入受影響的學校或社區。
  • 資源調配:根據「自殺地圖」的熱點分佈,機構可決定在哪些區域增設流動宣傳車或加派外展社工。
  • 籌款與倡議:利用客觀的數據圖表向公眾與捐助者展示問題的嚴重性,為募款活動提供具說服力的論據。

10.3 媒體與公眾:知情權與教育

  • 背景資料:記者在撰寫報道時,可引用 HKSPD 的數據作為背景資料(例如:「這是本月第 X 宗同類案件」),使報道更具深度而非僅停留在獵奇。
  • 公眾教育:普通市民透過瀏覽儀表板,能理性地認識到自殺問題的系統性特徵,打破對自殺的刻板印象(例如誤以為只有某個年齡層才會自殺)。

11. 局限性分析與未來展望

儘管 HKSPD 具有顯著優勢,但我們必須客觀審視其局限性,以避免數據的誤讀。

11.1 主要局限性

  1. 媒體選擇性偏差 (Selection Bias):這是最核心的限制。HKSPD 的數據僅代表「被媒體報道的個案」,而非「全港實際發生的個案」。媒體傾向於報道年輕、壯年、特殊方式或在公共場所發生的案件,而高齡長者在面臨長期病患時的自殺個案往往被媒體忽略。因此,HKSPD 的數據可能高估了年輕群體的比例,而低估了長者群體的嚴重性。
  2. 資訊準確度:新聞報道中的「懷疑原因」通常基於警方初步調查或家屬在情緒激動下向記者表達的片面之詞,缺乏法醫學或臨床心理學的嚴謹診斷。因此,對「自殺原因」的統計分析需極度謹慎。
  3. 重複與雜訊:儘管有人工核實,但面對海量的網絡資訊,仍可能存在極少量的重複記錄或誤報修正滯後的情況。

11.2 結語

香港自殺報道資料庫 (HKSPD) 展示了在數位時代,民間力量如何通過技術創新與倫理自覺,構建出具備高度專業水準的公共衛生監測系統。它不僅填補了官方數據的時效性空白,更通過開放數據與可視化工具,賦能了學術界、社福界與媒體,共同構建了一個更具韌性的社會安全網。只要使用者能充分理解其「反映媒體視野」的本質,並嚴格遵守倫理規範,HKSPD 將繼續作為香港預防自殺工作中的重要民間基礎設施,協助社會守護每一個寶貴的生命。