萬事問AI,中風也是?台大公衛學院與哈佛大學等國際機構合作,近期完成全球首項「生成式AI」在中風照護資訊提供上的表現評估。研究主持人、台大公衛學院副教授李達宇說,研究發現,面對中風病人常見的提問,AI回應缺乏一致性,尤其在中風治療等高風險階段,錯誤或不完整回應時有所見,臨床醫師也認為AI工具缺乏準確性,難跨越「安全、有效」門檻。
李達宇表示,許多病人開始使用ChatGPT等AI工具,詢問中風復原及相關症狀衛教資訊,因此研究團隊選擇以ChatGPT、Claude與Gemini三款主流大型語言模型為分析對象,模擬多種貼近臨床情境的中風照護場景,運用多種提示設計策略,評估其表現。
研究發現,生成式AI產生回覆,有時雖可提供幫助,但也存在誤解問題,恐帶來致命風險。李達宇說,「AI很聰明,但在高風險醫療照護中,微小錯誤則可能要人付出生命代價」,因此在AI發展過程中,教導病人「如何安全使用AI」,與技術發展同等重要。
這項研究設計,將AI回覆分為準確性、幻覺率、具體性與相關性、同理性與可理解度、可行性共5面向評分。李達宇指出,準確性是分析AI的回應是否符合臨床指引,幻覺率則是指錯誤資訊出現的頻率,結果顯示,在中風照護相關領域中,AI給出建議的分數,平均僅在勉強及格的60至65分範圍。
李達宇表示,這三種AI在「提供患者可直接採取行動的建議」方面表現不一,尤其在中風治療等高風險階段,錯誤或不完整回應時有所見。雖然AI在一般健康資訊傳遞上也許具有潛力,但在中風這類即時且需專業介入的情境上,可靠性仍有待大幅提升。民眾提問的技巧也很重要,若納入個人疾病史等資訊,有助AI回應時更安全、實用。
國衛院國家環境醫學研究所所長陳保中表示,國內醫療人力缺乏,發展AI模型,有助提升醫療照顧品質及效率,也提升安全性,減少醫護因過勞而誤判病人病情,但前提是AI僅作為協助工具,而非代為做出決策。在病人端,最擔心民眾使用AI後「自以為是」,誤認病情「沒事」,因此AI輔助病人做出醫療決策的風險仍高,應設法降低風險。
這篇文章對你有幫助嗎?
