醫病平台/語言模型與臨床結構化資料

醫病平台 林協霆(腫瘤內科醫師)
語言模型的出現正好可以解決這方面的問題。包含癌症的病理診斷、期別、基因突變等。而要把不同醫師寫的不同格式整合進大型的臨床研究,這個時候ChatGPT就可以發揮它的長處。撰寫病歷示意圖,圖片來源/ingimage。

【編者按】:本週再度以目前最夯的「人工智慧(AI)」為主題,討論對於醫療的影響。去年三月我們首次由幾位資深醫師討論Chat-GPT對醫病關係與醫學教育可能產生的問題。兩個月後三位年輕世代對這方面有心得的醫師,介紹這對病歷的書寫效率、醫病雙方攝取正確醫學常識都會有長足的幫忙,可以改善醫療工作的效率,甚至達到更理想的醫病關係。

本週一位年輕的實習醫師自問「醫師會被人工智能取代嗎?」,寫出他對此有所保留的想法。→想看本文

一位腫瘤內科醫師以ChatGPT如何幫助我們將非結構化的文字轉換為結構化的JSON格式的實例,闡述這可以成為對臨床研究非常有用的利器。

一位醫療人工智慧核心實驗室博士後研究員介紹了最近國際注目的醫學倫理、政策及人工智慧專家討論如何確保醫療人工智慧的應用符合醫學倫理及社會利益,而「不要造成病人傷害」仍是醫學倫理的最高準則。

大型語言模型是利用機器學習的原理,搭配上自然語言處理的演算法,將只有人類可以理解的語言轉化為文字。頓號字詞與字詞相接的關係網是透過這個關係網,我們可以用預測的方式,用機率的模式去截出下一個字。這大概就是語言模型的原理。

自從語言模型,例如ChatGPT問世之後,人們便不斷的在探索可能的用途。而在醫療領域,相關的討論著重在將非結構化的資料轉化為結構化資料的實驗。所謂的非結構化資料細質,一位醫師在電腦前,根據他的所思所想,寫出的長篇短落。

然而,這樣的資料最大的問題在於許多珍貴的臨床觀察要轉化成研究中的一筆數據,需要仰賴人工的騰寫跟標記,才能將其轉化為有用的資訊。這個過程造成了人力的浪費。另外,像是症狀的表示或者是病人的健康狀況,有的時候很難要求臨床工作人員去填寫表格,因為表格往往是大家覺得最討厭的東西。

在過去,想要解決這個問題,有許多醫療機構設計出結構化病歷。然而,結構化病歷在不到一兩年內就被主流討論所遺棄,因為許多情況下,醫療人員並不想要去面對一個長長的表格。對於表格的恐懼會讓我們只想要快速的跳過跟完成病歷。因此,在語言模型出現之前,想要客觀地記錄病人的各種狀況還是需要靠人類的記載跟幫忙填表格,跟臨床人員幫忙填表格。

在這樣的背景下,語言模型的出現正好可以解決這方面的問題。根據NEJM前幾個月最新的研究,我們在腫瘤科的癌症診斷中,常常會包含很多關鍵的訊息,包含癌症的病理診斷、期別、基因突變等。而要把不同醫師寫的不同格式整合進大型的臨床研究,這個時候ChatGPT就可以發揮它的長處。

例如,我們有以下這一篇骨髓的病理報告,這段文字是透過免疫組織化學研究,對樣本進行染色並觀察染色結果。樣本為一種非生殖中心B細胞擴散性大B細胞淋巴瘤(non germinal center B-cell diffuse large B-cell lymphoma),沒有雙表現型表現(double expressor phenotype),且CD5有微弱的共表現。染色結果顯示BCL2和CD20呈陽性,CD3、CD10和Cyclin D1呈陰性,Ki-67的表現率為84%,c-Myc呈陰性,但有20~30%的染色表現。

IMMUNOHISTOCHEMICAL STUDY:

The section S23-13060 is stained by applying 10 antibodies against BCL2 (124), BCL6 (PG-B6p), CD3 (polyclonal), CD5 (4C7), CD10 (56C6), CD20 (L26), Cyclin D1, Ki-67 (30-9), c-Myc (Y69) and MUM-1 (EAU32) respectively.

STAINING RESULT(S):

‧BCL2: positive

‧BCL6: negative

‧CD3: negative

‧CD5: positive

‧CD10: negative

‧CD20: positive

‧Cyclin D1: negative

‧Ki-67: 84%

‧c-Myc: negative, 20~30% staining noted

‧MUM-1: positive

INTERPRETATION:

The results are supportive for a non germinal center B-cell diffuse large B-cell lymphoma without double expressor phenotype. Weak co-expression of CD5 is noted.

像這樣的資料,往往是一個大段落的純文字檔 (free text form),對於研究來說,想要從中提取出可供分析的資料,就需要人為的填寫。一般來說,數據往往會以JSON(JavaScript Object Notation)來表示。JSON是一種輕量級的數據交換格式,結構簡單清晰,易於理解和編寫。它比XML更簡潔,佔用更少的存儲空間和網絡帶寬。

JSON廣泛支援多種編程語言和平台,便於系統之間的數據交換和整合。其靈活性允許記錄各種形式的數據,包括數字、字串、數組和對象,非常適合用於臨床數據記錄。此外,JSON既方便機器處理,也易於人類檢查和調試,且作為標準化的數據交換格式之一,具有廣泛的應用和兼容性,使其在臨床數據記錄中表現出色。所以我們只需要告訴ChatGPT:「將以下的段落格式改寫為JSON」,即可得到下面的結果。

{

"diagnosis": ["DLBCL s/p auto-HCT r/o r/r"],

"tissue_origin": "Right pelvic lymph node",

"pathologic_diagnosis": ["DIFFUSE LARGE B-CELL LYMPHOMA"],

"staining_results": {

"BCL2": true,

"BCL6": false,

"CD3": false,

"CD5": true,

"CD10": false,

"CD20": true,

"Cyclin D1": false,

"Ki-67": 0.84,

"c-Myc": false,

"MUM-1": true

}

}

由上述例子,ChatGPT可以幫助我們將非結構化的文字轉換為結構化的JSON格式,這對臨床研究非常有利。通過使用ChatGPT,我們可以自動化地提取和組織臨床數據,將繁雜的文本資訊轉換為易於處理和分析的結構化數據。這不僅提高了數據管理的效率,還減少了人工處理的錯誤風險,從而促進更準確和高效的臨床研究。

延伸閱讀

2024/6/17 醫師會被人工智能取代嗎?一個實習醫學生的反思

責任編輯 吳依凡

ChatGPT 人工智慧 病歷 癌症 腫瘤

推薦文章

>