Trang chủ / Tin tức 24h / Các nhà nghiên cứu y tế Mount Sinai tuyên bố ChatGPT đã sẵn sàng hành nghề y

Các nhà nghiên cứu y tế Mount Sinai tuyên bố ChatGPT đã sẵn sàng hành nghề y

Trong khi các nhà nghiên cứu tuyên bố rằng bước đầu tiên quan trọng này có thể thay đổi lĩnh vực y tế, bài báo của họ vẫn còn rất nhiều điều chưa được thảo luận.

Một nhóm các nhà nghiên cứu y tế từ Trường Y khoa Icahn ở Mount Sinai gần đây đã tiến hành một nghiên cứu về chatbot trí tuệ nhân tạo (AI), trong đó họ xác định rằng “các mô hình ngôn ngữ lớn có tính sáng tạo là những người thực hành tự chủ về y học dựa trên bằng chứng”.

Cuộc thí nghiệm

Theo nghiên cứu in sẵn được công bố trên arXiv, nhóm Mount Sinai đã thử nghiệm nhiều mô hình ngôn ngữ lớn hướng tới người tiêu dùng (LLM) có sẵn khác nhau, bao gồm cả ChatGPT 3.5 và 4 và Gemini Pro, cũng như các mô hình nguồn mở LLaMA v2 và Mixtral -8x7B.

Các mô hình được đưa ra những lời nhắc được thiết kế với thông tin như “bạn là giáo sư y khoa” và sau đó được yêu cầu tuân theo các quy trình y tế dựa trên bằng chứng (EBM) để đề xuất liệu trình điều trị thích hợp cho một loạt trường hợp thử nghiệm.

Sau khi đưa ra một trường hợp, các mô hình có nhiệm vụ đề xuất hành động tiếp theo, chẳng hạn như yêu cầu xét nghiệm hoặc bắt đầu một phác đồ điều trị. Sau đó, họ được cung cấp kết quả của hành động và được nhắc nhở tích hợp thông tin mới này cũng như đề xuất hành động tiếp theo, v.v.

Theo nhóm, ChatGPT 4 là thành công nhất, đạt độ chính xác 74% trong tất cả các trường hợp và vượt trội so với mô hình tốt nhất tiếp theo (ChatGPT 3.5) khoảng 10%.

Hiệu suất này khiến nhóm nghiên cứu kết luận rằng những mô hình như vậy có thể thực hành y học. Theo tờ báo:

“LLM có thể được tạo ra để hoạt động như những người thực hành tự chủ về y học dựa trên bằng chứng. Khả năng sử dụng công cụ của họ có thể được khai thác để tương tác với cơ sở hạ tầng của hệ thống chăm sóc sức khỏe trong thế giới thực và thực hiện các nhiệm vụ quản lý bệnh nhân theo hướng dẫn.”

Y học tự trị

EBM sử dụng các bài học rút ra từ các trường hợp trước để xác định lộ trình điều trị cho các trường hợp tương tự. 

Mặc dù EBM hoạt động giống như một sơ đồ theo cách này, nhưng số lượng phức tạp, hoán vị và các quyết định tổng thể có thể khiến quy trình trở nên khó sử dụng.

Như các nhà nghiên cứu đã nói:

“Các bác sĩ lâm sàng thường phải đối mặt với thách thức về tình trạng quá tải thông tin với số lượng tương tác và lộ trình điều trị có thể vượt quá những gì họ có thể quản lý hoặc theo dõi một cách khả thi.”

Bài báo của nhóm chỉ ra rằng LLM có thể giảm thiểu tình trạng quá tải này bằng cách thực hiện các nhiệm vụ thường do các chuyên gia y tế con người xử lý, chẳng hạn như “ra lệnh và giải thích các cuộc điều tra hoặc đưa ra cảnh báo” trong khi con người tập trung vào việc chăm sóc thể chất.

Các nhà nghiên cứu viết: “LLM là những công cụ linh hoạt có khả năng hiểu bối cảnh lâm sàng và tạo ra các hành động khả thi”.

Hạn chế hiện tại

Những phát hiện của các nhà nghiên cứu có thể hơi bị sai lệch bởi nhận thức được tuyên bố của họ về khả năng của LLM hiện đại.

Tại một thời điểm, nhóm viết, “LLM là những công cụ sâu sắc đưa chúng ta đến gần hơn với lời hứa về Trí tuệ nhân tạo tổng hợp”. Họ cũng đưa ra tuyên bố sau hai lần trong tài liệu: “Chúng tôi chứng minh rằng khả năng suy luận của LLM là một khả năng sâu sắc có thể có ý nghĩa vượt xa việc coi các mô hình như cơ sở dữ liệu có thể được truy vấn bằng ngôn ngữ tự nhiên”.

Tuy nhiên, không có sự đồng thuận chung giữa các nhà khoa học máy tính rằng LLM, bao gồm cả các mô hình nền tảng làm nền tảng cho ChatGPT, có bất kỳ khả năng suy luận nào.

Hơn nữa, thậm chí còn có ít sự đồng thuận hơn giữa các nhà khoa học và chuyên gia AI về việc liệu trí tuệ nhân tạo nói chung có khả thi hoặc có thể đạt được trong một khung thời gian có ý nghĩa hay không.

Bài viết không định nghĩa trí tuệ nhân tạo nói chung hoặc mở rộng tuyên bố của tác giả rằng LLM có thể suy luận. Nó cũng không đề cập đến những cân nhắc về mặt đạo đức liên quan đến việc đưa một hệ thống tự động không thể đoán trước vào quy trình làm việc lâm sàng hiện có.

Các LLM như ChatGPT tạo văn bản mới mỗi khi chúng được truy vấn. LLM có thể hoạt động như mong đợi trong quá trình lặp lại thử nghiệm, nhưng trong môi trường lâm sàng, không có phương pháp nào có thể hạn chế nó đôi khi bịa đặt những điều vô nghĩa – một hiện tượng được gọi là “ảo giác”.

Các nhà nghiên cứu khẳng định ảo giác là rất ít trong quá trình thử nghiệm của họ. Tuy nhiên, không có đề cập đến các kỹ thuật giảm thiểu ở quy mô lớn.

Bất chấp các điểm chuẩn của các nhà nghiên cứu, vẫn chưa rõ lợi ích mà một chatbot chung như ChatGPT sẽ mang lại trong môi trường EBM lâm sàng so với hiện trạng hoặc LLM y tế riêng biệt được đào tạo trên một tập hợp dữ liệu liên quan, được quản lý.

Cùng chuyên mục