Chào mừng!!

Bằng cách đăng ký với chúng tôi, bạn sẽ có thể thảo luận, chia sẻ và nhắn tin riêng tư với các thành viên khác trong cộng đồng của chúng tôi.

ĐĂNG KÝ NGAY!

Mô hình ngôn ngữ lớn (LLM) bị ảnh hưởng bởi thông tin phi lâm sàng trong các tin nhắn của bệnh nhân

timingdeptry

Thành viên
Tham gia
13/6/25
Bài viết
19
VNĐ
1,225
222
Một nghiên cứu của các nhà nghiên cứu MIT cho thấy mô hình ngôn ngữ lớn (LLM) được triển khai để đưa ra khuyến nghị điều trị có thể bị tác động bởi thông tin phi lâm sàng trong tin nhắn của bệnh nhân, chẳng hạn như lỗi chính tả, khoảng trắng thừa, thiếu thông tin về giới tính, hoặc ngôn ngữ không chắc chắn, kịch tính và thân mật.
Họ phát hiện rằng việc thay đổi phong cách hoặc ngữ pháp trong tin nhắn làm tăng khả năng LLM khuyến nghị bệnh nhân tự quản lý tình trạng sức khỏe tại nhà, ngay cả khi bệnh nhân cần tìm đến sự chăm sóc y tế.
Phân tích cũng tiết lộ rằng các biến thể phi lâm sàng trong văn bản – mô phỏng cách mọi người thực sự giao tiếp – có nhiều khả năng làm thay đổi khuyến nghị điều trị của mô hình đối với bệnh nhân nữ. Kết quả là, có một tỷ lệ cao hơn phụ nữ được khuyến nghị không tìm kiếm sự chăm sóc y tế, điều mà các bác sĩ nhận định là sai lầm.
“Đây là bằng chứng mạnh mẽ cho thấy các mô hình phải được kiểm tra trước khi sử dụng trong chăm sóc sức khỏe – nơi mà chúng đã được triển khai,” Marzyeh Ghassemi, phó giáo sư tại Khoa Kỹ thuật Điện và Khoa học Máy tính MIT (EECS), cho biết.
Tác động của thông tin phi lâm sàng
Các phát hiện chỉ ra rằng LLM tính đến thông tin phi lâm sàng trong việc ra quyết định y tế theo những cách chưa từng được biết đến. Điều này nhấn mạnh nhu cầu nghiên cứu kỹ lưỡng hơn trước khi triển khai LLM trong các ứng dụng quan trọng như khuyến nghị điều trị.
Abinitha Gourabathina, nghiên cứu sinh EECS và là tác giả chính của nghiên cứu, nói: “Các mô hình này thường được đào tạo và kiểm tra dựa trên câu hỏi trong các kỳ thi y khoa, nhưng lại được sử dụng trong các nhiệm vụ rất khác biệt, như đánh giá mức độ nghiêm trọng của một trường hợp lâm sàng. Vẫn còn rất nhiều điều chúng ta chưa biết về LLM.”
Nghiên cứu và phát hiện
Để khám phá vấn đề này, các nhà nghiên cứu đã thiết kế một nghiên cứu trong đó họ thay đổi dữ liệu đầu vào của mô hình bằng cách hoán đổi hoặc xóa các chỉ số giới tính, thêm ngôn ngữ không chắc chắn hoặc kịch tính, hoặc chèn khoảng trắng và lỗi chính tả vào tin nhắn của bệnh nhân.
Quy trình thực hiện:
  • Các thay đổi được thiết kế để mô phỏng văn bản của những bệnh nhân có hoàn cảnh dễ bị tổn thương, như những người có trình độ tiếng Anh hạn chế hoặc ít kỹ năng công nghệ.
  • Họ sử dụng LLM để tạo ra các bản sao thay đổi của hàng ngàn ghi chú bệnh nhân, đảm bảo rằng các thay đổi văn bản là tối thiểu và giữ nguyên dữ liệu lâm sàng.
  • Sau đó, họ đánh giá bốn mô hình LLM, bao gồm GPT-4 và một mô hình nhỏ hơn được thiết kế riêng cho môi trường y tế.
Kết quả:
  • LLM đưa ra tỷ lệ khuyến nghị tự quản lý tại nhà cao hơn 7-9% đối với tất cả chín loại thay đổi trong tin nhắn bệnh nhân.
  • Ngôn ngữ kịch tính hoặc không chắc chắn có tác động lớn nhất.
  • Các mô hình mắc nhiều lỗi hơn khoảng 7% đối với bệnh nhân nữ và thường xuyên khuyến nghị họ tự quản lý tại nhà, ngay cả khi không có chỉ báo giới tính trong ngữ cảnh lâm sàng.
Tác động thực tế
  • Bất nhất: LLM đưa ra khuyến nghị không nhất quán khi xử lý dữ liệu đã được thay đổi.
  • Sai lệch: Các lỗi như khuyến nghị tự quản lý trong trường hợp bệnh nghiêm trọng có thể không được phát hiện trong các thử nghiệm chỉ tập trung vào độ chính xác tổng thể.
“Trong nghiên cứu, chúng ta thường xem xét thống kê tổng hợp, nhưng có nhiều điều bị bỏ sót. Không khuyến nghị đi khám khi cần thiết gây hại hơn nhiều so với điều ngược lại,” Gourabathina nói.
So sánh với con người:
Các thay đổi tương tự trong tin nhắn của bệnh nhân không ảnh hưởng đến độ chính xác của bác sĩ.
Hướng nghiên cứu tiếp theo
  • Thiết kế các biến đổi ngôn ngữ tự nhiên mô phỏng các nhóm dễ bị tổn thương khác.
  • Nghiên cứu cách LLM suy luận về giới tính từ văn bản lâm sàng.
“Chúng ta không muốn tối ưu hóa một hệ thống chăm sóc sức khỏe chỉ hoạt động tốt cho các nhóm bệnh nhân cụ thể,” Ghassemi nhấn mạnh.
 
Top