Chào mừng!!

Bằng cách đăng ký với chúng tôi, bạn sẽ có thể thảo luận, chia sẻ và nhắn tin riêng tư với các thành viên khác trong cộng đồng của chúng tôi.

ĐĂNG KÝ NGAY!

Mô hình ngôn ngữ lớn (LLM) và hiện tượng "mất ở giữa" do thiên vị vị trí

timingdeptry

Thành viên
Tham gia
13/6/25
Bài viết
19
VNĐ
1,225
Các nhà nghiên cứu MIT đã phát hiện rằng các mô hình ngôn ngữ lớn (LLM) thường ưu tiên thông tin ở phần đầu và cuối tài liệu hoặc cuộc hội thoại, trong khi bỏ qua phần giữa – một hiện tượng được gọi là "thiên vị vị trí".


Ví dụ, khi một luật sư sử dụng trợ lý ảo LLM để tìm một câu cụ thể trong tài liệu dài 30 trang, LLM có khả năng cao sẽ tìm thấy câu đó nếu nó nằm ở các trang đầu hoặc cuối.
223


Cơ chế dẫn đến thiên vị vị trí

Nhóm nghiên cứu đã xây dựng một khung lý thuyết để phân tích cách thông tin được xử lý trong kiến trúc học máy – đặc biệt là các lựa chọn thiết kế như mặt nạ chú ý (attention masking)mã hóa vị trí (positional encoding).

Kết quả phân tích:

  1. Mặt nạ chú ý gây thiên vị đầu vào:
    • Khi sử dụng mặt nạ nhân quả (causal masking), mô hình chỉ chú ý đến các từ đứng trước, dẫn đến thiên vị các từ ở đầu câu.
    • Khi dữ liệu không chứa thiên vị này, mặt nạ vẫn ép mô hình chú ý hơn đến phần đầu.
  2. Tác động của mã hóa vị trí:
    • Mã hóa vị trí giúp mô hình hiểu vị trí của từ trong câu, giảm thiểu thiên vị.
    • Tuy nhiên, hiệu quả của nó bị suy giảm khi số lớp chú ý (attention layers) trong mô hình tăng lên.
  3. Dữ liệu huấn luyện cũng góp phần:
    • Dữ liệu không cân bằng có thể dạy mô hình cách ưu tiên các phần đầu hoặc cuối của chuỗi thông tin.

Thử nghiệm và kết quả

Các nhà nghiên cứu đã thực hiện các thí nghiệm, thay đổi vị trí câu trả lời đúng trong các chuỗi văn bản và đo lường độ chính xác của LLM.

Kết quả:

  • Mô hình thể hiện một mô hình hiệu suất hình chữ U:
    • Tốt nhất ở phần đầu.
    • Giảm dần ở phần giữa.
    • Cải thiện nhẹ ở phần cuối.

Hiện tượng này, được gọi là "mất ở giữa", đặc biệt rõ rệt trong các tác vụ như tìm kiếm thông tin (information retrieval).

Hậu quả thực tế:

  • Trong các ứng dụng quan trọng như trợ lý y tế, thiên vị này có thể dẫn đến bỏ sót thông tin quan trọng ở giữa dữ liệu.

Giải pháp tiềm năng

  1. Thay đổi mặt nạ chú ý:
    • Sử dụng mặt nạ cho phép chú ý toàn chuỗi hoặc loại bỏ mặt nạ nhân quả.
  2. Giảm số lớp chú ý:
    • Giảm bớt các lớp chú ý trong mô hình để hạn chế việc khuếch đại thiên vị.
  3. Mã hóa vị trí chiến lược:
    • Tăng cường mã hóa vị trí để tái tập trung sự chú ý vào các phần bị bỏ qua.
  4. Tối ưu hóa dữ liệu huấn luyện:
    • Cân bằng dữ liệu huấn luyện để loại bỏ thiên vị không mong muốn.

Tầm quan trọng của nghiên cứu

  • Nghiên cứu này mang lại cái nhìn hiếm hoi vào cơ chế chú ý, làm sáng tỏ các hạn chế lâu dài của mô hình Transformer.
  • Đặc biệt, nó cung cấp các phương pháp cải tiến để LLM hoạt động chính xác hơn trong các ứng dụng có tính rủi ro cao như chăm sóc y tế hoặc hỗ trợ pháp lý.
Hướng nghiên cứu tương lai

  • Tiếp tục nghiên cứu cách khai thác thiên vị vị trí trong các ứng dụng cụ thể.
  • Mở rộng phân tích mã hóa vị trí và các cách giảm thiểu thiên vị khác.
 
Top