Chào mừng!!

Bằng cách đăng ký với chúng tôi, bạn sẽ có thể thảo luận, chia sẻ và nhắn tin riêng tư với các thành viên khác trong cộng đồng của chúng tôi.

ĐĂNG KÝ NGAY!

Apple: AI suy luận là 'ảo tưởng'

timingdeptry

Thành viên
Tham gia
13/6/25
Bài viết
19
VNĐ
1,225
Nghiên cứu của Apple cho thấy các mô hình AI lý luận mạnh nhất hiện nay thực tế vẫn chưa thể "suy nghĩ" như con người, đồng nghĩa với việc con đường dẫn đến AGI (trí tuệ nhân tạo tổng quát) vẫn còn rất xa.


Với tiêu đề "Ảo tưởng về Tư duy", báo cáo được Apple công bố vào cuối tuần qua đã mang đến cái nhìn thực tế, như một “gáo nước lạnh” đối với những người lạc quan về AI có khả năng "lý luận" và siêu trí tuệ AGI.


Theo báo cáo, các mô hình lý luận lớn (LRM) như OpenAI o1, o3, DeepSeek R1, Claude 3.7 Sonnet Thinking hay Google Gemini Flash Thinking đang đối mặt với "sự sụp đổ hoàn toàn về độ chính xác" khi giải quyết các vấn đề có mức độ phức tạp cao. Trước đây, những mô hình này từng được ca ngợi là bước tiến quan trọng trên con đường phát triển AGI – một hệ thống siêu trí tuệ nhân tạo với khả năng tư duy tương đương con người.


Để kiểm chứng luận điểm rằng các LRM chưa thực sự thông minh như kỳ vọng, Apple đã từ chối sử dụng các bài kiểm tra toán học tiêu chuẩn, vốn có thể bị ảnh hưởng bởi dữ liệu mô hình đã học từ Internet. Thay vào đó, nhóm nghiên cứu tạo ra một môi trường giải đố kiểm soát chặt chẽ với các trò chơi logic như Checkers Jumping, River Crossing, Tháp Hà Nội, và Blocks World. Môi trường này cho phép họ tăng dần độ khó, đồng thời bảo toàn cấu trúc logic, giúp đánh giá chính xác khả năng của các mô hình AI.

Kết quả đáng chú ý

  • Với bài toán đơn giản, các mô hình thông thường đưa ra đáp án chính xác, trong khi "siêu AI" lại gặp khó khăn. Điều này tương tự như việc một học sinh bình thường có thể giải được bài toán dễ, nhưng "thiên tài toán học" lại phức tạp hóa vấn đề bằng nhiều công thức không cần thiết.
  • Ở mức độ phức tạp trung bình, các LRM phát huy thế mạnh với chuỗi suy luận dài để giải quyết vấn đề, trong khi AI thông thường bắt đầu chững lại hoặc thất bại.
  • Với bài toán phức tạp cao, cả hai loại AI đều bộc lộ điểm yếu. Các LRM phức tạp hóa vấn đề nhưng vẫn không thể tìm ra lời giải, dù có sử dụng nhiều sức mạnh tính toán hơn.

Ví dụ, trong trò chơi Tháp Hà Nội, Claude 3.7 Sonnet Thinking và DeepSeek R1 thất bại khi thêm đĩa thứ năm. Còn trong trò River Crossing đơn giản hơn, Claude 3.7 đôi khi thất bại chỉ sau vài bước, dù trước đó đã thực hiện chính xác hơn 100 bước trong bài toán Tháp Hà Nội.


Apple cũng phát hiện hành vi "phản trực giác" ở LRM: khi độ khó tăng, các mô hình này huy động năng lực tính toán nhưng lại bỏ qua một số bước quan trọng nếu vấn đề trở nên quá phức tạp. "Khi vấn đề đạt đến ngưỡng khó, các mô hình giảm nỗ lực lý luận, sử dụng ít token hơn, nghĩa là 'suy nghĩ' ít đi", báo cáo viết.

Kết luận quan trọng

Nghiên cứu khẳng định không có bằng chứng cho thấy các mô hình lý luận hiện tại thực hiện được các bước suy luận logic thực sự. Thay vào đó, chúng hoạt động như những hệ thống suy đoán dựa trên dữ liệu đầu vào đã học. Những chuỗi suy nghĩ có vẻ "thông minh" thực chất không phải là suy luận.


Gary Marcus, chuyên gia AI người Mỹ, gọi nghiên cứu này là "khá tàn khốc". "Những gì nghiên cứu chỉ ra khẳng định rằng, LLM và LRM chưa thể là con đường dẫn đến AGI", ông viết trên Substack. Andrew Rogoyski, Đại học Surrey, cũng đồng tình: "Phát hiện này cho thấy các mô hình AI lớn hiện tại chỉ có thể giải quyết vấn đề từ dễ đến trung bình, nhưng hoàn toàn bất lực với các bài toán phức tạp. Điều này cho thấy chúng ta có thể đã đi vào ngõ cụt trong cách tiếp cận hiện tại".
145
 
Top