Nghiên cứu cho thấy AI có thể bị “thối não” từ dữ liệu mạng xã hội rác

PV Tech News – Nghiên cứu mới cho thấy các mô hình AI có thể bị “thối não” khi huấn luyện bằng dữ liệu mạng xã hội rác, khiến khả năng tư duy và trí nhớ suy giảm nghiêm trọng.

Một nghiên cứu mới từ các nhà khoa học tại Đại học Texas A&M, Đại học Texas tại Austin và Đại học Purdue đang làm dấy lên lo ngại sâu sắc về “sức khỏe nhận thức” của trí tuệ nhân tạo (AI). Theo báo cáo được đăng tải trên máy chủ bản thảo arXiv, nhóm nghiên cứu phát hiện rằng các hệ thống AI mạnh mẽ tương tự như GPT-5 có thể bị suy thoái nghiêm trọng về khả năng tư duy, trí nhớ và hành vi nếu chúng liên tục được huấn luyện trên các dữ liệu “rác” từ mạng xã hội. Cùng Phong Vũ Tech News tìm hiểu chi tiết hơn trong bài viết dưới đây!

Mục lục

Toggle

I. Khi AI “ăn” dữ liệu mạng xã hội rác: Hiệu ứng “thối não” đáng sợ

Các nhà khoa học gọi hiện tượng này là “Giả thuyết LLM Brain Rot” (LLM Brain Rot Hypothesis) – tạm dịch là “giả thuyết AI bị thối não”. Nghiên cứu chỉ ra rằng khi các mô hình ngôn ngữ lớn (LLM) được “nhồi” quá nhiều dữ liệu kém chất lượng, đặc biệt là các bài đăng ngắn, giật gân, dễ lan truyền từ mạng xã hội như Twitter/X, hiệu suất của chúng sụt giảm rõ rệt.

Junyuan Hong Chia Sẻ Về Nghiên Cứu Ai Có Thể Bị Thối Não Trên Trang Twitter Của Mình — Junyuan Hong chia sẻ về nghiên cứu AI có thể bị thối não trên trang Twitter của mình (Nguồn: Internet)

Cụ thể, nhóm nghiên cứu do Shuo Xing và Junyuan Hong dẫn đầu, cùng sự đóng góp của Yifan Wang và cộng sự, đã tiến hành huấn luyện lại bốn mô hình nguồn mở trên hai loại dữ liệu:

Tập dữ liệu rác: gồm các bài đăng ngắn, nhiều tương tác (like, share), có ngôn ngữ giật gân, thu hút cảm xúc.
Tập dữ liệu kiểm soát: gồm các văn bản dài, có cấu trúc và chất lượng cao hơn.

Kết quả cho thấy, khi tỷ lệ dữ liệu rác tăng, khả năng lập luận của AI giảm theo tỉ lệ “liều lượng-phản ứng” rõ ràng:

Điểm số trong các bài kiểm tra lý luận giảm từ 75 xuống 57 khi lượng dữ liệu mạng xã hội đạt 100%.
Khả năng ghi nhớ ngữ cảnh dài cũng giảm mạnh, từ 84 xuống 52 trên cùng thang điểm.

Thí Nghiệm Kiểm Soát Kiểm Tra Giả Thuyết Thối Não Của Llm — Thí nghiệm kiểm soát kiểm tra Giả thuyết Thối não của LLM (Nguồn: Internet)

Điều này cho thấy, càng tiếp xúc nhiều với dữ liệu mạng xã hội rác, mô hình càng mất khả năng tư duy mạch lạc, bỏ qua các bước trung gian khi lập luận và dễ mắc lỗi logic.

Mall) Loa Kiểm Âm Bluetooth EDIFIER MR3/MR5 I Công Suất 36W | Bluetooth 5.4 |

II. Khi AI mất trí nhớ và trở nên “bất thường”

Một phát hiện đáng lo hơn là sự thay đổi trong hành vi của các mô hình. Trong một số bài kiểm tra “pháp y” đo lường đặc điểm tính cách, các mô hình được huấn luyện bằng dữ liệu rác cho thấy xu hướng cao hơn ở các chỉ số liên quan đến chứng tự luyến hoặc rối loạn nhân cách. Theo những chia sẻ mới nhất của Junyuan Hong từ Twitter: “Những biến đổi này phản ánh sự thay đổi trong cách AI biểu diễn kiến thức, chứ không chỉ là lỗi tạm thời.” — Junyuan Hong, Đại học Texas tại Austin.

Các Mô Hình Tiếp Xúc Với Dữ Liệu Rác Cho Thấy Sự Suy Giảm Nhận Thức Đáng Kể — Các mô hình tiếp xúc với dữ liệu rác cho thấy sự suy giảm nhận thức đáng kể (Nguồn: Internet)

Kết quả này cho thấy rủi ro đạo đức và an toàn tiềm ẩn: Nếu AI bị “thối não”, chúng có thể phản ứng không an toàn, thiếu đồng cảm hoặc biểu hiện hành vi phản xã hội trong một số tình huống nhất định.

III. Các biện pháp khắc phục: Không dễ “chữa lành” não cho AI

Các nhà nghiên cứu đã thử nghiệm nhiều phương pháp để “chữa trị” cho AI bị ảnh hưởng nhưng chỉ đạt thành công hạn chế. Điển hình như:

Các lời nhắc tự phản tỉnh: Yêu cầu AI tự xem xét lại câu trả lời của mình, không giúp cải thiện, đôi khi còn khiến kết quả tệ hơn.
Huấn luyện phản biện (debate training): Khi một mô hình mạnh hơn phản biện lại mô hình yếu giúp giảm hiện tượng “bỏ qua suy nghĩ”, nhưng vẫn không thể phục hồi hoàn toàn hiệu suất.
Điều chỉnh hướng dẫn (instruction tuning): Bằng cách ví dụ rõ ràng và huấn luyện trước trên dữ liệu chất lượng cao chỉ giúp cải thiện một phần.

Theo Yifan Wang, Đại học Purdue: “Thiệt hại này là kết quả của hiện tượng ‘trôi dạt biểu diễn’ (representation drift), khi cấu trúc tri thức trong AI bị thay đổi sâu sắc”.

Phân Tích Lỗi Cho Thấy “Bỏ Qua Suy Nghĩ” Là Nguyên Nhân Chính Khiến Ai Có Thể Bị Thối Não — Phân tích lỗi cho thấy “bỏ qua suy nghĩ” là nguyên nhân chính khiến AI có thể bị thối não (Nguồn: Internet)

IV. Nguy cơ tiềm ẩn đối với các công ty phát triển AI

Phát hiện này đặt ra thách thức lớn cho các công ty thường xuyên cập nhật trợ lý AI bằng dữ liệu web mới. Nếu phần lớn dữ liệu đầu vào đến từ các nền tảng mạng xã hội, nơi nội dung ngắn và giật gân chiếm ưu thế, thì AI có thể dần mất đi khả năng suy luận phức tạp, giữ mạch hội thoại và giải quyết vấn đề nhiều bước – những năng lực cốt lõi mà người dùng mong đợi.

Đây Là Vấn Đề Cấp Bách Với Các Công Ty Đang Phát Triển Về Trí Tuệ Ai (Nguồn: Internet)

Nhóm nghiên cứu cũng cảnh báo về một bề mặt tấn công mới: nếu các thuật toán học máy bị ảnh hưởng mạnh bởi các chỉ số tương tác (như lượt thích, chia sẻ), thì kẻ xấu có thể thao túng dữ liệu mạng xã hội để làm lệch hành vi của mô hình.

“Các chỉ số tương tác là tín hiệu phi ngữ nghĩa, và nếu bị lợi dụng, chúng có thể gây tổn hại nghiêm trọng đến độ tin cậy của AI.” — Shuo Xing, Đại học Texas A&M.

Screenshot 20251013 182011 Accesstrade Scaled

Tải VPBank

V. Lời cảnh báo cho tương lai của AI

Theo nhóm tác giả, việc quản lý dữ liệu đào tạo phòng ngừa và kiểm tra định kỳ sức khỏe nhận thức cho các hệ thống AI là cần thiết để duy trì độ chính xác và an toàn. “Nếu không kiểm soát nguồn dữ liệu đầu vào, chúng ta có thể vô tình tạo ra những mô hình mất tập trung, thiếu chiều sâu và dễ sai lệch.” — Junyuan Hong, Đại học Texas tại Austin.

Cần Kiểm Soát Nguồn Dữ Liệu Đầu Vào Để Tránh Tình Trạng Ai Thối Não (Nguồn: Internet)

Nghiên cứu này vẫn đang ở giai đoạn bản in thử và chưa được bình duyệt, nhưng đã mở ra một hướng nhìn mới về “sức khỏe tinh thần” của AI, đặc biệt trong bối cảnh các mô hình ngôn ngữ ngày càng lớn và phức tạp.

VI. Kết luận

Nghiên cứu “LLM Brain Rot Hypothesis” là lời cảnh báo mạnh mẽ rằng AI cũng cần được “ăn sạch” như con người. Dữ liệu rác, nếu không được kiểm soát, có thể khiến trí tuệ nhân tạo mất khả năng tư duy sâu và trở nên thiếu ổn định. Theo dõi Phong Vũ Tech News để cập nhật thêm những phân tích chuyên sâu và tin tức mới nhất về AI, công nghệ và xu hướng tương lai.

Nguồn: Greekreporter

Bài viết liên quan: