Các hội nghị AI lớn đang siết quy định vì bài báo và phản biện do AI tạo ngày càng nhiều, làm tăng rủi ro sai sót và bào mòn niềm tin vào nghiên cứu khoa học.
Khi hệ thống phản biện bị “nghẽn” bởi bài nộp chất lượng thấp và nội dung tạo tự động, vấn đề không còn là văn phong mà là độ chính xác. Một số tổ chức đã bắt buộc khai báo mức độ dùng mô hình ngôn ngữ và áp dụng chế tài với phản biện kém chất lượng.
- Các hội nghị AI thắt chặt quy định vì bài báo và phản biện do AI tạo làm tăng lỗi và giảm độ tin cậy.
- Dữ liệu cho thấy dấu hiệu dùng mô hình ngôn ngữ xuất hiện đáng kể trong bài báo, phản biện và hồ sơ nộp.
- Khó phát hiện chuẩn hóa và áp lực “số lượng” có thể làm xấu dữ liệu huấn luyện, ảnh hưởng chất lượng mô hình AI.
Các hội nghị AI siết chặt khi bài chất lượng thấp gây quá tải phản biện
Các hội nghị đã cập nhật quy định sử dụng mô hình ngôn ngữ vì nội dung tạo tự động khiến lỗi lọt vào quy trình phản biện, đe dọa độ chính xác vốn là cốt lõi của nghiên cứu.
Nhiều nhà nghiên cứu cảnh báo từ sớm rằng việc dùng công cụ viết tự động không kiểm soát có thể làm hỏng tiêu chuẩn ngành. Inioluwa Deborah Raji (Đại học California, Berkeley) mô tả tình trạng trở nên “hỗn loạn” nhanh chóng khi sự hào hứng với AI lan rộng nhưng chính cộng đồng AI lại chịu hệ quả từ việc dùng AI tràn lan trong viết học thuật.
“Có một chút trớ trêu khi mọi người rất hào hứng về việc AI định hình các lĩnh vực khác, trong khi thực tế lĩnh vực của chúng tôi đã trải qua trải nghiệm hỗn loạn này vì việc sử dụng AI trên diện rộng.”
– Inioluwa Deborah Raji, nhà nghiên cứu AI, University of California, Berkeley
Một nghiên cứu của Đại học Stanford công bố tháng 8 cho biết tới 22% bài báo khoa học máy tính có dấu hiệu sử dụng mô hình ngôn ngữ lớn. Đây là chỉ báo cho thấy mức độ lan rộng của việc “tự động hóa” phần viết, vốn có thể tạo ra nội dung trông trôi chảy nhưng chứa sai lệch về dữ kiện, trích dẫn hoặc lập luận.
Pangram, một công ty phân tích văn bản, đã rà soát bài nộp và phản biện tại International Conference on Learning Representations (ICLR) 2025. Ước tính 21% phản biện được AI tạo hoàn toàn, và hơn một nửa có dùng AI cho các tác vụ như biên tập. Pangram cũng phát hiện 9% bài nộp có hơn một nửa nội dung được tạo theo cách này.
Vấn đề đạt “điểm bùng phát” vào tháng 11 khi người phản biện ICLR gắn cờ một bài bị nghi do AI tạo nhưng vẫn nằm trong top 17% theo điểm phản biện. Tháng 1, công ty phát hiện GPTZero báo cáo hơn 100 lỗi tự động trên 50 bài được trình bày tại NeurIPS, một hội nghị hàng đầu về nghiên cứu AI.
Trước các lo ngại, ICLR đã cập nhật quy tắc sử dụng: bài báo không khai báo việc dùng mô hình ngôn ngữ ở mức lớn có thể bị loại. Phản biện nộp đánh giá chất lượng thấp do tự động hóa cũng có thể bị phạt, gồm rủi ro bị từ chối bài của chính người phản biện trong tương lai.
“Nếu bạn đang xuất bản những bài chất lượng rất thấp và sai, vì sao xã hội nên tin chúng ta với tư cách nhà khoa học?”
– Hany Farid, giáo sư khoa học máy tính, University of California, Berkeley
Số lượng bài nộp tăng vọt trong khi phát hiện nội dung tự động chưa theo kịp
NeurIPS ghi nhận lượng bài nộp tăng mạnh qua các năm, làm hệ thống phản biện chịu áp lực lớn, còn tiêu chuẩn phát hiện văn bản tự động chưa thống nhất nên việc sàng lọc trở nên khó khăn.
Theo báo cáo, NeurIPS nhận 21.575 bài năm 2025, tăng từ 17.491 bài năm 2024 và 9.467 bài năm 2020. Báo cáo cũng nêu trường hợp một tác giả nộp hơn 100 bài trong một năm, vượt xa mức thông thường với một nhà nghiên cứu.
Thomas G. Dietterich, giáo sư danh dự Đại học Oregon State và là chủ tịch phân ban khoa học máy tính của arXiv, cho biết lượng tải lên kho mở này cũng tăng mạnh. Tuy nhiên, nguyên nhân không đơn giản: có ý kiến cho rằng do nhiều người “đổ vào” lĩnh vực, trong khi ý kiến khác nhấn mạnh vai trò của việc dùng công cụ AI ở quy mô lớn.
Phát hiện vẫn khó vì chưa có chuẩn chung để nhận diện văn bản tự động. Dietterich nói các dấu hiệu cảnh báo thường gặp gồm tài liệu tham khảo bịa, hoặc số liệu không đúng. Tác giả bị phát hiện có thể bị cấm tạm thời khỏi arXiv, cho thấy một số hạ tầng xuất bản đã có cơ chế răn đe nhưng vẫn phụ thuộc vào khả năng phát hiện và kiểm tra.
Áp lực thương mại và “đếm số lượng” làm tăng động cơ lạm dụng AI
Sự cạnh tranh mạnh, demo gây tiếng vang và kỳ vọng thị trường có thể khiến một bộ phận ưu tiên sản lượng hơn chất lượng, làm tăng nguy cơ dùng AI để “bơm” bài nộp và phản biện.
Báo cáo mô tả bối cảnh áp lực thương mại: demo nổi bật, mức lương tăng và cạnh tranh gay gắt khiến một số nơi tập trung vào số lượng. Raji nhận định các giai đoạn “hype” thường thu hút người bên ngoài tìm kết quả nhanh, từ đó làm tăng khả năng lạm dụng công cụ viết tự động thay vì đầu tư vào kiểm chứng và tái lập kết quả.
Dù vậy, không phải mọi cách dùng đều tiêu cực. Dietterich nêu ví dụ chất lượng tiếng Anh trong một số bài từ Trung Quốc được cải thiện, có thể nhờ công cụ ngôn ngữ giúp diễn đạt rõ hơn. Điểm then chốt là minh bạch mức độ dùng AI và duy trì quy trình kiểm tra để tránh “vỏ ngôn ngữ” che khuất lỗi nội dung.
Dữ liệu học thuật bị “tổng hợp” quá mức có thể làm giảm chất lượng mô hình AI
Nếu dữ liệu huấn luyện bị pha nhiều nội dung tổng hợp và không được kiểm duyệt, mô hình ngôn ngữ có thể suy giảm chất lượng, vì vậy các công ty thu thập dữ liệu nghiên cứu có động cơ phân biệt nội dung do người viết.
Vấn đề vượt ra ngoài xuất bản. Các công ty như Google, Anthropic và OpenAI quảng bá mô hình như “đối tác nghiên cứu” giúp tăng tốc khám phá, trong đó có khoa học sự sống. Các hệ thống này được huấn luyện trên văn bản học thuật, nên chất lượng của kho học thuật tác động trực tiếp đến chất lượng mô hình.
Hany Farid cảnh báo nếu dữ liệu huấn luyện chứa quá nhiều nội dung tổng hợp, hiệu năng mô hình có thể suy giảm. Một số nghiên cứu trước đây cho thấy mô hình ngôn ngữ lớn có thể “sụp đổ” thành nội dung vô nghĩa khi được huấn luyện tiếp trên dữ liệu tự động không được tuyển chọn, nhấn mạnh tầm quan trọng của dữ liệu sạch và quy trình quản trị dữ liệu.
Farid cũng cho rằng các công ty “cào” dữ liệu nghiên cứu có động lực mạnh để biết bài nào do con người viết. Kevin Weil, lãnh đạo mảng khoa học tại OpenAI, nhấn mạnh công cụ vẫn cần kiểm tra bởi con người.
“Nó có thể là một chất xúc tác khổng lồ. Nhưng bạn phải kiểm tra. Nó không miễn trừ bạn khỏi sự nghiêm ngặt.”
– Kevin Weil, Head of Science, OpenAI
Những câu hỏi thường gặp
Vì sao các hội nghị AI phải cập nhật quy định về việc dùng mô hình ngôn ngữ?
Vì số lượng bài nộp và phản biện có dấu hiệu do AI tạo tăng nhanh, khiến lỗi và thông tin sai dễ lọt qua, làm giảm độ tin cậy của kết quả nghiên cứu và gây quá tải cho người phản biện.
ICLR áp dụng biện pháp gì với bài báo và phản biện dùng AI nhưng không minh bạch?
ICLR yêu cầu khai báo việc dùng mô hình ngôn ngữ ở mức lớn; bài không khai báo có thể bị loại. Người phản biện nộp đánh giá kém chất lượng do tự động hóa có thể bị phạt, gồm nguy cơ bài của họ bị từ chối.
Dấu hiệu phổ biến của nội dung học thuật tạo tự động là gì?
Các dấu hiệu được nêu gồm tài liệu tham khảo bịa và số liệu không chính xác. Do chưa có chuẩn chung, việc nhận diện thường dựa vào kết hợp công cụ phát hiện và kiểm tra thủ công.
Tại sao nội dung tổng hợp có thể làm hại mô hình AI?
Nếu mô hình được huấn luyện trên quá nhiều dữ liệu tự động không được kiểm duyệt, chất lượng có thể suy giảm. Một số nghiên cứu trước đây cho thấy mô hình có thể “sụp đổ” thành nội dung vô nghĩa khi học từ dữ liệu tổng hợp kém chất lượng.
