Các nhà nghiên cứu tìm thấy các LLM như ChatGPT xuất ra dữ liệu nhạy cảm ngay cả sau khi nó bị ‘xóa’
Theo các nhà khoa học, không có phương pháp chung nào có thể xóa dữ liệu khỏi mô hình ngôn ngữ lớn được huấn luyện trước.
Bộ ba nhà khoa học từ Đại học Bắc Carolina, Đồi Chapel gần đây đã công bố nghiên cứu về trí tuệ nhân tạo (AI) in sẵn cho thấy việc xóa dữ liệu nhạy cảm khỏi các mô hình ngôn ngữ lớn (LLM) như ChatGPT của OpenAI và Bard của Google khó đến mức nào.
Theo bài báo của các nhà nghiên cứu, nhiệm vụ “xóa” thông tin khỏi LLM là có thể thực hiện được, nhưng việc xác minh thông tin đã bị xóa cũng khó như việc xóa nó trên thực tế.
Lý do cho điều này liên quan đến cách LLM được thiết kế và đào tạo. Các mô hình được huấn luyện trước trên cơ sở dữ liệu và sau đó được tinh chỉnh để tạo ra các kết quả đầu ra mạch lạc (GPT là viết tắt của “máy biến áp được huấn luyện trước tạo sinh”).
Ví dụ: khi một mô hình được đào tạo, người tạo ra nó không thể quay lại cơ sở dữ liệu và xóa các tệp cụ thể để cấm mô hình xuất ra các kết quả liên quan. Về cơ bản, tất cả thông tin mà một mô hình được huấn luyện đều tồn tại ở đâu đó bên trong các trọng số và tham số của nó, nơi chúng không thể xác định được nếu không thực sự tạo ra kết quả đầu ra. Đây chính là “hộp đen” của AI.
Một vấn đề nảy sinh khi LLM được đào tạo trên bộ dữ liệu lớn đưa ra thông tin nhạy cảm như thông tin nhận dạng cá nhân, hồ sơ tài chính hoặc các kết quả đầu ra có thể gây hại và không mong muốn khác.
Ví dụ: trong một tình huống giả định trong đó LLM được đào tạo về thông tin ngân hàng nhạy cảm, thường không có cách nào để người tạo AI tìm thấy các tệp đó và xóa chúng. Thay vào đó, các nhà phát triển AI sử dụng các biện pháp bảo vệ như lời nhắc được mã hóa cứng để ngăn chặn các hành vi cụ thể hoặc tăng cường học tập từ phản hồi của con người (RLHF).
Trong mô hình RLHF, người đánh giá là con người tham gia vào các mô hình với mục đích khơi gợi cả hành vi mong muốn và không mong muốn. Khi kết quả đầu ra của mô hình được mong muốn, chúng sẽ nhận được phản hồi điều chỉnh mô hình theo hành vi đó. Và khi kết quả đầu ra thể hiện hành vi không mong muốn, chúng sẽ nhận được phản hồi được thiết kế để hạn chế hành vi đó trong các kết quả đầu ra trong tương lai.
Tuy nhiên, như các nhà nghiên cứu của UNC đã chỉ ra, phương pháp này dựa vào việc con người tìm ra tất cả các sai sót mà một mô hình có thể bộc lộ và ngay cả khi thành công, nó vẫn không “xóa” thông tin khỏi mô hình.
Theo bài nghiên cứu của nhóm:
“Một thiếu sót sâu sắc hơn của RLHF là một mô hình vẫn có thể biết thông tin nhạy cảm. Mặc dù có nhiều tranh luận về những mô hình thực sự ‘biết’, nhưng có vẻ như có vấn đề đối với một mô hình, chẳng hạn như có thể mô tả cách tạo ra vũ khí sinh học nhưng chỉ kiềm chế trả lời các câu hỏi về cách thực hiện điều này.”
Cuối cùng, các nhà nghiên cứu của UNC đã kết luận rằng ngay cả các phương pháp chỉnh sửa mô hình tiên tiến nhất , chẳng hạn như Chỉnh sửa mô hình xếp hạng một “không thể xóa hoàn toàn thông tin thực tế khỏi LLM, vì các sự kiện vẫn có thể được trích xuất 38% bằng các cuộc tấn công hộp trắng”. và 29% là do tấn công hộp đen.”
Mô hình mà nhóm sử dụng để tiến hành nghiên cứu của họ được gọi là GPT-J. Trong khi GPT-3.5, một trong những mẫu cơ bản hỗ trợ ChatGPT, đã được tinh chỉnh với 170 tỷ thông số thì GPT-J chỉ có 6 tỷ.
Rõ ràng, điều này có nghĩa là vấn đề tìm kiếm và loại bỏ dữ liệu không mong muốn trong LLM như GPT-3.5 khó khăn hơn gấp nhiều lần so với việc thực hiện điều đó trong một mô hình nhỏ hơn.
Các nhà nghiên cứu đã có thể phát triển các phương pháp phòng thủ mới để bảo vệ LLM khỏi một số “cuộc tấn công khai thác” – những nỗ lực có mục đích của các tác nhân xấu nhằm sử dụng lời nhắc nhằm phá vỡ các rào chắn của mô hình nhằm khiến nó đưa ra thông tin nhạy cảm
Tuy nhiên, như các nhà nghiên cứu viết, “vấn đề xóa thông tin nhạy cảm có thể là vấn đề mà các phương pháp phòng thủ luôn phải bắt kịp các phương thức tấn công mới”.