Trang chủ / Tin tức 24h / OpenAI ra mắt trình thu thập dữ liệu web ‘GPTBot’ trong bối cảnh kế hoạch cho mô hình tiếp theo: GPT-5

OpenAI ra mắt trình thu thập dữ liệu web ‘GPTBot’ trong bối cảnh kế hoạch cho mô hình tiếp theo: GPT-5

Người dùng ChatGPT có tùy chọn loại bỏ trình thu thập dữ liệu web bằng cách thêm lệnh “không cho phép” vào một tệp tiêu chuẩn trên máy chủ.

Công ty trí tuệ nhân tạo OpenAI đã ra mắt “GPTBot” – công cụ thu thập dữ liệu web mới của họ cho biết có khả năng được sử dụng để cải thiện các mô hình ChatGPT trong tương lai.

“Các trang web được thu thập thông tin bằng tác nhân người dùng GPTBot có khả năng có thể được sử dụng để cải thiện các mô hình trong tương lai,” OpenAI cho biết trong một bài đăng trên blog mới, đồng thời bổ sung rằng nó có thể cải thiện độ chính xác và mở rộng khả năng của các lần lặp lại trong tương lai.

Trình thu thập dữ liệu web, đôi khi được gọi là web spider, là một loại bot lập chỉ mục nội dung của các trang web trên internet. Các công cụ tìm kiếm như Google và Bing sử dụng chúng để các trang web hiển thị trong kết quả tìm kiếm. 

OpenAI cho biết trình thu thập dữ liệu web sẽ thu thập dữ liệu có sẵn công khai từ web trên toàn thế giới, nhưng sẽ lọc ra các nguồn yêu cầu nội dung có tường phí hoặc được biết là thu thập thông tin nhận dạng cá nhân hoặc có văn bản vi phạm chính sách của nó.

Cần lưu ý rằng chủ sở hữu trang web có thể từ chối trình thu thập dữ liệu web bằng cách thêm lệnh “không cho phép” vào một tệp tiêu chuẩn trên máy chủ.

Hướng dẫn “không cho phép” GPTBot cho người dùng ChatGPT. Nguồn: OpenAI

Trình thu thập thông tin mới xuất hiện ba tuần sau khi công ty nộp đơn đăng ký nhãn hiệu cho “GPT-5”, phiên bản kế thừa được mong đợi của mẫu GPT-4 hiện tại.

Đơn đăng ký đã được nộp tại Văn phòng Nhãn hiệu và Bằng sáng chế Hoa Kỳ vào ngày 18 tháng 7 và bao gồm việc sử dụng thuật ngữ “GPT-5”, bao gồm phần mềm cho lời nói và văn bản của con người dựa trên AI, chuyển đổi âm thanh thành văn bản và nhận dạng giọng nói và giọng nói .

Tuy nhiên, những người quan sát có thể không muốn nín thở cho lần lặp lại tiếp theo của ChatGPT. Vào tháng 6, người sáng lập kiêm Giám đốc điều hành của OpenAI, Sam Altman, cho biết công ty “không ở đâu gần” để bắt đầu đào tạo GPT-5, giải thích rằng cần phải tiến hành một số cuộc kiểm tra an toàn trước khi bắt đầu.

Trong khi đó, những lo ngại đã được đặt ra về các chiến thuật thu thập dữ liệu của OpenAI gần đây, đặc biệt xoay quanh bản quyền và sự đồng ý.

Cơ quan giám sát quyền riêng tư của Nhật Bản đã đưa ra cảnh báo cho OpenAI về việc thu thập dữ liệu nhạy cảm mà không được phép vào tháng 6, trong khi Ý tạm thời cấm sử dụng ChatGPT sau khi cáo buộc nó vi phạm nhiều luật về quyền riêng tư của Liên minh châu Âu vào tháng 4.

Vào cuối tháng 6, một vụ kiện tập thể đã được đệ trình chống lại OpenAI bởi 16 nguyên đơn cáo buộc công ty AI đã truy cập thông tin cá nhân từ các tương tác của người dùng ChatGPT.

Nếu những cáo buộc này được chứng minh là chính xác, OpenAI — và Microsoft, người được nêu tên là bị đơn — sẽ vi phạm Đạo luật Lừa đảo và Lạm dụng Máy tính, một luật có tiền lệ đối với các trường hợp thu thập thông tin trên web.

Cùng chuyên mục