ChatGPT v4 vượt qua giới hạn, SAT và có thể xác định các hành vi khai thác trong hợp đồng ETH
GPT-4 đã hoàn thành nhiều bài kiểm tra trong top 10% của nhóm thuần tập, trong khi phiên bản gốc của ChatGPT thường kết thúc ở 10% cuối cùng.
GPT-4, phiên bản mới nhất của chatbot trí tuệ nhân tạo ChatGPT, có thể vượt qua các bài kiểm tra ở trường trung học và kỳ thi vào trường luật với điểm xếp hạng ở phân vị thứ 90 và có các khả năng xử lý mới mà phiên bản trước không thể thực hiện được.
Các số liệu từ điểm kiểm tra của GPT-4 đã được chia sẻ vào ngày 14 tháng 3 bởi nhà sáng tạo OpenAI, tiết lộ rằng nó cũng có thể chuyển đổi đầu vào hình ảnh, âm thanh và video thành văn bản ngoài việc xử lý “các hướng dẫn nhiều sắc thái hơn” một cách sáng tạo và đáng tin cậy hơn.
OpenAI cho biết thêm: “Nó vượt qua bài kiểm tra thanh mô phỏng với số điểm nằm trong khoảng 10% người thực hiện bài kiểm tra hàng đầu”. “Ngược lại, điểm của GPT-3.5 nằm ở khoảng 10% dưới cùng.”
Các số liệu cho thấy GPT-4 đã đạt được số điểm 163 trong phân vị thứ 88 trong kỳ thi LSAT — bài kiểm tra mà sinh viên đại học cần phải vượt qua ở Hoa Kỳ để được nhận vào trường luật.

Điểm của GPT4 sẽ giúp bạn có cơ hội tốt để được nhận vào 20 trường luật hàng đầu và chỉ kém một vài điểm so với điểm báo cáo cần thiết để được nhận vào các trường danh tiếng như Harvard, Stanford, Princeton hoặc Yale.
Phiên bản trước của ChatGPT chỉ đạt 149 điểm trên LSAT, đưa nó vào nhóm 40% dưới cùng.
GPT-4 cũng đạt 298 trên 400 điểm trong Kỳ thi luật sư thống nhất — một kỳ thi do các sinh viên luật mới tốt nghiệp thực hiện để cho phép họ hành nghề luật sư ở bất kỳ khu vực tài phán nào của Hoa Kỳ.

Phiên bản cũ của ChatGPT gặp khó khăn trong bài kiểm tra này, xếp ở vị trí 10% cuối bảng với số điểm 213 trên 400.
Đối với các bài thi Đọc & Viết dựa trên bằng chứng SAT và Toán SAT do học sinh trung học Hoa Kỳ thực hiện để đánh giá mức độ sẵn sàng vào đại học của họ, GPT-4 đạt điểm tương ứng ở phần trăm thứ 93 và 89.
GPT-4 cũng xuất sắc trong các môn khoa học “khó”, đạt điểm phần trăm trên trung bình cao trong môn Sinh học AP (85-100%), Hóa học (71-88%) và Vật lý 2 (66-84%).

Tuy nhiên, điểm Giải tích AP của nó ở mức trung bình khá, xếp hạng từ 43 đến 59 phần trăm.
Một lĩnh vực khác mà GPT-4 còn thiếu sót là trong các bài kiểm tra văn học Anh, đăng điểm từ phân vị thứ 8 đến 44 trong hai bài kiểm tra riêng biệt.
OpenAI cho biết GPT-4 và GPT-3.5 đã thực hiện các bài kiểm tra này từ kỳ thi thực hành năm 2022-2023 và các công cụ xử lý ngôn ngữ “không có đào tạo cụ thể”:
“Chúng tôi không đào tạo cụ thể cho các kỳ thi này. Một số vấn đề trong các kỳ thi đã được người mẫu nhìn thấy trong quá trình đào tạo, nhưng chúng tôi tin rằng kết quả mang tính đại diện.”
Kết quả cũng khiến cộng đồng Twitter lo sợ.
Nick Almond, người sáng lập FactoryDAO, đã nói với 14.300 người theo dõi trên Twitter của mình vào ngày 14 tháng 3 rằng GPT4 sẽ “làm mọi người sợ hãi” và nó sẽ “làm sụp đổ” hệ thống giáo dục toàn cầu.
Assessment theory was a big chunk of my life for several years. I was banging on about this day coming many years ago. I literally sounded like the resident crank at the time.
But… really this means that anything but invigilated assessment is over from this point on.
— drnick 🗳️² (@DrNickA) March 14, 2023
Cựu giám đốc Coinbase Conor Grogan cho biết ông đã chèn một hợp đồng thông minh Ethereum trực tiếp vào GPT-4 và chatbot ngay lập tức chỉ ra một số “lỗ hổng bảo mật” và vạch ra cách mã có thể bị khai thác:
I dumped a live Ethereum contract into GPT-4.
In an instant, it highlighted a number of security vulnerabilities and pointed out surface areas where the contract could be exploited. It then verified a specific way I could exploit the contract pic.twitter.com/its5puakUW
— Conor (@jconorgrogan) March 14, 2023
Các cuộc kiểm tra hợp đồng thông minh trước đó trên ChatGPT đã phát hiện ra rằng phiên bản đầu tiên của nó cũng có khả năng phát hiện ra các lỗi mã ở mức độ hợp lý.
Rowan Cheung, người sáng lập bản tin AI The Rundown , đã chia sẻ video GPT chuyển một trang web giả vẽ tay trên một tờ giấy thành mã.
I just watched GPT-4 turn a hand-drawn sketch into a functional website.
This is insane. pic.twitter.com/P5nSjrk7Wn
— Rowan Cheung (@rowancheung) March 14, 2023