
Vào ngày cuối cùng của sự kiện ’12 ngày OpenAI’, hôm nay OpenAI đã công bố họ mô hình lý luận o3 sắp ra mắt. Tương tự như họ o1 hiện có, họ o3 sẽ bao gồm các mô hình o3 và o3 mini.
OpenAI cũng chia sẻ một số số liệu chuẩn cho các mô hình o3.
- o3 đã đạt điểm đột phá 75,7% trong Đánh giá bán riêng tư ARC-AGI. Với cấu hình o3 tính toán cao, nó đạt điểm 87,5% trong Đánh giá bán riêng tư.
- Trên chuẩn EpochAI Frontier Math, o3 đã giải quyết được 25,2% bài toán, trong khi các mô hình hiện tại chỉ giải quyết được 2%.
- Trên SWE-Bench Verified, o3 đạt 71,7 điểm, cao hơn 22,8 điểm so với o1.
- Trên Codeforces, o3 đạt được xếp hạng Elo là 2727.
- Trong kỳ thi AIME 2024, o3 đạt điểm 96,7%. Để so sánh, o1 đạt 83,3 điểm.
- Trên GPQA Diamond, o3 đạt 87,7%. Trong khi đó, o1 đạt 78%.
Nhóm giải thưởng ARC đã viết như sau về các mô hình o3 mới từ OpenAI:
Mô hình o3 mới của OpenAI đại diện cho bước tiến đáng kể về khả năng thích ứng với các nhiệm vụ mới của AI. Đây không chỉ là sự cải thiện gia tăng mà còn là một bước đột phá thực sự, đánh dấu sự thay đổi về chất trong khả năng của AI so với những hạn chế trước đây của LLM. o3 là một hệ thống có khả năng thích ứng với các nhiệm vụ mà nó chưa từng gặp trước đây, có thể nói là đạt đến hiệu suất ngang bằng con người trong lĩnh vực ARC-AGI.
Mô hình o3 mini sẽ cung cấp cho người dùng tùy chọn lựa chọn giữa ba mức lập luận: Cao, Trung bình và Thấp. Mức Thấp sẽ nhanh nhất nhưng kém chính xác hơn, trong khi mức Cao sẽ chậm nhất nhưng chính xác hơn.
OpenAI vẫn chưa phát hành các mô hình o3. Tuy nhiên, công ty đã bắt đầu chia sẻ các mô hình o3 để thử nghiệm an toàn và bảo mật, bắt đầu từ hôm nay. Các nhà nghiên cứu an toàn và bảo mật quan tâm cũng có thể nộp đơn để được tiếp cận các mô hình o3 trước khi ra mắt công chúng. Các mô hình o3 dự kiến sẽ có sẵn cho công chúng vào năm 2025.
Theo neowin.net
