OpenAI công bố mô hình lý luận AI mini o3 và o3

OpenAI đánh dấu sự kết thúc của thông báo “12 ngày OpenAI” bằng việc giới thiệu hai mô hình lý luận nâng cao: o3 và o3 mini.

Những mô hình này kế thừa mô hình lý luận o1 trước đó, phát hành đầu năm nay. Điều thú vị là OpenAI đã bỏ qua “o2” để tránh xung đột hoặc nhầm lẫn tiềm ẩn với công ty viễn thông O2 của Anh.

o3 Mô hình: Thiết lập các tiêu chuẩn mới về lý luận và trí thông minh

Mô hình o3 thiết lập một chuẩn mực mới về lý luận và trí thông minh, vượt trội so với mô hình tiền nhiệm trên nhiều lĩnh vực khác nhau:

  • Mã hóa: Đã đạt được mức cải thiện 22,8% trong các bài kiểm tra mã hóa được xác minh bằng SWE-Bench so với o1.
  • Môn Toán: Gần như đứng đầu kỳ thi AIME 2024 với số điểm 96,7%, chỉ thiếu một câu hỏi.
  • Khoa học tổng quát: Được bảo đảm 87,7% trên GPQA Diamond, đánh giá các vấn đề khoa học cấp chuyên gia.

  • Điểm chuẩn ARC-AGI: Phá vỡ chuỗi 5 năm bất bại của điểm chuẩn ARC-AGI với số điểm 87,5% trong cài đặt tính toán cao, vượt qua ngưỡng 85% của con người.

Điểm chuẩn ARC-AGI đánh giá trí thông minh tổng quát bằng cách kiểm tra khả năng của mô hình trong việc giải quyết các vấn đề mới mà không cần dựa vào các mẫu đã ghi nhớ. Với thành tích này, OpenAI mô tả mô hình o3 là ​​một bước tiến quan trọng hướng tới Trí tuệ nhân tạo tổng hợp (AGI).

o3 Mini: Một giải pháp thay thế nhỏ gọn, tiết kiệm chi phí

O3 mini cung cấp phiên bản chưng cất của o3, được tối ưu hóa về hiệu quả và khả năng chi trả:

  • Được thiết kế để mã hóa và hiệu suất nhanh hơn.
  • Có ba cài đặt điện toán: thấp, trung bình và cao.
  • Hoạt động tốt hơn mô hình o1 lớn hơn trong cài đặt điện toán trung bình, giúp giảm chi phí và độ trễ.
Sự liên kết có chủ ý để tăng cường an toàn

OpenAI đã giới thiệu sự liên kết có chủ ý, một mô hình đào tạo mới nhằm cải thiện sự an toàn bằng cách kết hợp lý luận có cấu trúc phù hợp với các tiêu chuẩn an toàn do con người viết ra. Các khía cạnh chính bao gồm:

  • Các mô hình tham gia rõ ràng vào lý luận chuỗi suy nghĩ (CoT) phù hợp với các chính sách của OpenAI.
  • Loại bỏ nhu cầu về dữ liệu CoT do con người gắn nhãn, tăng cường tuân thủ các tiêu chuẩn an toàn.
  • Cho phép phản hồi theo ngữ cảnh và an toàn hơn trong quá trình suy luận so với các phương pháp trước đó như RLHF và Hiến pháp AI.
Đào tạo và phương pháp

Sự liên kết có chủ ý sử dụng cả giám sát dựa trên quá trình và dựa trên kết quả:

  1. Quá trình đào tạo bắt đầu bằng các nhiệm vụ hữu ích, không bao gồm dữ liệu cụ thể về an toàn.
  2. Một tập dữ liệu gồm các lời nhắc tham khảo các tiêu chuẩn an toàn được phát triển để tinh chỉnh.
  3. Học tăng cường cải tiến mô hình bằng cách sử dụng các tín hiệu khen thưởng gắn liền với việc tuân thủ an toàn.

Kết quả:

  • Mẫu o3 vượt trội hơn GPT-4o và các mẫu hiện đại khác về các tiêu chuẩn an toàn bên trong và bên ngoài.
  • Những cải tiến đáng kể đã được ghi nhận trong việc tránh những kết quả có hại trong khi vẫn cho phép phản ứng lành tính.
Cơ hội tiếp cận và nghiên cứu sớm

Phiên bản đầu tiên của mô hình o3 sẽ được phát hành vào đầu năm 2025. OpenAI đã mời các nhà nghiên cứu về an toàn và bảo mật tham gia áp dụng để truy cập sớm, đơn đăng ký sẽ kết thúc vào ngày 10 tháng 1 năm 2025. Các nhà nghiên cứu được chọn sẽ nhận được thông báo ngay sau đó.

Người tham gia chương trình sẽ:

  • Xây dựng các đánh giá mới để đánh giá khả năng và rủi ro của AI.
  • Phát triển các cuộc biểu tình có kiểm soát cho các tình huống có nguy cơ cao.
  • Đóng góp những hiểu biết sâu sắc về khuôn khổ an toàn của OpenAI.
Tập trung vào nghiên cứu an toàn AI

OpenAI tiếp tục ưu tiên nghiên cứu an toàn khi các mô hình lý luận ngày càng trở nên phức tạp. Sáng kiến ​​này phù hợp với sự hợp tác đang diễn ra với các tổ chức như Viện An toàn AI của Hoa Kỳ và Vương quốc Anh, đảm bảo những tiến bộ trong AI vẫn an toàn và mang lại lợi ích.


Khám phá thêm từ Global Resources

Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.

Gửi phản hồi

Khám phá thêm từ Global Resources

Đăng ký ngay để tiếp tục đọc và truy cập kho lưu trữ đầy đủ.

Tiếp tục đọc