OpenAI vừa công bố LifeSciBench, bộ benchmark mới để đánh giá năng lực của AI trong các tình huống nghiên cứu khoa học thực tế. Bộ này gồm 750 tác vụ do chuyên gia thiết kế, trải rộng 7 nhóm quy trình nghiên cứu và 7 lĩnh vực sinh học.
LifeSciBench được xây dựng từ đóng góp của 173 nhà nghiên cứu có bằng tiến sĩ và kinh nghiệm trong ngành biotech hoặc dược phẩm. OpenAI cho biết bộ đánh giá này tập trung vào các năng lực nghiên cứu phức tạp như tổng hợp bằng chứng, thiết kế thí nghiệm, phân tích dữ liệu, suy luận khoa học và truyền đạt kết quả.
Khác với các câu hỏi факт riêng lẻ, hơn 79% tác vụ trong LifeSciBench yêu cầu suy luận nhiều bước, trung bình khoảng 4 bước cho mỗi câu hỏi. Bộ dữ liệu còn đi kèm 1.062 tệp đính kèm liên quan đến nghiên cứu thực tế, gồm bài báo, hình ảnh, dữ liệu trình tự và tệp cấu trúc.
OpenAI cho biết mục tiêu của benchmark là đo khả năng xử lý các tình huống gần với công việc nghiên cứu hơn, thay vì chỉ kiểm tra trí nhớ kiến thức. Hiện chưa có thêm chi tiết về cách LifeSciBench sẽ được dùng trong các đánh giá tiếp theo.

