Điểm chuẩn AI bị phá vỡ.

Điểm chuẩn AI bị phá vỡ.

Các thử nghiệm một lần không đo lường được tác động thực sự của AI.

Tốt hơn hết chúng ta nên chuyển sang các phương pháp lấy con người làm trung tâm, phù hợp với bối cảnh cụ thể hơn.

Trong nhiều thập kỷ, trí tuệ nhân tạo đã được đánh giá thông qua câu hỏi liệu máy móc có vượt trội hơn con người hay không.

Từ cờ vua đến toán nâng cao, từ viết mã đến viết luận, hiệu suất của các mô hình và ứng dụng AI đều được kiểm tra dựa trên hiệu suất của từng cá nhân khi hoàn thành nhiệm vụ.

This framing is seductive: An AI vs.

sự so sánh của con người đối với các vấn đề riêng biệt với câu trả lời đúng hoặc sai rõ ràng rất dễ chuẩn hóa, so sánh và tối ưu hóa.

It generates rankings and headlines.

Nhưng có một vấn đề: AI gần như không bao giờ được sử dụng theo cách nó được đánh giá chuẩn.

Mặc dù các nhà nghiên cứu và ngành công nghiệp đã bắt đầu cải thiện việc đo điểm chuẩn bằng cách chuyển từ các thử nghiệm tĩnh sang các phương pháp đánh giá năng động hơn, nhưng những đổi mới này chỉ giải quyết được một phần của vấn đề.

Đó là bởi vì họ vẫn đánh giá hiệu suất của AI bên ngoài nhóm con người và quy trình làm việc của tổ chức, nơi cuối cùng thể hiện hiệu suất trong thế giới thực của nó.

Mặc dù AI được đánh giá ở cấp độ nhiệm vụ trong môi trường chân không, nhưng nó được sử dụng trong những môi trường lộn xộn, phức tạp, nơi nó thường tương tác với nhiều người.

Hiệu suất của nó (hoặc sự thiếu hụt) chỉ xuất hiện sau thời gian sử dụng kéo dài.

Sự sai lệch này khiến chúng ta hiểu sai về khả năng của AI, bỏ qua các rủi ro hệ thống và đánh giá sai các hậu quả kinh tế và xã hội của nó.

Để giảm thiểu điều này, đã đến lúc chuyển từ các phương pháp hẹp sang các tiêu chuẩn đánh giá cách hệ thống AI hoạt động trong khoảng thời gian dài hơn trong các nhóm, quy trình làm việc và tổ chức của con người.

Tôi đã nghiên cứu việc triển khai AI trong thế giới thực từ năm 2022 tại các doanh nghiệp nhỏ và các tổ chức y tế, nhân đạo, phi lợi nhuận và giáo dục đại học ở Vương quốc Anh, Hoa Kỳ và Châu Á, cũng như trong các hệ sinh thái thiết kế AI hàng đầu ở London và Thung lũng Silicon.