Điểm chuẩn AI bị phá vỡ.

Điểm chuẩn AI bị phá vỡ.

Các thử nghiệm một lần không đo lường được tác động thực sự của AI.

Tốt hơn hết chúng ta nên chuyển sang các phương pháp lấy con người làm trung tâm, phù hợp với bối cảnh cụ thể hơn.

Trong nhiều thập kỷ, trí tuệ nhân tạo đã được đánh giá thông qua câu hỏi liệu máy móc có vượt trội hơn con người hay không.

Từ cờ vua đến toán nâng cao, từ viết mã đến viết luận, hiệu suất của các mô hình và ứng dụng AI đều được kiểm tra dựa trên hiệu suất của từng cá nhân khi hoàn thành nhiệm vụ.

This framing is seductive: An AI vs.

sự so sánh của con người đối với các vấn đề riêng biệt với câu trả lời đúng hoặc sai rõ ràng rất dễ chuẩn hóa, so sánh và tối ưu hóa.

It generates rankings and headlines.

Nhưng có một vấn đề: AI gần như không bao giờ được sử dụng theo cách nó được đánh giá chuẩn.

Mặc dù các nhà nghiên cứu và ngành công nghiệp đã bắt đầu cải thiện việc đo điểm chuẩn bằng cách chuyển từ các thử nghiệm tĩnh sang các phương pháp đánh giá năng động hơn, nhưng những đổi mới này chỉ giải quyết được một phần của vấn đề.

Đó là bởi vì họ vẫn đánh giá hiệu suất của AI bên ngoài nhóm con người và quy trình làm việc của tổ chức, nơi cuối cùng thể hiện hiệu suất trong thế giới thực của nó.

Mặc dù AI được đánh giá ở cấp độ nhiệm vụ trong môi trường chân không, nhưng nó được sử dụng trong những môi trường lộn xộn, phức tạp, nơi nó thường tương tác với nhiều người.

Hiệu suất của nó (hoặc sự thiếu hụt) chỉ xuất hiện sau thời gian sử dụng kéo dài.

Sự sai lệch này khiến chúng ta hiểu sai về khả năng của AI, bỏ qua các rủi ro hệ thống và đánh giá sai các hậu quả kinh tế và xã hội của nó.

Để giảm thiểu điều này, đã đến lúc chuyển từ các phương pháp hẹp sang các tiêu chuẩn đánh giá cách hệ thống AI hoạt động trong khoảng thời gian dài hơn trong các nhóm, quy trình làm việc và tổ chức của con người.

Tôi đã nghiên cứu việc triển khai AI trong thế giới thực từ năm 2022 tại các doanh nghiệp nhỏ và các tổ chức y tế, nhân đạo, phi lợi nhuận và giáo dục đại học ở Vương quốc Anh, Hoa Kỳ và Châu Á, cũng như trong các hệ sinh thái thiết kế AI hàng đầu ở London và Thung lũng Silicon.

Tôi là một lập trình viên IOS. Code chính là IOS nhưng thỉnnh thoảng vẫn đá sang Android hoặc web. Mặc dù không quá thông thạo nhưng tôi sẽ chia sẻ những kiến thức mà mình đã tìm hiểu, áp dụng qua.

Bài viết liên quan

Chuyển sang tùy chỉnh mô hình AI là một mệnh lệnh kiến ​​​​trúc

Khi việc mở rộng quy mô LLM đạt được lợi nhuận giảm dần, ranh giới lợi thế tiếp theo là việc thể chế hóa logic độc quyền.

Xem thêm

Quản trị an toàn thúc đẩy tăng trưởng doanh thu AI tài chính

AI News là một phần của loạt ấn phẩm TechForge Các tổ chức tài chính đang học cách triển khai các giải pháp AI tuân thủ để tăng trưởng doanh thu và lợi thế thị trường lớn hơn.

Xem thêm

Chiến thuật chiến tranh văn hóa của Lầu Năm Góc chống lại Anthropic đã phản tác dụng

Các quyết định tweet trước và luật sư sau không phù hợp với thẩm phán liên bang, người vào tuần trước đã tạm dừng hình phạt của chính phủ đối với công ty AI.

Xem thêm
0 0 đánh giá
Article Rating
Theo dõi
Thông báo của
guest
0 Comments
Cũ nhất
Mới nhất Được bỏ phiếu nhiều nhất
Phản hồi nội tuyến
Xem tất cả bình luận