2025-08-17 01:12:16

AIベンチマークは、思った通りに機能しません。

リコールは、人々がモデルを評価する際に本当に重要なことを決定できるようにします。それは、人間の安全のための整合性を確保するような重要なことかもしれませんし、テキスト内のエムダッシュを避けるような小さなことかもしれません。

リコールを使用すると、テストを設計できます。

DON-4.32%

WORK-3.51%

IN-5.22%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

16 いいね

0/400

MoonlightGamer

· 08-18 09:24

データは非常に重要です。

原文表示返信0

LayerHopper

· 08-18 07:41

ベンチマークはまだ機転を利かせているね

原文表示返信0

SybilAttackVictim

· 08-17 01:40

このものは結局同じことだと感じます~

原文表示返信0

TokenBeginner'sGuide

· 08-17 01:14

ご案内：MITの最新研究に基づくと、95%のAI評価データセットには明らかな人的介入の危険性が存在します。

原文表示返信0