AIの採点で、2点差が気になる瞬間
AIに文章を採点してもらうと、80点と82点の差が本当に2点分なのか気になることないですか?
レポート、企画書、面接回答、ブログ草稿。 AIに「100点満点で評価して」と頼むと、それっぽい点数が返ってきます。 70点台なら直したくなるし、90点台なら少し安心する。 でも、80点と82点を見比べた瞬間に、ふと引っかかります。
この2点差って、どれくらい本物なんでしょう。
点数は便利だけど、物差しとは限らない
点数が出ると、つい定規の目盛りのように読みたくなります。 80点から82点へ上がったなら、質が2だけ増えた。 78点から80点へ上がったときと、同じだけ改善した。 そう扱えると便利なわけですが、AIの採点ではここで一つ不思議が出ます。
同じ文章を少し言い換えただけで点数が揺れる。 採点理由は似ているのに、数字だけが数点動く。 逆に、点数は同じなのにコメントの重みが違って見えることもあります。
つまり、AIの点数は「文章の質」をそのまま測った数値というより、AIがその文章をどう読んだかを圧縮した記号として扱ったほうが自然かもしれません。
尺度として読めるか試してみる
ここで、統計でいう尺度という見方で解釈できるか試してみます。 尺度は、数字にどこまで意味を持たせてよいかを分ける考え方です。
たとえば順位なら、「AのほうがBより上」は言えます。 でも「AとBの差は、CとDの差と同じ」とまでは言えません。 順序だけがわかるこういう数字を、統計では順序尺度と呼びます。
一方、摂氏温度では、20℃と22℃の差、30℃と32℃の差を同じ2℃として扱えます。 差にも意味があるこういう数字は間隔尺度と呼ばれます。
AIの採点も、この区別で見ると景色が変わります。 80点と82点を見たとき、本当に使える情報は「82点のほうが少し良さそう」なのか。 それとも「2点分だけ質が増えた」なのか。 この二つは同じではありません。
AIの点数は間隔尺度のような顔で出てきますが、確かめないうちは順序尺度に近いものとして読むほうが安全です。 点数の細かい差をそのまま信じるより、順位、境界、再評価したときの揺れを一緒に見るほうが、実用上の判断に向いています。
境目を見る道具に変わる
この見方をすると、AI採点の使い方が少し変わります。
80点と82点を精密に比較するより、「この文章は採用ラインを超えていそうか」「修正候補の中でどれが安定して上に来るか」を見る。 点数そのものを成果物にするのではなく、判断の境目を探すための道具にする。
これは仕事でもよくあります。 メール文面をAIに評価させるとき、86点の文面が84点の文面より絶対に良いとは限りません。 でも、複数回見ても上位に残る文面なら、「この方向は大きく外していない」と読めます。 面接回答の練習でも、1点刻みの差に反応するより、合格ライン付近で何が足りないかを見るほうが役に立ちます。
具体的にやるなら、採点を一度で終わらせず、評価の基準はそろえたまま、言い回しを変えたプロンプトで3回ほど採点してみます。 このとき記録するのは毎回の点数そのものではなく、「候補の中で何番目だったか」という順位です。 3回分の順位を平均し、いつも上位に来る候補を選びます。 点数を平均すると揺れまで均してしまいますが、順位の平均なら「どれが安定して上に来るか」だけを取り出せます。 1位、3位、2位のように順位が動く候補は、2点差だけで決めないほうが安全です。
数字を捨てるのではありません。 数字に、持たせてよい意味だけを持たせます。
点数を式にしてみる
AIが返す点数を、文章の本当の質そのものではなく、質を何らかの関数で点数に写したものとして書いてみます。
ここで、$q$ は文章の質です。 「読みやすさ」「論理の通りやすさ」「具体例のよさ」などをまとめた、直接は見えない量だと考えます。
$y$ はAIが返す点数です。 80点や82点として画面に出てくる数字です。
$f$ は、質を点数に変換するルールです。 AIが何を重く見るか、どの表現を高く評価するか、どの欠点を減点するかがここに入ります。
$\varepsilon$ は揺れです。 同じ文章でもプロンプトや採点タイミングで少し変わる部分、と読めます。
この式で見てみると、80点と82点の差をそのまま「質の差2」と読むには条件が要ります。 点数の差が質の差と同じ意味を持つには、$f$ がほぼまっすぐな変換で、揺れ $\varepsilon$ も十分小さい必要があります。
でも、実際のAI採点では $f$ が曲がっている可能性があります。 これは実測した事実ではなく、ありうる曲がり方の一例です。 たとえば点数の上限が100点に固定されていると、高得点帯では回答どうしの差がつきにくくなります。 その結果、70点台では細かく点差がつくのに、80点台に入ると似た回答がまとめて高く評価される、ということが起こりえます。 あるいは、形式の整った文章を強く押し上げ、独自性の差はあまり点に出さないかもしれません。
その場合、点数の順序は参考になります。 ただし、点差の大きさまではそのまま信じにくい。 だから、採点結果は次のように使うほうが安定します。
$\tau$ は判断ラインです。 たとえば「80点以上なら候補に残す」という境目です。 この式では、1点差や2点差を細かく読まず、境目を超えているかを見ます。 点数を精密な物差しとしてではなく、判断を分ける線として使っているわけです。

点数を信じるより、読み方を決める
AIの採点が役に立たない、という話ではありません。 むしろ逆です。 点数を絶対的な物差しだと思うから、80点と82点の差に振り回されます。
尺度として見ると、点数はもっと扱いやすくなります。 細かい差は揺れるかもしれない。 でも、順位は参考になるかもしれない。 境界を超えたかどうかは、意思決定に使えるかもしれない。 複数回の採点で安定して上に来るなら、その方向は強い候補かもしれない。
AIに採点させるとき、本当に欲しいのは「2点分の真実」ではなく、次に直す場所や、残す候補を決める手がかりです。
だとすると、AIの点数は信じるか疑うかの対象ではなくなります。 どの尺度として読むかをこちらが決めるだけで、80点と82点の差に振り回されず、判断の境目だけをうまく取り出せるかもしれませんね?
