Calibration and sharpness

ブログ

較正と鮮明さ:予測の質の2つの独立した側面

良い予測とは何でしょうか?

予測は友人のようなものです。信頼が最も重要な要素です (友人に嘘をつかれたくはありません)。しかし、信頼できる友人の中でも、最も興味深い話をしてくれる友人に会いたいものです。

 

この比喩で何を意味しているのでしょうか?私たちが求めているのは、「良い」「正確」「精密」な予測です。しかし、それはどういう意味でしょうか?予測から何を得たいのかをより明確に表現し、視覚化するために、思考を研ぎ澄ましましょう。予測の品質を測定する方法は 2 つあり、予測のパフォーマンスを十分に理解するには、調整鮮明さの両方を考慮する必要があります。

予測の調整

簡単にするために、バイナリ分類から始めましょう。予測される結果は、「真または偽」、「0 または 1」などの 2 つの値のみを取ることができます。

より具体的には、電子メールがメールボックス ユーザーによってスパムとしてタグ付けされるかどうかについて考えてみましょう。予測システムは、各電子メールについて、その電子メールがユーザーによってスパムであると判断される確率(これを真実と見なします)をパーセンテージで算出します。一定のしきい値(たとえば 95%)を超えると、電子メールはスパム フォルダーに送られます。

このシステムを評価するには、まず予測の調整を確認します。80% のスパム確率が割り当てられた電子メールの場合、実際のスパムの割合は約 80% になるはずです (または少なくとも統計的に有意な差はありません)。スパム確率が 5% と割り当てられた電子メールの場合、実際のスパムの割合は約 5% になるはずです。そうなれば、予測を信頼することができます。つまり、5% の確率と言われているものは、実際に 5% の確率です。

調整された予測により、戦略的な決定を下すことができます。たとえば、スパム フォルダーのしきい値を適切に設定し、誤検知/誤検出の数を事前に見積もることができます (一部のスパムが受信トレイに届き、一部の重要なメールがスパム フォルダーに入ってしまうことは避けられません)。

予測の鮮明さ

品質を予測するには調整だけが必要なのでしょうか?そうでもないよ!すべての電子メールに全体的なスパム確率(85%)を割り当てる予測を想像してください。すべての電子メールの 85% がスパムまたは悪意のあるものであることから、この予測は正確に算出されています。この予測は信頼できます。嘘をついているわけではありませんが、まったく役に立ちません。「このメールがスパムである確率は 85% です」という些細な繰り返しの言葉に基づいて、有益な判断を下すことはできません。

役に立つ予測とは、さまざまな電子メールに非常に異なる確率を割り当て、上司からの電子メールがスパムである確率を 0.1%、疑わしい医薬品広告の確率を 99.9% に設定し調整されたままにする予測です。この有用性の特性は、予測が与えられた場合に予測される結果の分布の幅を指すため、統計学者によって「シャープネス」と呼ばれています。幅が狭いほど、シャープになります。

常に 85% のスパム確率を生成する非個別化予測は、最大限に不鮮明です。最大シャープネスとは、スパム フィルターがすべての電子メールに 0%または100% のスパム確率のみを割り当てることを意味します。この最大限の鮮明さ、つまり決定論は望ましいものですが、非現実的です。このような予測は(おそらく)調整されず、スパム確率 0% とマークされたメールの中にはスパムであるものもあれば、スパム確率 100% とマークされたメールの中にあなたの大切な人からのメールであるものもあるでしょう。

では、最も良い予測は何でしょうか?私たちは信頼を手放したくないので、予測は調整されたままにしておく必要がありますが、調整された予測の中でも最も正確な予測を求めています。これは、2007 年に Gneiting、Balabdaoui、Raftery によって策定された確率予測のパラダイムです (J.R. 国家主義者。社会B 69、パート2、pp.243~268):シャープネスを最大化しますが、キャリブレーションを危険にさらさないでください。それが真実である限り、可能な限り最も強い声明を出してください。私たちの友達と同じように、私に最も興味深い話をしてください。ただし、私に嘘をつかないでください。スパム フィルターの場合、最も正確な予測では、明らかにスパムではないメールには 1%、明らかにスパムであるメールには 99%、判断が難しいケース (あまり多くないはず) には中間の値などが割り当てられます。

サプライチェーンの再調整

サプライ チェーン コンパス ニュースレターでは、毎月、世界的なトレンドと業界の洞察をお届けします。 

キャリブレーションとシャープネスの抽象画

次の図で、スパム分類器のキャリブレーションと鮮明さを視覚化してみましょう。スパム分類子は同じ色の円の集合で表され、各円のサイズはそれぞれの予測されたスパム確率でタグ付けされた電子メールの数を反映します。x 軸は予測されるスパムの確率、y 軸は発生するスパムの頻度です。軸のスケールは、ゼロに近い(「ほぼ確実にない」)か 1 に近い(「ほぼ確実に」)確率を詳細に示すような方法で選択されます。

同じ値を想定する個々のスパム確率予測の集合である円は、予測される確率と測定された頻度が一致する斜めの黒い線である較正線上にあるときに較正されます。円が較正線から離れるほど、予測と実際の差が大きくなり、予測の較正が不正確になります。円が較正ラインより上にある場合、関連する予測は真の確率を過小予測しており、較正ラインより下にある場合、予測は過大予測しています。右下と左上には、まれな出来事に非常に大きな確率を割り当てる、悲惨なほど悪い予測、またはその逆の予測が見つかります。

次に緑色の円を見てみましょう。6 つの円すべてにおいて、予測される確率と実際の頻度がうまく一致しており、これは完全に調整された、かなり正確な予測を反映しています。単一の青い円は調整されています (対角線に当たっています) が、電子メールのスパム確率を尋ねられるたびに「85%」しか出ない、役に立たない不正確な予測を反映しています。それは防御的な予測です。間違ってはいませんが、役に立ちません。オレンジ色の円は、スパム フィルターが過度に自信過剰であることを示しています。スパム予測として 0.2% または 99.8% が生成されますが、これは強い主張であり、真実であれば役に立ちます。しかし、「ほぼ確実にスパムではない」メールのうち、約 5% がスパムであり、予測された 0.2% を大幅に上回っています。「ほぼ確実にスパム」メール(予測確率 99.8%)のうち、実際にスパムであるのは約 95% のみです。オレンジ色の予測は緑色の予測よりも正確ですが、調整が失われています。予測を信頼できないため、表面上の確実性が追加されても役に立ちません。

赤い円は、不明確で調整されていない予測を反映しています。このスパム フィルターは常に各メールに「25%」の確率を割り当てますが、これは誤り (全体の確率は約 80%) であり、具体的ではありません。

「キャリブレーションによる最大の鮮明度」というパラダイムは、円をキャリブレーション ラインに接着したまま、左下と右上の「ほぼ確実な」領域にできるだけ押し込むことを意味します。私たちは「1% がスパム」や「99% がスパム」といった、力強く実行可能な発言を目指していますが、これらの発言は真実に基づいたものでなければなりません。

calibration-and-sharpness-body-01

需要予測の調整と明確化

Blue Yonder では、スパムフィルタリングを生業としているわけではありませんが、たとえば顧客の需要の予測は行っています。私たちの目標はバイナリ(スパム/非スパム)ではなく、数字です。上記の議論の多くは再利用できます。調整されているが役に立たない予測では、将来のすべての製品-場所-日に全体的な平均需要(製品、場所、日を平均したもの)が割り当てられます。「その製品は明日平均で 1.6 倍売れます」とすべての製品、日、場所で繰り返されるのは、典型的なスーパーマーケットにとっては真実で調整された声明ですが、補充やその他のビジネス上の決定にとって意味のある根拠にはなりません。一方、最大限に正確であるかのように装った予測(「明日、店舗 123 では、きゅうりをちょうど 17 本販売します」)は非現実的であり、廃棄や在庫切れに関する有意義な戦略的決定を妨げることになります。

小売業の予測はどこまで正確になるのでしょうか?小売業では、多数の潜在的顧客(1 日あたり 100 人以上)を相手にしていますが、それぞれの顧客が特定の商品を購入する確率は低く、スーパーマーケットに入ると、提供される商品のほんの一部しか購入しません。さらに、すべての製品が完全な在庫状況(在庫切れが一切ない)を誇り、各顧客が特定の製品を最大で 1 つ購入すると仮定すると、理論上最大限可能な鮮明度がわかります。これはポアソン分布であり、その特性については以前のブログ「少数の予測は異なる」で説明しました。つまり、予測平均値の周りの売上分布はポアソン分布に従います。平均予測が「5」の場合、実際の需要が、たとえば 3 (確率 14%)、4 (確率 18%)、5 (確率 18%)、6 (確率 15%)、7 (確率 10%) などになる可能性が有限です。これらの予測確率は、スパム フィルターの場合と同様に、実際に検証できます。「13 本のきゅうり」というイベントに 12% の確率を割り当てると、平均して、このようなケースの 12% で 13 本のきゅうりが販売されると予想されます。調整を確立したら、在庫切れと廃棄のコストのバランスをとるなどの戦略的な決定を予測に基づいて行うことができます。

実際には、ポアソン分布の背後にある強力な仮定は満たされないことがよくあります。人々は特定の製品をより多く購入し、製品は在庫切れになり、需要に影響を与えるすべての要因がわかっているわけではないため、平均購入確率を知っているふりをすることは困難です。それでも、ポアソン分布は、時には到達不可能ではあるものの、近似的な理想的なケースであり、優れた方向性を示します。当社の予測ソリューションでは、実際に達成されたパフォーマンスをさまざまな理論上の限界と比較して、特定の状況下で実現可能な範囲にどれだけ近いかを推定します。これにより、改善が容易な点、すでに優れた予測、さらに調査が必要な異常を特定できるようになります。

優れた予測は優れた友人に似ている

したがって、「較正の対象となる予測分布の鮮明さを最大化する」というパラダイム (Gneiting、Balabdaoui、Raftery) は、あらゆる分野で予測パフォーマンスを具体的にするために非常に役立ちます。最終的には、あらゆる予測状況において、「これは可能な限り正確な調整された予測です」と自信を持って言えるようにしたいと考えています。

その予測は、素晴らしい話をし、役立つアドバイスを与えてくれるが、決してあなたに嘘をつかない、あなたの最も面白い友人のようなものです。