平均絶対パーセント誤差（MAPE）は役割を終え、現在は廃止されるべきである。

ブログ

平均絶対パーセント誤差（MAPE）は役割を終え、現在は廃止されるべきである。

平均絶対パーセント誤差（MAPE）は役割を終え、現在は廃止されるべきである。

Malte Tichy, 2022年8月4日4 分で読めます

Gartner (2018 Gartner Sales & Operations Planning Success Survey) によると、Sales and Operations Planning における予測の評価指標として最もよく使用されるのは、平均絶対パーセント誤差 (MAPE) です。これは変えなければなりません。現代の予測は、製品、場所、日などの細分化されたレベルの少量に関係します。このようなきめ細かい予測の場合、MAPE 値を判断することは非常に困難であり、有用な予測品質指標としては不適格となります。MAPE はまた、一部の問題を誇張し、他の問題を偽装することで、体系的な偏りのある予測を選択するようにユーザーを深く誤解させます。MAPE が適している状況はますます稀になってきています。これは単なる理論ではありません。補充に入力される MAPE 最適化予測値に依存するスーパーマーケットをシミュレートします。売れ筋商品と売れ行きの悪い商品の在庫不足や過剰在庫により、すぐに店は廃業に追い込まれます。

絶対的な誤りと相対的な誤りが矛盾する場合、私たちは誰を信頼すべきでしょうか?

リンゴの需要を 7.2 個と予測し、最終的に 9 個が販売されました。水のボトルは 91.8 本販売されると予測しましたが、実際には 108 本が販売されました。ツナ缶は 1.9 個と予測しましたが、1 個売れました。こうした予測の誤差をどのように判断しますか?最も簡単な方法は、予測値と実際値の絶対偏差を計算し、その実際値で割ることです。つまり、相対絶対誤差をパーセンテージ値 (絶対パーセンテージ誤差、APE) として表すことができます。これは実際よりもはるかに複雑に聞こえます。「予測品質評価」の最初の試みとして APE を思いつくのは、非常に典型的です。3つの例では、一見中程度の20％（=|7.2-9|/7.2）のAPEが得られます。控えめな15% (=|91.8-108|/108)そして驚くべきことに90%（=|1.9-1|/1）それぞれ。MAPE（平均絶対パーセンテージ誤差）は、これら 3 つのパーセンテージの算術平均であり、41.67% になります。これらの誤差率は、マグロの予測はリンゴの予測よりも悪く、ボトルの予測は他の予測よりも優れていることを示しています。しかし、これは本当に予測の質を反映しているのでしょうか?このセクションの冒頭をもう一度見てください。予測された水のボトルと実際の水のボトルの絶対的な差が大きいのは心配なことであり、相対的な誤差が小さいからといって安心できるわけではありません。一方、マグロの 90% の誤差は、ランダムな（不運な）運によるものである可能性があり、マグロは 1 つのアイテムだけになります。直感を黙って、APE に盲目的に頼るべきでしょうか?したがって、マグロの予測を修正し、水の予測はそのままにしておくべきでしょうか?全体的な MAPE が 30% のみという別の予測が出されたら、その新しい予測は必ずしも優れているのでしょうか?

もちろん、どんな状況でも、私はあなたの人間的な判断を無視するように真剣に求めることはありません!この不快なパラドックスは、以下のように解決されます。MAPE は、いくつかの耐え難く解決不可能な問題のため、粒度レベル (つまり、製品-場所-日。このレベルでは「小さな」数値や「0」が発生することもあります) での最新の確率予測には適していません。予測の MAPE は、その予測がどれほど優れているかを示すものではなく、APE の動作がいかに奇妙であるかを示します。

意識的にスケールを無視する: パーセンテージの誤差が意味を成す場合

小売業におけるきめ細かな予測（商品・場所・日レベル）に入る前に、もっと大きな数量、つまり米ドルで測定された各国の年間国内総生産（GDP）を予測するとしましょう。このような予測は、国全体の政策を定義するために使用される可能性があり、これらの政策はさまざまな規模の国に同様に適用されるはずです。したがって、このユースケースでは各国を均等に重み付けするのが公平です。米国の GDP (約 25 兆米ドル) の 5% の誤差は、ツバルの GDP (約 6,600 万米ドル、米国の GDP の 38 万分の 1) の 5% の誤差と同じくらい大きなダメージとなります。ここで、絶対パーセント誤差 (APE) が意味を持ちます。実際の GDP が 0 に近づくことは決してありません (0 で割ると大変な問題になりますが、これについては後述します)。また、予測の目的は、地球全体の GDP を正確に把握することではなく、数百万から数兆に及ぶ規模で、各国の GDP を可能な限り近づけることです。モデルの全絶対誤差を最小化する（すなわち誤差（パーセンテージではなく米ドル単位）は、最大の経済大国にスポットライトを当て、小国を無視することになります。各国を平等に評価するのではなく、経済力に応じて評価します。米国の GDP に対して 3% の誤差が適切で、ツバルの GDP に対しては許容できない 200% の誤差を持つモデルは、絶対的な米ドル換算で、米国の GDP に対して 4% の誤差、ツバルの GDP に対して 10% の誤差を持つモデルよりも「優れている」ように見えます。一方、MAPEは後者の予測の使用を示唆しており、ツバルの絶対的な精度をわずかに改善するために、米国のGDPの絶対的な精度（25兆米ドルの1％）を大幅に犠牲にしている（6,600万米ドルの190％）。米国の GDP はツバルの GDP よりはるかに大きいが、意識的に、そして正当な理由から、両者を平等に扱うことにするだろう。米国とツバルはどちらも、統計的な変動や「不運」が予測誤差の原因となることは予想できないという意味で「大きい」と見なすことができます。つまり、偏差は通常、統計的に有意であり、モデルの改善の可能性を示唆します。

要約すると、異なる値の予測の単一インスタンスを平等に扱う必要がある場合、つまり、巨大なリンゴと極小のオレンジを比較しても問題がない場合は、MAPE が意味を成します。しかし、平等な扱いは常に公平なのでしょうか?

製品	真の日次販売率、偏りのない日次予測	真の販売率のMAPE	MAPE受賞の毎日の天気予報	MAPE受賞予測のMAPE	MAPE受賞予測の予測バイアス
リンゴ	0.01	99%	1	0.25%	+9,900%
バナナ	0.1	90%	1	2.5%	+900%
カシューナッツ	1	23.3%	1	23.3%	0%
ドラゴンフルーツ	10	31%	9	29%	-10%
ナス	100	8.11%	99	8.05%	-1%

製品	真の日次販売率、偏りのない日次予測	真の販売率のMAPE	MAPE受賞の毎日の天気予報	MAPE受賞予測のMAPE	MAPE受賞予測の予測バイアス
リンゴ	0.01	99%	1	0.3%	+9,900%
バナナ	0.1	90%	1	3%	+900%
カシューナッツ	1	25%	1	25%	0%
ドラゴンフルーツ	10	73%	6	53%	-40%
ナス	100	49%	72	40%	-28%

平均絶対パーセント誤差（MAPE）は役割を終え、現在は廃止されるべきである。