なぜ売上ゼロには(少なくとも)2つの種類があるのでしょうか

ブログ

なぜ売上ゼロには(少なくとも)2つの種類があるのでしょうか

小売予測では、需要モデルのトレーニングと適用時に、売上ゼロのイベントに特別な注意を払う必要があります。売上ゼロイベントが、特定の日に本当に需要が消失したことを示すものなのか(「誰もその商品を棚から取らなかった」など)、それとも予測された商品が単に入手できなかっただけなのか(「商品は棚に置かれなかった」など)を事後的に調べることは困難です。幸いなことに、ゼロを観測する予測確率とゼロ販売イベントの観測頻度を比較することで、データと予測モデルの一貫性を確認できます。これらがうまく一致しない場合、つまり、予測よりもはるかに頻繁にゼロ売上が観測されたり、はるかに少ない頻度でゼロ売上が観測されたりする場合は、重大だが明確に定義されたデータの問題があると診断されます。

ゼロは存在するのでしょうか?存在するとしたら、何通りの方法があるのでしょうか?

「ゼロ」という数字は驚くほど長い間、人間の抽象化能力を逃れてきました。古代の文化によって「何も存在しない」という概念の扱い方は異なり、科学史家の間では、ゼロという記号がいつどのようにして発明され、数学の主流となったのかについていまだに議論が続いている。たとえば、ローマ数字にはゼロを表す記号すらありません。これはおそらく、ローマ人が数字を算術ではなく会計に使用していたためだと考えられます。アリストテレスはゼロが数字であるという考え自体を否定しました。ゼロで割ることができないのなら、ゼロは何の役に立つのでしょうか?西暦 7 世紀、インドの数学者で天文学者のブラフマグプタは、書かれたゼロの使用と分析を開始し、それが中国語やアラビア語に伝わり、アラビア語を通じてヨーロッパ文化にも伝わりました。

もちろん、あなたはゼロについて知っており、それを快適に使用しています。それでは、数世紀にわたる数学的な議論を早送りして、人工知能 (AI) と機械学習 (ML) アプリケーションを使用した小売需要の予測について考えてみましょう。ここで私は、ゼロが 1 種類だけでは不十分であると主張します。小売業における売上を適切に説明するには、少なくとも 2 つの異なるゼロの概念が必要です。1 つはトレーニング データセットに保持する必要があり、もう 1 つは削除する必要があります。

一方では、製品は入手可能であり、一般に提供される可能性があります。店舗は開店しており、レジやその他のすべてが機能していますが、それを購入したい顧客がいないのです。その場合、売上ゼロの出来事は、実際の需要の欠如と、その製品に対する消費者の関心の欠如を反映しています。理想的には、需要予測モデルは、ゼロを観測する確率が微視的ではないが有限であると予測したという意味で、そのゼロに「驚かされる」ことはありません。

真の需要不足は需要ゼロにつながりますが、これを可用性ゼロと区別したいと思います。後者のタイプのゼロは、単に製品が入手できないことによって発生します。顧客には製品が提供さえされず、たとえ購入を希望したとしても購入する機会がありません (私たちにはわかりません)。私は昨日 iPhone を 99 ドルで販売しませんでしたが、これは些細なことです。なぜなら私は誰にも iPhone を提供しなかったからです。もし私がそれを提供していたら、適度な価格予想がかなりの需要を誘発し、おそらく買い手が見つかったでしょう。私がオンラインで提供した中古ベビーカーも売れませんでした。これはより有益な情報で、需要ゼロです。需要ゼロは、その品目が特に人気がない(控えめに言っても)ことを反映していますが、入手不能ゼロは品目の実際の需要とは何の関係もありません。

入手不可の原因は多岐にわたりますが、最も重要なのは、在庫が枯渇し、販売できるものが何も残っていないことです。したがって、当社のデータ内の適切に整理された列に朝の株価が表示されるのは素晴らしいことです。次に、このブログ投稿で説明されている方法に戻ります。しかし、多くの場合、私たちが遭遇するデータはそのようなデータ品質の天国ではありません。株式情報は入手できないか、少なくとも完全に信頼できるものではありません。しかし、信頼できる在庫値が統合されていたとしても、製品が実際に棚で提供されているかどうかを完全に確認することはできません。製品はバックルームに保管されている可能性があり、店長が、その製品を提供するには時期が早すぎるか遅すぎると判断した可能性もあります。

入手不可は真の需要を隠します: 商品の需要を知るには、商品を提供する必要があります。緑のレインコートにピンクのスプリンクルが付いたものが、棚に置いて値札を付けて顧客に提供してみなければ、どれほどの需要を喚起するか全く分かりません。製品が提供されていない場合、需要について推測することしかできず、測定することはできません。

要約すると、私のゼロの概念は次の 2 つです。行儀の良い需要ゼロは、棚にある製品があまり人気がないという (おそらく誤解を招く) 情報を正直に伝えます (ところで、中古のベビーカーを必要としている人はいますか?)。そして、 availability-zeroは、実際の需要に関する可能性のあるすべての情報を隠します。つまり、需要は 0、1、14、または 2,766 である可能性があります。明らかに、需要ゼロをモデルトレーニングに含める必要がありますが、可用性ゼロを需要不足と誤解すると大きな損害を被ることになります。

サプライチェーンの明確な道筋を描く

サプライ チェーン コンパス ニュースレターでは、毎月、世界的なトレンドと業界の洞察をお届けします。 

需要ゼロでの販売は、一体どのくらいあり得るのでしょうか?

小売業では、ポアソン分布を扱うことがよくあります (詳細については、 「少数の違いを予測するパート 1」および「パート 2」のブログ投稿をご覧ください)。ポアソン過程の場合、平均率が増加すると 0 を観測する確率は指数的に減少します。つまり、平均率が 1 のポアソン予測 (つまり、平均して 1 個が売れると予測) の場合、約 37% のケースでゼロが観測されると予想されます。したがって、これはかなり可能性が高く、まったく驚くことではありません。割合が 4 の場合、その確率は 2% になります。これは、約 7 週間ごとに発生すると予想されます。予測率が 10 の場合、その確率は 0.005% に低下し、予測率が 20 の場合、非常にまれなイベントについて話していることになりますが、そのようなイベントが起こった場合は非常に驚くことになります。確かに、ポアソン予測は理想化です。現実的な需要予測は、ポアソン分布で予測されたよりも、平均から離れた売上高が実際には発生する可能性が高いという意味で「より広範囲」になります。つまり、上記の数字が示すよりも多くのゼロ売上が予想されます。

1 日に 20 回以上購入される売れ筋商品のみを考慮すると、表示されるゼロは在庫状況ゼロとして安全に解釈できます。時間の経過とともに販売されたユニットの次のパターンを見てみましょう。

why-zero-sales-come-in-at-least-two-kinds-body-01

 

1 月中旬の 3 日間連続で売上がまったくない週では、明らかに何か例外的なことが起こっている。実際の需要が3日間でこれほど急落し、その後、当初のレベルまで急回復するということは考えにくい。明らかに、可用性ゼロがあり、これはトレーニングから削除する必要があります。

ただし、全体的な販売率がそれほど高くない場合は、特定のゼロが需要ゼロなのか、在庫ゼロなのかを判断するのは簡単ではありません。

why-zero-sales-come-in-at-least-two-kinds-body-02

ここでは、売上ゼロのイベントが需要ゼロを反映しているのか、在庫ゼロを反映しているのかを判断するのがはるかに困難です。トレーニングではどのゼロを保持し、どのゼロを削除する必要がありますか?この質問は、偏りのないトレーニングにとって極めて重要です。ゼロを含めるか含めないかで平均売上高は大幅に異なります。

売上の低い例は、特定の日に売上が見込めるかどうかを事前に知らせる割り当てまたはリスト情報を含める必要があることを示しています。製品が入手できなかった場合、予想外の、情報価値のないゼロ売上イベントは、在庫ゼロとなります。製品が入手可能だった場合、販売ゼロのイベントは需要ゼロであり、需要が低いことを反映します。

予測ゼロカウント確率による一貫性の評価

リストや空き状況の情報を含む統合データがあると仮定しましょう。観測された需要 (需要ゼロは含むが、可用性ゼロは除く) に基づいてモデルをトレーニングし、予測を生成しました。ゼロのタイプに関する情報が正しいかどうかをどのように確認すればよいでしょうか?動きの遅い製品の特定の販売イベント(2 番目の時系列プロットのように動作)の場合、ゼロが可用性ゼロなのか需要ゼロなのかを事後的に述べることは不可能です。しかし、多数の予測とそれに対応する観察のセットに基づいて判断を下すことはできます。つまり、需要ゼロと思われるものの観測頻度と予測頻度を比較することができます。この目的のために、予測値(指数関数的に減少する曲線)に対して、ゼロの期待率をプロットします。

why-zero-sales-come-in-at-least-two-kinds-body-03

0.01 から 100 までの 4 桁にわたる対数 x 軸に注意してください。

ここで、すべての予測と結果を予測によって特徴付けられるバケットにグループ化してみましょう。たとえば、すべての予測は 0.8 から 1.2 の間、すべての予測は 1.2 から 1.5 の間、などとなります。なぜ結果ではなく予測でグループ化するのか疑問に思っていませんか?答えは、「You should not have always knows better」というブログ投稿の中に隠されています。これらのバケットごとに、観測されたゼロの割合を円としてプロットし、円のサイズは観測数を反映します。ここでは、データ品質が異なる 3 つの異なる予測と結果のセットに対してこれを行いました。

why-zero-sales-come-in-at-least-two-kinds-body-04

まずは赤い円を見てください。予測のすべてのバケットについて、データ内で観測されたゼロの数は、需要ゼロの予測割合と非常によく一致しています。この場合、データはクリーンです (少なくともゼロに関しては)。可用性ゼロは適切に削除されており、平均的には、データ内のゼロが実際に需要ゼロであると信頼できます。現れたゼロが本当に需要ゼロであるかどうかは決して分からないが、その仮定に疑問を呈する証拠はない。

次に、緑のデータセットを見てみましょう。観測されたゼロの割合は常に大きすぎます。これは、データ内の体系的な問題を示しています。モデルが 30 を予測する場合、ゼロは存在しないと予想されますが、データ内では 30% のゼロが観測されます。たとえ 30 という予測が大きく外れて偏っていたとしても、これほど多くのゼロが出ることは決して予想されないでしょう。そのため、かなりの数の可用性ゼロが誤って本物の需要ゼロとして扱われてきました。円が収束する「プラトー」は、データに影響を与える可用性ゼロのレベルが一定であることを示します。提供された製品のみが販売データに含まれていることを確認するために、データをチェックし、リスト情報を含める必要があります。製品の個々の時系列では、上の図のようなアーティファクトが表示されることが予想されます。

オレンジ色のデータセットは、反対の種類のエラーの例です。0.1 などの非常に小さい予測値の場合、データには多くのゼロが含まれることが予想されますが、実際に観測されるゼロの数ははるかに少なくなります。どうやら、一部の需要ゼロが誤って可用性ゼロと解釈され、データセットから削除されたようです。繰り返しになりますが、個々の製品を詳しく調べることで、この動作の正確な原因を特定するのに役立ちます。

つまり、赤色のデータのような図はデータの信頼性を高めるのに役立ち、緑色やオレンジ色の図形は需要ゼロや可用性ゼロの誤った処理をすぐに特定するのに役立ちます。私たちの経験では、ゼロの問題が解決されると、バイアスなどの他の多くの KPI も許容可能な値の範囲に入ります。

期待を定量化して明確にし、観察結果と比較する

ここではロケット科学は何もやっていません。期待を裏切ったのであれば申し訳ありません。私たちはモデルに 1 つの簡単な質問 (「その予測でゼロの結果が出る頻度は平均してどのくらい予想されますか?」) を問いかけ、経験的観察と理論的な答えを比較しました。多くの場合、モデルの偏りは、ゼロ売上イベントの不適切な処理によって発生します。ここで示すようなプロットを使用してゼロの状態を確認することは、需要予測プロジェクトにおけるデータの問題を診断する際の標準的な手順である必要があります。

実際、数字のゼロは ML アプリケーションでは依然として誤って扱われることがよくあります。したがって、証拠の欠如 (可用性ゼロ) は、不在の証拠 (需要ゼロ) として解釈されるべきではありません。この区別を明確にすることで、モデルのトレーニングにどのデータポイントを含めるか、どのデータポイントを削除するかを適切な根拠に基づいて決定できるようになります。