¿Cuál es el mejor método para detectar valores atípicos en los datos de ventas anuales?

No hay detectores automáticos de valores atípicos realmente buenos y un valor atípico es simplemente un punto “sorprendente”. Surgen muchos problemas, como un punto que se convierte en un valor atípico una vez que se elimina otro punto, o deja de ser un valor atípico solo porque otro punto también es uno.

La única razón real para eliminar los valores atípicos es que están equivocados (por ejemplo, un humano que informa una altura de 6 metros).

Puede observar la influencia de cada punto, esencialmente, eliminándolo y volviendo a calcular todo y luego comparando los resultados (el método formal agrega algo a esto, pero esta es la idea).

Pero la mejor manera de detectar valores atípicos es usar los ojos. Trace las series de tiempo y busque “blips” y la mejor manera de lidiar con ellos es usar un método que los descarte pero no los elimine.

Bueno … La detección de valores atípicos a menudo se usa para detectar errores de medición (o algún tipo de error en general). En el caso de los datos de ventas, puede ser beneficioso suponer que cada punto de datos es significativo. Un ejemplo fue que un tipo compró una tonelada de producto que generó un montón de ventas. Si bien esta no es la norma que supongo, es importante porque no lo estás midiendo mal y puede ser beneficioso suponer que hay una buena posibilidad de que al menos alguien vaya a comprar un montón de productos.

Sin embargo, si desea utilizar alguna detección de valores atípicos

Voy a suponer que sus datos de ventas son ingresos medidos en dólares (o algún tipo de moneda), y también voy a suponer que sus datos de ventas son univariantes (lo que significa que solo está tratando de encontrar valores atípicos en sus datos de ventas No usar múltiples variables como ubicación, hora, etc.)

Probaría la prueba de Grubbs para valores atípicos – Wikipedia

Esto supone que los datos son univariados (solo ventas) y que normalmente se distribuyen (lo que significa que hay una venta promedio y que la probabilidad de generar una venta de una cantidad particular disminuye de manera uniforme a medida que la venta sube y baja).

En Estadística, existe una gran controversia sobre “lo que es mejor” porque cada método y fórmula le dará algo ligeramente diferente. Todo depende de tus datos.