¿Cuál es el mejor método para detectar valores atípicos en los datos de ventas anuales?

No hay detectores automáticos de valores atípicos realmente buenos y un valor atípico es simplemente un punto “sorprendente”. Surgen muchos problemas, como un punto que se convierte en un valor atípico una vez que se elimina otro punto, o deja de ser un valor atípico solo porque otro punto también es uno.

La única razón real para eliminar los valores atípicos es que están equivocados (por ejemplo, un humano que informa una altura de 6 metros).

Puede observar la influencia de cada punto, esencialmente, eliminándolo y volviendo a calcular todo y luego comparando los resultados (el método formal agrega algo a esto, pero esta es la idea).

Pero la mejor manera de detectar valores atípicos es usar los ojos. Trace las series de tiempo y busque “blips” y la mejor manera de lidiar con ellos es usar un método que los descarte pero no los elimine.

¿Cuál es su consejo para un par de desarrolladores que van a comenzar una pequeña empresa de análisis de datos?

¿Cuáles son algunas buenas conferencias en video sobre aprendizaje automático y aprendizaje profundo?

¿Cuáles son las carreras alternativas para una persona que es buena en análisis / algoritmos / estadísticas pero que no es buena en programación como se requiere para un científico de datos?

¿Cómo funciona la tecnología detrás de las tarjetas magnéticas en términos de datos? ¿Cómo se manejan los datos del usuario y los datos de RFID / Bar de la compra desde el deslizamiento del terminal a los sistemas de back-end?

Cómo evaluar el rendimiento de un sistema que agrupa vectores de palabras

¿Cuál es el mejor instituto en Hyderabad para aprender Hadoop y big data?

Bueno … La detección de valores atípicos a menudo se usa para detectar errores de medición (o algún tipo de error en general). En el caso de los datos de ventas, puede ser beneficioso suponer que cada punto de datos es significativo. Un ejemplo fue que un tipo compró una tonelada de producto que generó un montón de ventas. Si bien esta no es la norma que supongo, es importante porque no lo estás midiendo mal y puede ser beneficioso suponer que hay una buena posibilidad de que al menos alguien vaya a comprar un montón de productos.

Sin embargo, si desea utilizar alguna detección de valores atípicos

Voy a suponer que sus datos de ventas son ingresos medidos en dólares (o algún tipo de moneda), y también voy a suponer que sus datos de ventas son univariantes (lo que significa que solo está tratando de encontrar valores atípicos en sus datos de ventas No usar múltiples variables como ubicación, hora, etc.)

Probaría la prueba de Grubbs para valores atípicos – Wikipedia

Esto supone que los datos son univariados (solo ventas) y que normalmente se distribuyen (lo que significa que hay una venta promedio y que la probabilidad de generar una venta de una cantidad particular disminuye de manera uniforme a medida que la venta sube y baja).

En Estadística, existe una gran controversia sobre “lo que es mejor” porque cada método y fórmula le dará algo ligeramente diferente. Todo depende de tus datos.

Ryder McMinn

More Interesting

¿Cuál es la diferencia entre un científico de datos y un analista de big data?

¿Cómo utilizarán las empresas big data en 2025?

Cómo sentirse acerca de los datos

¿Hay algún gran foro o sitio web en aprendizaje automático o ciencia de datos?

¿Cómo debo aprender ciencia de datos y aprendizaje automático?

¿Cuál es la mejor manera de saber qué algoritmo de aprendizaje automático tiene una mayor probabilidad de clasificar con precisión o con mayor precisión un conjunto de datos, antes de aplicarlo?

Cuando observamos el muestreo, ¿por qué necesitamos 30 datos?

Tengo mi doctorado y trabajo en un observatorio. ¿Debo dejar atrás mi carrera como científico académico? ¿Debo dar el salto a la industria como científico de datos, o la ciencia de datos es solo una moda?

¿Cuál es la pregunta clave con respecto al gráfico social que solo el análisis de datos puede responder?

¿Qué calificaciones se requieren para un profesional de la ciencia de datos?