¿Cuáles son algunas falacias o errores comunes cometidos por los principiantes en estadística, aprendizaje automático y análisis de datos?

Hay una serie de problemas muy comunes que afectan probablemente a la mayoría de las investigaciones científicas publicadas. Por ejemplo:

  • Poder estatico. Muchos investigadores nunca estiman el poder de sus estudios y, en consecuencia, usan tamaños de muestra muy pequeños para concluir falsamente que no hay diferencia entre los grupos de estudio. En muchos casos, los ensayos médicos publicados no tienen el poder de detectar una diferencia del 50% en el resultado entre los grupos.
  • Falacia de tasa base. Si está evaluando un evento raro, hay muchas más oportunidades para falsos positivos que falsos negativos. Esto significa que la mayoría de sus resultados positivos serán falsos positivos. Además de las implicaciones obvias en el examen médico, esto también afecta cosas como encuestas que preguntan a los estadounidenses si han usado un arma en defensa propia: debido a que muy pocas personas lo han hecho, la pequeña tasa de falsos positivos puede ser tan grande como la verdadera tasa positiva.
  • Deteniendo las reglas. Es común aumentar el tamaño de la muestra de su estudio hasta que logre un resultado significativo o se quede sin dinero. Sin embargo, esto aumenta enormemente la posibilidad de un falso positivo.
  • Verdad inflación. Los estudios de baja potencia combinados con el sesgo de publicación significa que solo se publicarán los estudios que informan un tamaño de efecto excesivamente grande, obtenido debido a la suerte, mientras que los estudios que miden el tamaño real del efecto no alcanzarán significación estadística.

Hay bastantes problemas más comunes, por lo que me interesaré notar que he escrito una larga guía sobre estos temas que los explica (y otros) en gran profundidad. O al menos espero que sea de gran profundidad:

Estadísticas hechas mal

“Ahogarse” en el océano de datos y olvidar el objetivo original del análisis.

Ese era el problema más importante que enfrentaba al administrar un equipo de analistas junior en una compañía financiera.

En primer lugar, es crucial comprender cuál es la pregunta que el patrocinador está tratando de responder mediante este análisis. A veces, especialmente si el patrocinador no es una persona de mentalidad analítica, la tarea puede incluso no tener sentido tal como se especificó. Un buen analista tendrá sentido de la tarea , incluso si eso significa que la especificación de las tareas necesita ser ajustada, luego volverá al patrocinador para confirmar que dicho enfoque responderá a la pregunta del cliente. Solo entonces comenzará a reducir los números, teniendo en cuenta el objetivo, no haciendo que el análisis sea demasiado amplio. Además, es bueno aclarar qué tan urgente es la pregunta; a veces puede ser preferible un resultado rápido pero aproximado.

Cuando se termina el análisis y se presenta en una forma elegante para su presentación, el único paso que marcará la diferencia es mirar el material nuevamente a través de los ojos del patrocinador :

  • ¿Es comprensible el significado de los números?
  • ¿Qué tendencias observo? ¿Qué conclusiones puedo sacar de él?
  • ¿La respuesta a la pregunta original está realmente allí? ¿Está claro encontrarlo allí?
  • ¿Hay algunos números inesperados / sospechosos?

El problema común es que un último número en una serie temporal parece “salvaje”, ya que no estamos comparando manzanas con manzanas o la muestra de datos es demasiado pequeña, lo que va a confundir al patrocinador. Si puede dar este paso más y servir al patrocinador con una conclusión clara, ¡ahorrará su valioso tiempo y le encantará!

El otro punto que nunca se enfatiza lo suficiente sería que el analista debe ser extremadamente diligente en su trabajo, ya que solo un pequeño descuido puede causar resultados completamente incorrectos y girar la decisión del patrocinador en la dirección opuesta.

  • Suponiendo que una variable se distribuye normalmente cuando no lo es.
  • Intervalos de predicción confusos e intervalos de confianza. Ellos no son los mismos.
  • Extrapolando más allá del rango de sus datos de entrenamiento, particularmente en el caso de datos de series de tiempo.
  • No distinguir entre significación estadística y significación práctica. Este es un problema importante con Big Data y está relacionado con ignorar el tamaño del efecto. Con una N lo suficientemente grande, prácticamente todo es estadísticamente significativo en el sentido frecuentista.
  • No darse cuenta de que el número de correlaciones espurias crece exponencialmente con el número de dimensiones de un conjunto de datos. Esto lleva a una serie de errores: detectar falsas alarmas en los sistemas de alerta, agregar características innecesarias a un modelo, hacer suposiciones causales, etc. Otro problema en la era de Big Data.

Una pareja que no ha sido mencionada:

  • No comprende el papel del muestreo aleatorio en el diseño de experimentos y las pruebas de hipótesis. Si no tiene una muestra aleatoria simple, no puede simplemente aplicar los resultados de las pruebas estándar y esperar que sucedan cosas buenas.
  • No hacer un diseño experimental honesto. Si compara el desempeño de un grupo de personas en una tarea antes y después del entrenamiento, no puede atribuir el cambio en el desempeño al entrenamiento. Necesitas un grupo de control.
  • No saber cuándo describir y cuándo comparar. Si está interesado en los rasgos de los empresarios exitosos, no debe preguntar cómo son los empresarios exitosos. Debe preguntar en qué se diferencian de los emprendedores fracasados.

Según mi opinión, la falacia de la regresión sería el error más predominante cometido por los principiantes. (Lo he hecho varias veces como principiante).

La falacia de la regresión es

  1. Una falacia informal : los argumentos no respaldan la conclusión real que ha sacado de la observación. (Lo más probable es que el razonamiento que ha aplicado sea incorrecto)
  2. creer que una medida de corrección tomada ha mejorado (o vuelto a la normalidad) el proceso, sin tener en cuenta sus fluctuaciones naturales.

Digamos que los graduados universitarios escriben un examen antes de asistir a un programa de capacitación. Se observa que el puntaje promedio es 60.

Se hace que el mismo grupo de estudiantes escriba una prueba similar al final del programa de capacitación y se observa que el puntaje promedio es de alrededor de los mismos 60.

¿Significa esto que el curso no mejoró?

Cuando se observa de cerca, encontraremos que los graduados que obtuvieron puntajes por debajo del promedio tendrán un aumento en su puntaje y los graduados que superaron la primera prueba enfrentarán una disminución en la misma cantidad de puntaje en promedio.

¿Significa esto que el curso está tratando de neutralizar el puntaje del examen?

No. Es solo porque no se puede esperar que los graduados obtengan el mismo puntaje siempre. No hay nada más que eso.

En todas las situaciones de prueba-prueba, se observó que el grupo de puntaje más bajo de la primera prueba mostró una mejora promedio en la puntuación de la segunda prueba, con el grupo superior con una espalda corta promedio.

Este es el famoso efecto de regresión.

Esto se debe a una razón específica, que no sea la distribución comúnmente observada de la puntuación en tales escenarios. (Esta es la fluctuación natural explicada en el punto 2)

Pensar que el efecto de regresión se debe a algún efecto específico y establecer una asociación causal o de cualquier otro tipo se denomina Fallacia de regresión.

Espero que esto ayude.

Mi top 5, el n. ° 1, es el alfa-omega, pero el resto no se enumera en ningún orden en particular, aparte de cómo pensé en ellos.

1- ignorando la Navaja de Occam y entrando así en el ámbito de la “parálisis de análisis”
2- modelos estadísticos excesivamente complicados con variables, parámetros o sistemas extraños / superfluos
3- malentendido de que los modelos no determinan la causalidad, la ingeniería del producto que se está diseñando / analizando logra que
4- calcular mal el tamaño mínimo de la muestra y ejecutar pruebas a / b o multivariadas con definiciones incorrectas de significación estadística como resultado
5- presentar hallazgos estadísticos a una audiencia. a menos que su audiencia sea de otros estadísticos o ingenieros, las personas quieren comprender el alcance, el impacto y los intervalos en inglés simple.

Además de esto, Geckoboard recientemente analizó tres falacias comunes que hemos visto amigos y colegas experimentar con estas divertidas tarjetas de datos, a continuación. Cada publicación a continuación desglosa cuáles son, cómo pueden progresar en su negocio y cómo evitarlos:

  • Lecciones rápidas de datos: Selección de cerezas: cuando selecciona selectivamente la evidencia que respalda su punto de vista sin tener en cuenta los datos que no lo hacen.
  • Lecciones rápidas de datos: sesgo de supervivencia: el acto de sacar conclusiones de un conjunto incompleto de datos porque esos datos han “sobrevivido” a algunos criterios de selección.
  • Lecciones rápidas de datos: dragado de datos: búsqueda profunda de respuestas en los datos, independientemente de si realmente hay algo que encontrar.

Muchas buenas respuestas aquí, pero agregaré: construir un modelo muy complicado sin molestarse en comprobar cómo funcionaría primero un modelo muy simple. Este error no se limita a los principiantes.

La idea de que uno puede construir sistemas de aprendizaje automático utilizando los mismos procesos ágiles y / o en cascada sin sentido utilizados para construir plataformas web

El aprendizaje automático y la ciencia de datos requieren una carga cognitiva significativamente mayor que la ingeniería web.

En otras palabras, tienes que entender lo que realmente está sucediendo.

  • Sobre / ajustar sus modelos al no prestar atención al equilibrio de sesgo-varianza.
  • “Fugas” o superposición entre los conjuntos de prueba y entrenamiento.
  • Subestimar la fuerza de la ingeniería de características y la limpieza / munging de datos.
  • Comprender y exponer claramente sus supuestos.
  • No prestar suficiente atención a la significación estadística.

Desde mi experiencia personal como principiante, el aprendizaje automático es un salto directo para realizar la clasificación / regresión de los datos, sin tomarse el tiempo para analizar y analizar los datos, entendiendo las características y su relación entre sí y el resultado. Este paso nos da muchas ideas sobre el problema. También puede proporcionar posibles respuestas a las preguntas que puedan surgir debido al comportamiento extraño del modelo de aprendizaje.
Así que siempre da un paso atrás y mira detenidamente los datos, te ayudará a construir mejores modelos de aprendizaje.

  • Entrena / prueba en el mismo set;
  • ignorar la colinealidad y la interacción entre predictores;
  • vea un modelo con el valor r cuadrado de uno perfecto;
  • ignorar prueba MSE;
  • simplemente suelte valores perdidos y valores atípicos;
  • Correlación errónea con la causalidad
  • Intentando incluir en cada covariable / característica y sobreajustar el modelo
  • Deletreando heteroscedasticidad incorrectamente

Aquí hay un artículo (con algunas tiras divertidas) que escribí hace tiempo:

Errores comunes que los analistas cometen durante el análisis y cómo evitarlos?

Solo pido pruebas aquí y en las actividades de la universidad y las empresas. En un informe tradicional sobre un libro, la idea (Dios mío, en Humanidades) requiere notas al pie o claramente la fuente de la estadística. Para aquellos que recuerdan que había un senador, Joseph McCarthy, dijo una y otra vez que tenía una lista de comunistas. Alguien debería haber dicho muéstranos. Los buenos científicos lideran el camino con la carga de la verdad; prueba. ¿Qué es la prueba? Piensa en esto.

El sobreajuste podría ser el error más común.