Publicado originalmente en Common Datamining Falacies ( http://www.victusspiritus.com/20 …)
“Nuestra imaginación se extiende al máximo, no, como en la ficción, para imaginar cosas que no están realmente allí, sino para comprender esas cosas que están allí”.
Richard Feynman, El carácter de la ley física (1965)
No necesita terabytes de información estructurada para comenzar a buscar patrones en los datos, pero es útil. La publicación de hoy discute la identificación de patrones en conjuntos de datos, en particular explora falacias comunes que son rampantes en el campo de la minería de datos.
Sesgo del experimentador
La aspiración de los científicos de datos es desterrar suposiciones falsas que ocultan patrones verdaderos. Cada recopilación de datos tiene una historia que contar, y es nuestro deber y deber extraer mejor el carácter esencial de cada conjunto.
Es naturaleza humana embellecer estas historias e identificar patrones presuntos, incluso sin suficiente evidencia de apoyo (sesgo del experimentador). En resumen, las mediciones tienden a producir lo que se predice, porque simplemente odiamos estar equivocados, y porque estamos constantemente cortos de tiempo y fondos.
Es solo cuando quitamos los lentes rosados de presunción, que podemos comenzar a ver lo que siempre estaba oculto a la vista. El desafío es hacerlo independientemente de las demandas de progreso intermedio en los esfuerzos interminables para obtener financiación puente.
Se prefieren injustamente los modelos de mayor complejidad
“No debemos admitir más causas de cosas naturales que las que son verdaderas y suficientes para explicar sus apariencias” Isaac Newton
La navaja de Occam se usa en exceso pero el principio subyacente es el sonido. Es una suposición fundamental que, en su mayor parte, la naturaleza es conservadora, y los modelos deben esforzarse por limitar la adición de dependencias. Los grados adicionales de libertad siempre pueden adaptarse a problemas de dimensiones inferiores, pero requieren un equilibrio con una penalización por cada grado introducido. Otra forma de ver esto es un caso extremo: si permito que mi espacio de parámetros crezca hasta el tamaño de mi conjunto de datos, puedo “predecirlo” perfectamente.
Una heurística en particular a la que me refiero maneja la presencia de grados adicionales de libertad y se basa en la prueba de relación de probabilidad (tenga en cuenta que este ejemplo cae en otra falacia que se menciona a continuación a menos que se use con precaución). Era un algoritmo equilibrado de ajuste de cadena armónica múltiple que ajustaba sinusoides de frecuencia y amplitud variables a las señales medidas. Por cada sinusoide adicional permitido, la puntuación de los residuos finales se penaliza con el registro del número total de señales escaladas por el tamaño del parámetro. De esa manera, si solo ajustara mejor el ruido, el algoritmo no tendería hacia soluciones de dimensiones más altas.
Sacar conclusiones de datos acumulados
Una de las muchas tentaciones para los científicos de datos es llenar los vacíos faltantes en los datos. La interpolación es aceptable en espacios lisos, por lo tanto, se prefieren las funciones que mapean datos en espacios lisos. Los problemas surgen cuando somos demasiado casuales con interpolaciones en datos ruidosos o puntiagudos, o peor aún cuando extrapolamos lejos de los límites de una colección. Existen métodos como la interpolación de envoltura espejo o el relleno cero para hacer que las salidas del filtro sean más suaves cerca de los límites, pero deben usarse con precaución.
Las estadísticas no son mágicas, y el mundo no es gaussiano
Aunque es un teorema hermoso y apropiado para una amplia variedad de problemas, el teorema del límite central es probablemente el teorema más perjudicial y mal utilizado en el campo de la estimación. Existen innumerables fuentes de ruido y distribuciones de datos novedosas, y sin embargo, la primera suposición que hacen muchos analistas es que la combinación de errores en las mediciones o características es normal. Luego proceden a aplicar una gama de medidas estadísticas basadas en distribuciones gaussianas, maximización de expectativas, predictores óptimos diseñados para reducir el ruido gaussiano, clasificadores cuadráticos, etc.
Estos no son necesariamente cálculos sin valor, de hecho, pueden ser lo suficientemente buenos como para llevarte al estadio de conclusiones relativamente razonables. Pero usar herramientas ciegamente como Clasificadores Cuadráticos o Maximización de Expectativas sin hacer un esfuerzo por comprender los datos subyacentes y las distribuciones de ruido es similar a disparar a ciegas en una habitación llena de gente con la esperanza de golpear un ojo de buey en la oscuridad. La bondad de ajuste Chi-Cuadrado de Pearson ayudará a revelar si una distribución de datos es consistente con una función de densidad conocida. He sido culpable de esta suposición al revisar las colecciones de novelas más veces de las que puedo recordar (mala memoria).