¿Cuáles son las falacias comunes de minería de datos?

Además de esto, Geckoboard recientemente analizó tres falacias comunes que hemos visto amigos y colegas experimentar con estas divertidas tarjetas de datos, a continuación. Cada publicación a continuación desglosa cuáles son, cómo pueden progresar en su negocio y cómo evitarlos:

  • Lecciones rápidas de datos: Selección de cerezas: cuando selecciona selectivamente la evidencia que respalda su punto de vista sin tener en cuenta los datos que no lo hacen.
  • Lecciones rápidas de datos: sesgo de supervivencia: el acto de sacar conclusiones de un conjunto incompleto de datos porque esos datos han “sobrevivido” a algunos criterios de selección.
  • Lecciones rápidas de datos: dragado de datos: búsqueda profunda de respuestas en los datos, independientemente de si realmente hay algo que encontrar.

Publicado originalmente en Common Datamining Falacies ( http://www.victusspiritus.com/20 …)

“Nuestra imaginación se extiende al máximo, no, como en la ficción, para imaginar cosas que no están realmente allí, sino para comprender esas cosas que están allí”.
Richard Feynman, El carácter de la ley física (1965)

No necesita terabytes de información estructurada para comenzar a buscar patrones en los datos, pero es útil. La publicación de hoy discute la identificación de patrones en conjuntos de datos, en particular explora falacias comunes que son rampantes en el campo de la minería de datos.

Sesgo del experimentador

La aspiración de los científicos de datos es desterrar suposiciones falsas que ocultan patrones verdaderos. Cada recopilación de datos tiene una historia que contar, y es nuestro deber y deber extraer mejor el carácter esencial de cada conjunto.

Es naturaleza humana embellecer estas historias e identificar patrones presuntos, incluso sin suficiente evidencia de apoyo (sesgo del experimentador). En resumen, las mediciones tienden a producir lo que se predice, porque simplemente odiamos estar equivocados, y porque estamos constantemente cortos de tiempo y fondos.

Es solo cuando quitamos los lentes rosados ​​de presunción, que podemos comenzar a ver lo que siempre estaba oculto a la vista. El desafío es hacerlo independientemente de las demandas de progreso intermedio en los esfuerzos interminables para obtener financiación puente.

Se prefieren injustamente los modelos de mayor complejidad

“No debemos admitir más causas de cosas naturales que las que son verdaderas y suficientes para explicar sus apariencias” Isaac Newton

La navaja de Occam se usa en exceso pero el principio subyacente es el sonido. Es una suposición fundamental que, en su mayor parte, la naturaleza es conservadora, y los modelos deben esforzarse por limitar la adición de dependencias. Los grados adicionales de libertad siempre pueden adaptarse a problemas de dimensiones inferiores, pero requieren un equilibrio con una penalización por cada grado introducido. Otra forma de ver esto es un caso extremo: si permito que mi espacio de parámetros crezca hasta el tamaño de mi conjunto de datos, puedo “predecirlo” perfectamente.

Una heurística en particular a la que me refiero maneja la presencia de grados adicionales de libertad y se basa en la prueba de relación de probabilidad (tenga en cuenta que este ejemplo cae en otra falacia que se menciona a continuación a menos que se use con precaución). Era un algoritmo equilibrado de ajuste de cadena armónica múltiple que ajustaba sinusoides de frecuencia y amplitud variables a las señales medidas. Por cada sinusoide adicional permitido, la puntuación de los residuos finales se penaliza con el registro del número total de señales escaladas por el tamaño del parámetro. De esa manera, si solo ajustara mejor el ruido, el algoritmo no tendería hacia soluciones de dimensiones más altas.

Sacar conclusiones de datos acumulados

Una de las muchas tentaciones para los científicos de datos es llenar los vacíos faltantes en los datos. La interpolación es aceptable en espacios lisos, por lo tanto, se prefieren las funciones que mapean datos en espacios lisos. Los problemas surgen cuando somos demasiado casuales con interpolaciones en datos ruidosos o puntiagudos, o peor aún cuando extrapolamos lejos de los límites de una colección. Existen métodos como la interpolación de envoltura espejo o el relleno cero para hacer que las salidas del filtro sean más suaves cerca de los límites, pero deben usarse con precaución.

Las estadísticas no son mágicas, y el mundo no es gaussiano

Aunque es un teorema hermoso y apropiado para una amplia variedad de problemas, el teorema del límite central es probablemente el teorema más perjudicial y mal utilizado en el campo de la estimación. Existen innumerables fuentes de ruido y distribuciones de datos novedosas, y sin embargo, la primera suposición que hacen muchos analistas es que la combinación de errores en las mediciones o características es normal. Luego proceden a aplicar una gama de medidas estadísticas basadas en distribuciones gaussianas, maximización de expectativas, predictores óptimos diseñados para reducir el ruido gaussiano, clasificadores cuadráticos, etc.

Estos no son necesariamente cálculos sin valor, de hecho, pueden ser lo suficientemente buenos como para llevarte al estadio de conclusiones relativamente razonables. Pero usar herramientas ciegamente como Clasificadores Cuadráticos o Maximización de Expectativas sin hacer un esfuerzo por comprender los datos subyacentes y las distribuciones de ruido es similar a disparar a ciegas en una habitación llena de gente con la esperanza de golpear un ojo de buey en la oscuridad. La bondad de ajuste Chi-Cuadrado de Pearson ayudará a revelar si una distribución de datos es consistente con una función de densidad conocida. He sido culpable de esta suposición al revisar las colecciones de novelas más veces de las que puedo recordar (mala memoria).

More Interesting

¿Cómo funciona el mecanismo de atención de múltiples cabezas en el aprendizaje profundo?

¿Por qué algunos clasificadores no pueden manejar los atributos continuos?

Cómo implementar Inteligencia Artificial en un Proyecto Arduino

¿Cuál es el mejor enfoque híbrido para construir un sistema de recomendación para datos de música?

¿Es el cerebro humano una gran red neuronal o está formado por muchas redes neuronales más pequeñas?

Con respecto al descenso de gradiente funcional, ¿qué significa minimizar un funcional con respecto a una función? Proporcione un ejemplo claro.

¿Qué son los algoritmos recurrentes de redes neuronales?

¿Cuáles son los algoritmos disponibles para diseñar un detector de actividad de habla hablada cercana?

¿Se pueden usar los árboles de decisión para encontrar atributos de variables latentes de una muestra?

¿Existe la idea de utilizar la regularización para evitar el sobreajuste en la econometría, como lo enseñan los economistas?

¿Cuál es el mejor enfoque para aprender sobre los algoritmos de redes neuronales de predicción del mercado de valores?

¿Cuáles son algunos buenos métodos para explorar datos de alta dimensión?

¿Qué es exactamente el sobreajuste y por qué preferimos modelos que no están sobreajustados incluso cuando los resultados son mejores?

¿Por qué todas las principales empresas de tecnología abren fuentes principales de su tecnología de inteligencia artificial?

¿Debo escribir el código de Random Forest por mi cuenta o usar implementaciones existentes?