¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?

Hay muy poco interés en las causas raíz cuando se realiza la minería de datos. Lo que queremos encontrar son estructuras de datos subyacentes que nos den información oculta en los datos. Lo que queremos es información, no explicación. No hay verificación que hacer tampoco. La información está disponible tal cual y es lo que es.

Por ejemplo, las reglas de asociación. Queremos encontrar qué elementos están asociados con los conjuntos de elementos. El conocimiento que queremos es cuán comunes son, si las asociaciones muestran un aumento del elemento cuando están en presencia del conjunto de datos, etc. La aplicación más conocida es el análisis de casos de cesta. ¿Qué tan común es la compra de leche? ¿Qué otro producto o productos aparecen en la misma compra? ¿La leche aumenta en presencia de mantequilla?

Queremos conocer estas asociaciones. Las causas fundamentales son, como mínimo, poco interesantes. La verificación es innecesaria.

Hay herramientas mucho mejores para lidiar con la causalidad. La experimentación es probablemente la mejor. El análisis, dependiendo del contexto y los datos disponibles es posible.

More Interesting

¿El aprendizaje automático es un subconjunto de la ciencia de datos?

¿Cómo funciona el modelo de atención con LSTM?

¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?

¿Debo ir por TensorFlow o PyTorch?

¿Cómo se usan las estadísticas en Machine Learning?

¿Cuántos datos se producen diariamente y cómo se obtuvo esa cifra?

¿Qué es la enseñanza profunda?

¿Qué piensa Pedro Domingos de la investigación de aprendizaje automático que está ocurriendo en la industria versus la academia?

¿Qué es un núcleo de roles en una máquina de vectores de soporte?

Redes neuronales artificiales: ¿Qué determina si un problema de clasificación no trivial para el aprendizaje profundo se puede dividir en capas convolucionales en lugar de capas completamente conectadas?

¿Pueden las redes neuronales convolucionales entrenarse para jugar al ajedrez realmente bien?

Aprendí algo de teoría de la probabilidad, pero aún me cuesta leer el aprendizaje automático: una perspectiva probabilística. ¿Qué libro de texto de teoría de probabilidad me recomiendan para estudiar el aprendizaje automático?

¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

¿A quién o qué investigación de laboratorio en aprendizaje automático le parece más interesante?

¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?