Antes de elegir y aplicar incluso el modelo de aprendizaje automático lineal más simple, ¿qué aspectos estadísticos de los datos debo considerar?

Yo miraría lo siguiente:

Despidos / multicolinealidad. Algunos modelos de aprendizaje automático suponen que sus variables son independientes y los datos altamente correlacionados le darán una medición falsa de bondad de ajuste y harán que su modelo parezca que funciona mejor de lo que realmente lo hace. Puede verificar la multicolinealidad utilizando el Factor de inflación de varianza y el Análisis de componentes principales.
Datos escasos ¿Tienes muchos datos faltantes? Esto es especialmente cierto cuando se construye un modelo de aprendizaje automático a partir de las calificaciones de los usuarios, donde no todos los usuarios han calificado todos los productos. La mayoría de los modelos de aprendizaje automático tienen algún tipo de multiplicación matricial y, si recuerdas tus días de álgebra lineal, multiplicar matrices dispersas dará como resultado todo tipo de problemas de singularidad y tu modelo de aprendizaje automático nunca convergerá (si es que funciona). Existen soluciones para tratar con conjuntos de datos escasos, pero lo dejaré a otra pregunta de Quora.
Demasiado ajustado. Comprueba que no tienes más variables que observaciones. Esto vuelve al álgebra matricial también. El supuesto matemático subyacente es que su matriz tiene n> p donde N es el número de observaciones y p es el número de variables.

¡Buena suerte!

Related Content

¿En qué casos notamos un problema de gradiente que explota o desaparece y por qué?

¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?

¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

¿Cómo podría el aprendizaje automático mejorar la nariz electrónica?

¿Es efectivo el entrenamiento de confrontación contra los ejemplos de confrontación en general?

Si quiero estar a la par con las necesidades futuras de programación en sistemas integrados, ¿qué idiomas debo aprender?

¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?

More Interesting

¿Mejor ejecución de trabajos de Machine Learning directamente desde Pyspark o integración de scikit-learn en, a través del método de paralelización SparkContext?

¿Me podría recomendar un curso abierto de aprendizaje automático?

¿Cuál es mejor para la manipulación de datos en python: Pandas o SFrame?

Cómo interpretar el resultado de una red totalmente convolucional

¿Qué desafíos interesantes existen para los desarrolladores / programadores que se pueden lograr en unos meses?

¿Qué es la precisión en el aprendizaje automático?

¿El aprendizaje automático como campo todavía está en su infancia, o ya es sofisticado y está bien desarrollado?

Cómo hacer que una red neuronal funcione como PCA

Cómo configurar Sublime Text para el entorno de Machine Learning

¿Las imágenes captcha perderían su importancia si las técnicas de procesamiento de imágenes pudieran reconocer a los personajes automáticamente?

¿Cuáles son las diferencias entre un científico de aprendizaje automático y un científico de datos?

¿Por qué las personas incrustan / envuelven código python en C / C ++?

¿Cuáles son las mejores bibliotecas de redes neuronales de Python y Java con soporte multi gpu y multiplataforma?

¿Por qué necesitamos tasas de aprendizaje adaptativo para Deep Learning?

¿Cuáles son algunos ejemplos del uso del aprendizaje automático en sistemas distribuidos?

Web Analytics