Antes de elegir y aplicar incluso el modelo de aprendizaje automático lineal más simple, ¿qué aspectos estadísticos de los datos debo considerar?

Yo miraría lo siguiente:

  1. Despidos / multicolinealidad. Algunos modelos de aprendizaje automático suponen que sus variables son independientes y los datos altamente correlacionados le darán una medición falsa de bondad de ajuste y harán que su modelo parezca que funciona mejor de lo que realmente lo hace. Puede verificar la multicolinealidad utilizando el Factor de inflación de varianza y el Análisis de componentes principales.
  2. Datos escasos ¿Tienes muchos datos faltantes? Esto es especialmente cierto cuando se construye un modelo de aprendizaje automático a partir de las calificaciones de los usuarios, donde no todos los usuarios han calificado todos los productos. La mayoría de los modelos de aprendizaje automático tienen algún tipo de multiplicación matricial y, si recuerdas tus días de álgebra lineal, multiplicar matrices dispersas dará como resultado todo tipo de problemas de singularidad y tu modelo de aprendizaje automático nunca convergerá (si es que funciona). Existen soluciones para tratar con conjuntos de datos escasos, pero lo dejaré a otra pregunta de Quora.
  3. Demasiado ajustado. Comprueba que no tienes más variables que observaciones. Esto vuelve al álgebra matricial también. El supuesto matemático subyacente es que su matriz tiene n> p donde N es el número de observaciones y p es el número de variables.

¡Buena suerte!