Cómo lidiar con un conjunto de datos duro que no me da buenos resultados en la validación del modelo

Desafortunadamente, ese es el punto de la ciencia de datos. Si siempre fuera fácil, no habría necesidad de especialistas. Más desafortunadamente, no necesariamente hay una buena respuesta para eso. Esto es lo que haría para abordarlo (tenga en cuenta que, sin información de fondo sobre lo que ha intentado, me estoy aferrando a cómo abordaría qué preguntas hacer a continuación):

  • ¿Has probado otros modelos? Algunos modelos son propensos a sobreajustarse con ciertos tipos de datos y no con otros. ¿Obtiene una validación deficiente con cada modelo?
  • Cuando miras los datos, ¿hay valores atípicos? Los valores atípicos realmente pueden arruinar las cosas.
  • ¿Has intentado estandarizar tus entradas?
  • ¿Está buscando en la cuadrícula sus hiperparámetros o solo está utilizando los valores predeterminados?
  • ¿Qué tipo de ingeniería de características estás haciendo? Si ninguno, deberías trabajar en eso.
  • ¿Qué tan grande es el conjunto de datos? ¿Puede agregar más datos de modo que el modelo no sea tan dependiente de algunos puntos?
  • ¿Cómo estás validando? Plegado en cruz? Test-Train? Dejar uno fuera? Pruebe todos ellos, vea si su método es pobre.

Si todo eso falla, es posible que se encuentre en un lugar donde no tenga datos ‘buenos’. A veces, lo que hay que hacer es volver al tablero de dibujo y ver qué datos necesita para hacer un modelo que pueda funcionar.

La mejor de las suertes.

More Interesting

¿Qué enfoques utilizaron los participantes en Quora ML CodeSprint 2013?

Necesito trabajar en un pequeño proyecto de análisis de sentimientos. ¿Qué herramienta debo usar para aprender e implementar fácilmente como Python, TensorFlow?

Estoy interesado en el aprendizaje automático y la inteligencia artificial y recién comencé a aprender Python. ¿Qué otras habilidades debo tener en mi haber para tener éxito en este campo?

¿Por qué eliges TensorFlow?

¿Qué debo hacer para un bot de chat con aprendizaje automático?

¿Por qué mi modelo de regresión produce valores negativos para SalePrice en los datos de prueba?

Cómo combinar clasificador basado en reglas y SVM

Puede aprendizaje no supervisado puede utilizar para determinar si alguien de la escritura / arte es más creativo que la escritura / arte de la mayoría de la gente?

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?

¿Qué es SVM latente en el aprendizaje automático? ¿Cómo es diferente de SVM normal (caso binario)?

¿Se puede usar una máquina de Boltzmann profunda para la clasificación de imágenes en una base de datos que tiene solo mil imágenes y tiene características de imagen de valor real como unidades de entrada (en lugar de unidades de píxeles binarios)?

¿Existe la idea de utilizar la regularización para evitar el sobreajuste en la econometría, como lo enseñan los economistas?

¿Cómo se puede imputar valores perdidos en SAS?

¿Por qué los jóvenes estudiantes dedican más tiempo a la programación competitiva en lugar de otras áreas como aprendizaje automático, seguridad, big data y sistemas operativos?

¿Qué es la agrupación de datos?