Desafortunadamente, ese es el punto de la ciencia de datos. Si siempre fuera fácil, no habría necesidad de especialistas. Más desafortunadamente, no necesariamente hay una buena respuesta para eso. Esto es lo que haría para abordarlo (tenga en cuenta que, sin información de fondo sobre lo que ha intentado, me estoy aferrando a cómo abordaría qué preguntas hacer a continuación):
- ¿Has probado otros modelos? Algunos modelos son propensos a sobreajustarse con ciertos tipos de datos y no con otros. ¿Obtiene una validación deficiente con cada modelo?
- Cuando miras los datos, ¿hay valores atípicos? Los valores atípicos realmente pueden arruinar las cosas.
- ¿Has intentado estandarizar tus entradas?
- ¿Está buscando en la cuadrícula sus hiperparámetros o solo está utilizando los valores predeterminados?
- ¿Qué tipo de ingeniería de características estás haciendo? Si ninguno, deberías trabajar en eso.
- ¿Qué tan grande es el conjunto de datos? ¿Puede agregar más datos de modo que el modelo no sea tan dependiente de algunos puntos?
- ¿Cómo estás validando? Plegado en cruz? Test-Train? Dejar uno fuera? Pruebe todos ellos, vea si su método es pobre.
Si todo eso falla, es posible que se encuentre en un lugar donde no tenga datos ‘buenos’. A veces, lo que hay que hacer es volver al tablero de dibujo y ver qué datos necesita para hacer un modelo que pueda funcionar.
La mejor de las suertes.
- Deseo obtener un doctorado en Ciencias de la Computación de la India y no de ninguna universidad de los Estados Unidos. ¿Será esta una buena decisión?
- Procesamiento del lenguaje natural: ¿Cuáles son algunas ideas de problemas / proyectos sobre la clasificación jerárquica de textos?
- ¿Cómo detectamos las anamolias que causan la caída de la máquina y la pérdida de producción en la fabricación?
- ¿Es el aprendizaje automático el único campo de IA de interés para la academia y la industria?
- ¿Cuánto importa el aprendizaje automático en ciencia de datos?