Estos son algunos pasos iniciales que creo que debe realizar en su conjunto de datos antes de comenzar a implementar cualquier algoritmo en él:
1) Conozca sus datos: esto significa simplemente mirar los datos. Trate de averiguar qué conclusiones puede obtener de los datos. Intenta poner un sentido básico detrás de los datos. Trate de pensar en sentido comercial aquí. Este es un paso realmente importante si desea facilitar el análisis posterior.
2) Limpiar los datos: esto significa reemplazar los valores faltantes con los valores apropiados. Trate de averiguar dónde usar la media, la moda o la mediana. Descarte los campos que cree que no tienen uso para el modelado. Por ejemplo, Sl No.
3) Elimine los errores: hay muchos registros con valores excepcionales. Estos pueden tener valores muy altos a muy bajos, valores erróneos o valores de diferentes tipos de datos. Elimine estos valores ya que pueden generar resultados no válidos.
- Cómo comenzar a participar y prepararse en hackatones para la ciencia de datos
- ¿Cuál es la diferencia entre la ciencia neuronal, el aprendizaje automático y la minería de datos?
- ¿Qué tan grande debe ser mi equipo de ciencia de datos?
- ¿Cómo se relacionan los nombres de los archivos de extensión con los datos?
- ¿Qué tan bueno es un nanogrado de Udacity en ciencia de datos para un estudiante graduado?
4) Visualización: una imagen dice más que mil palabras. Intente hacer una buena visualización y extraiga información útil de estos. Puede hacerlo en R, Python, o puede usar Tableau o PowerBI.
Después de seguir los pasos anteriores, creo que puede hacer que sus datos sean fáciles de analizar utilizando algoritmos de aprendizaje automático.