Lo siento. Para que cualquiera pueda responder a esto, debe decir más sobre el conjunto de datos en cuestión y lo que desea hacer en el preprocesamiento. ¿Es el contexto de su pregunta “aprendizaje automático”? Si es así, quizás Cómo preparar sus datos para el aprendizaje automático en Python con Scikit-Learn – Machine Learning Mastery lo ayudará. Encontré ese artículo con una simple búsqueda en Google de:
preprocesamiento de datos para aprendizaje automático
En realidad, solo escribí la parte de “datos de preprocesamiento” de la búsqueda y fue Google quien sugirió la parte “para aprendizaje automático” de los términos de búsqueda.
- Cómo optimizar las consultas SPARQL
- ¿Alguien puede proporcionar ejemplos sobre cómo usar la biblioteca Shogun para modelos de Markov ocultos?
- ¿Por qué no es una práctica estándar publicar pesos de modelos entrenados junto con el código fuente para trabajos de investigación de aprendizaje profundo?
- ¿Qué es ingenuo Bayes en minería de datos?
- ¿Cuál es la explicación simple del modelo de Ising y Potts?
Tenga cuidado de conservar al menos una copia de su conjunto de datos original. Algunas de las transformaciones disponibles perderán, en cierto sentido, la información que estaba allí originalmente. Es decir, no se pueden deshacer reprocesando el archivo de datos preprocesado. Ese artículo dice que debe esperar jugar un poco con su conjunto de datos antes de descubrir qué preprocesamiento, si lo hay, es más efectivo para condicionar sus datos para que sean sabrosos para los algoritmos de aprendizaje automático.
A medida que aumenta el número de variaciones en su conjunto de datos original, asegúrese de haber mantenido buenas notas sobre qué archivo refleja exactamente qué transformación de preprocesamiento se aplicó. La asignación cuidadosa de nombres de archivos puede ayudar, pero al final, necesitará notas para evitar perderse en el bosque.