¿Debería considerarse el paso de preparación / preprocesamiento de datos una parte de la ingeniería de características? ¿Por qué o por qué no?

Creo que hay un límite difuso entre estas dos áreas de tareas. Veo la preparación de datos más como una tarea técnica / computacional. Por ejemplo, si piensa en obtener los datos en el formato “correcto”, elegir la estructura de datos / base de datos adecuada, y así sucesivamente.

Luego, está la limpieza de datos, que también se puede agrupar en la categoría “preparación / preprocesamiento”. Aquí, es posible que desee pensar en detectar duplicaciones, cómo lidiar con valores atípicos y cómo lidiar con datos faltantes.

Para mí, la ingeniería de características es un poco diferente. Lo veo más como un paso de “creación de datos / características” en lugar de un paso de “desinfección” de datos. La ingeniería de características puede incluir todo tipo de transformaciones de características en ambas direcciones: espacios de características de dimensiones más altas (p. Ej., Polinomios), espacios de características de dimensiones más bajas (reducción de dimensionalidad como PCA, LDA, etc., hash, agrupación), o usted mantiene las dimensiones pero cambiar la distribución de sus datos (p. ej., transformación de registros, estandarización, escalado min-max, etc.)