Si.
Siempre debe al menos mirar cada una de las características antes de ejecutar cualquier algoritmo.
La normalización automática es buena, pero ¿y si hay NaN allí? Saltos ¿Qué pasa si hay un gran valor allí? Destruye esa característica. ¿Qué pasa si una columna es todo ceros? O un número constante? Quién sabe que el normalizador servirá en ese caso.
- Cómo obtener un gran conjunto de datos para simular big data
- ¿Cuáles son las implicaciones para los usuarios de Google y Kaggle de Google al comprar Kaggle?
- ¿Cuáles son algunas de las arquitecturas de big data más complejas con análisis que conoces?
- ¿Por qué necesitamos minería de datos?
- ¿Hay algún sitio web que se ocupe de aplicar el análisis de datos y la interpretación estadística a los deportes electrónicos?
¿Qué pasa si cada característica está más correlacionada con el objetivo después de hacer una transformación de registro? ¿O después de exponerlo?
Definitivamente necesitas echar un vistazo antes de tirarlo a tu algoritmo.
Incluso el normalizador automático, podría no ser una gran idea. Es posible que desee hacer otra cosa.
Aquí hay un ejemplo: digamos que sus características son mediciones espectrales con ruido de disparo. Puede haber una parte tenue y ruidosa del espectro. Si normaliza esta función, aumentará el ruido; y esto ciertamente dañará el modelo hasta cierto punto.
En ese caso, dependiendo de los datos, es posible que desee calcular una desviación estándar sobre TODAS las características en lugar de una para cada característica, y normalizar toda la matriz con esa única constante.
Entonces, ¡también tienes que mirar los datos de prueba! ¿Qué pasa si su escala es diferente? ¿Estaría bien normalizar eso y llamarlo un día? Yo diría que no.
La lista de advertencias y trampas es interminable. Siempre debe echar un vistazo y tratar sus datos caso por caso.