¿Hay alguna limpieza de datos para hacer con cresta y lazo?

Si.

Siempre debe al menos mirar cada una de las características antes de ejecutar cualquier algoritmo.

La normalización automática es buena, pero ¿y si hay NaN allí? Saltos ¿Qué pasa si hay un gran valor allí? Destruye esa característica. ¿Qué pasa si una columna es todo ceros? O un número constante? Quién sabe que el normalizador servirá en ese caso.

¿Qué pasa si cada característica está más correlacionada con el objetivo después de hacer una transformación de registro? ¿O después de exponerlo?

Definitivamente necesitas echar un vistazo antes de tirarlo a tu algoritmo.

Incluso el normalizador automático, podría no ser una gran idea. Es posible que desee hacer otra cosa.

Aquí hay un ejemplo: digamos que sus características son mediciones espectrales con ruido de disparo. Puede haber una parte tenue y ruidosa del espectro. Si normaliza esta función, aumentará el ruido; y esto ciertamente dañará el modelo hasta cierto punto.

En ese caso, dependiendo de los datos, es posible que desee calcular una desviación estándar sobre TODAS las características en lugar de una para cada característica, y normalizar toda la matriz con esa única constante.

Entonces, ¡también tienes que mirar los datos de prueba! ¿Qué pasa si su escala es diferente? ¿Estaría bien normalizar eso y llamarlo un día? Yo diría que no.

La lista de advertencias y trampas es interminable. Siempre debe echar un vistazo y tratar sus datos caso por caso.

Supongo que se está refiriendo al proceso para emplear la regresión de Ridge / Lasso. En caso de que esté usando scikit-learn, no necesita preprocesar los datos porque los dos métodos tienen una forma integrada de normalizar el espacio de características. Por supuesto, no está de más hacerlo en el paso de preprocesamiento.

Creo que el punto es asegurar la estabilidad del resultado y evitar que cualquier factor cause problemas en la estimación del coeficiente porque los diferentes factores tienen diferente magnitud / rango. Esa es la razón por la que desea estandarizar los datos.