¿Hay alguna limpieza de datos para hacer con cresta y lazo?

Si.

Siempre debe al menos mirar cada una de las características antes de ejecutar cualquier algoritmo.

La normalización automática es buena, pero ¿y si hay NaN allí? Saltos ¿Qué pasa si hay un gran valor allí? Destruye esa característica. ¿Qué pasa si una columna es todo ceros? O un número constante? Quién sabe que el normalizador servirá en ese caso.

Cómo obtener un gran conjunto de datos para simular big data
¿Cuáles son las implicaciones para los usuarios de Google y Kaggle de Google al comprar Kaggle?
¿Cuáles son algunas de las arquitecturas de big data más complejas con análisis que conoces?
¿Por qué necesitamos minería de datos?
¿Hay algún sitio web que se ocupe de aplicar el análisis de datos y la interpretación estadística a los deportes electrónicos?

¿Qué pasa si cada característica está más correlacionada con el objetivo después de hacer una transformación de registro? ¿O después de exponerlo?

Definitivamente necesitas echar un vistazo antes de tirarlo a tu algoritmo.

Incluso el normalizador automático, podría no ser una gran idea. Es posible que desee hacer otra cosa.

Aquí hay un ejemplo: digamos que sus características son mediciones espectrales con ruido de disparo. Puede haber una parte tenue y ruidosa del espectro. Si normaliza esta función, aumentará el ruido; y esto ciertamente dañará el modelo hasta cierto punto.

En ese caso, dependiendo de los datos, es posible que desee calcular una desviación estándar sobre TODAS las características en lugar de una para cada característica, y normalizar toda la matriz con esa única constante.

Entonces, ¡también tienes que mirar los datos de prueba! ¿Qué pasa si su escala es diferente? ¿Estaría bien normalizar eso y llamarlo un día? Yo diría que no.

La lista de advertencias y trampas es interminable. Siempre debe echar un vistazo y tratar sus datos caso por caso.

Ciencia de datosEstadísticaRegresión

¿Qué compañía es mejor unirse como una más fresca, Mu Sigma o Fractal Analytic?

¿Cuál es el salario base de un científico de datos en Airbnb?

¿Qué tipo de codificación se usa en ciencia de datos?

¿Por qué los algoritmos de aprendizaje automático funcionan mejor con datos no correlacionados? ¿Qué sucede cuando normalizamos las funciones?

¿Qué puede hacer la inteligencia artificial?

¿Qué es la normalización en el aprendizaje automático?

Supongo que se está refiriendo al proceso para emplear la regresión de Ridge / Lasso. En caso de que esté usando scikit-learn, no necesita preprocesar los datos porque los dos métodos tienen una forma integrada de normalizar el espacio de características. Por supuesto, no está de más hacerlo en el paso de preprocesamiento.

Creo que el punto es asegurar la estabilidad del resultado y evitar que cualquier factor cause problemas en la estimación del coeficiente porque los diferentes factores tienen diferente magnitud / rango. Esa es la razón por la que desea estandarizar los datos.

Phillip Adkins

More Interesting

¿Alguien podría hablarme sobre las universidades para el análisis de datos o la ciencia de datos en Europa o EE. UU. (Tiempo completo -2 años)?

¿A qué coaching / instituto debo unirme para un curso de aprendizaje de big data?

¿Cuál es la diferencia entre el desarrollador de Big Data junior y senior?

¿Cómo puedo convertirme en ingeniero de big data en Google?

¿Qué tan bueno es un nanogrado de Udacity en ciencia de datos para un estudiante graduado?

¿Cuál es la importancia de la gestión, análisis y seguridad de datos para una empresa?

Cómo analizar datos rápidamente

¿Cómo manejaría e investigaría típicamente los valores atípicos en un conjunto de datos?

Cómo aprender análisis de datos estadísticos

¿Cuál sería una buena pila tecnológica para aprender para un ingeniero de datos principiante?