Aprendizaje automático: ¿cuándo debo aplicar la normalización / estandarización de datos?

Tiene razón, para los árboles de decisión no necesita escalar sus características. Si lo piensa, la decisión es, por ejemplo, “¿es la característica x_i> = some_val?” Aquí, no importa en qué escala se encuentre esta característica.

Normalmente uso la estandarización sobre la “normalización” (escala mínima-máxima) ya que obtienes el centrado de la media de forma gratuita, lo cual también es importante en ciertos algoritmos.
Algoritmos donde las características de escalamiento de características son

  • k-significa si utiliza, por ejemplo, la distancia euclidiana, ya que normalmente desea que todas las funciones contribuyan igualmente
  • k-vecinos más cercanos (ver k-means)
  • regresión logística, SVM, perceptrones, redes neuronales, etc., si está utilizando la optimización basada en descenso / ascenso de gradiente, de lo contrario, algunos pesos se actualizarán mucho más rápido que otros, por ejemplo
  • análisis discriminante lineal, análisis de componentes principales, análisis de componentes principales del núcleo ya que desea encontrar direcciones para maximizar la varianza (bajo las restricciones de que esas direcciones / vectores propios / componentes principales son ortogonales); desea tener la misma escala aquí ya que enfatizaría las variables en “escalas de medición más grandes” más

Hay más que no voy a enumerar aquí (arriba son los ejemplos más destacados en mi opinión). En realidad, siempre te recomiendo que pienses en el algoritmo y en lo que está haciendo, y luego generalmente se vuelve obvio si deseas escalar tus características o no.

More Interesting

¿Existe una relación entre el aprendizaje automático y los procesos estocásticos?

¿Cuánta experiencia ML necesita uno para las competiciones ML de Kaggle?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

¿Cómo funciona el algoritmo de fijación de precios de Uber?

¿Podemos combinar HOG y PCA en la clasificación de imágenes?

¿Qué algoritmo usar en la clasificación de la cobertura del suelo?

Cómo recopilar datos para problemas de la vida real mientras se entrena un modelo de aprendizaje automático

¿Qué usos novedosos hay para el aprendizaje de refuerzo profundo?

¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?

¿Pueden proporcionarme un código para la predicción de palabras con word2vec?

¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

¿Qué significa extraer características de alguna capa de una red neuronal convolucional?

¿Cómo es trabajar en problemas de aprendizaje automático en un entorno empresarial?

¿Cuál es la relación de la función objetivo de muestreo negativo con la función objetivo original en word2vec?

¿Cómo funcionan las representaciones distribuidas de escasez fija defendidas e implementadas por Numenta?