Tiene razón, para los árboles de decisión no necesita escalar sus características. Si lo piensa, la decisión es, por ejemplo, “¿es la característica x_i> = some_val?” Aquí, no importa en qué escala se encuentre esta característica.
Normalmente uso la estandarización sobre la “normalización” (escala mínima-máxima) ya que obtienes el centrado de la media de forma gratuita, lo cual también es importante en ciertos algoritmos.
Algoritmos donde las características de escalamiento de características son
- k-significa si utiliza, por ejemplo, la distancia euclidiana, ya que normalmente desea que todas las funciones contribuyan igualmente
- k-vecinos más cercanos (ver k-means)
- regresión logística, SVM, perceptrones, redes neuronales, etc., si está utilizando la optimización basada en descenso / ascenso de gradiente, de lo contrario, algunos pesos se actualizarán mucho más rápido que otros, por ejemplo
- análisis discriminante lineal, análisis de componentes principales, análisis de componentes principales del núcleo ya que desea encontrar direcciones para maximizar la varianza (bajo las restricciones de que esas direcciones / vectores propios / componentes principales son ortogonales); desea tener la misma escala aquí ya que enfatizaría las variables en “escalas de medición más grandes” más
Hay más que no voy a enumerar aquí (arriba son los ejemplos más destacados en mi opinión). En realidad, siempre te recomiendo que pienses en el algoritmo y en lo que está haciendo, y luego generalmente se vuelve obvio si deseas escalar tus características o no.
- ¿Cuál es la diferencia entre clasificación y reconocimiento de patrones?
- ¿Cómo se compara el paquete de aprendizaje profundo Mozi con Caffe o Torch7?
- Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?
- Cómo construir mi propio sistema de inteligencia artificial
- ¿Puedo usar word2vec para hacer el análisis de co-palabras?