¿Qué algoritmos de aprendizaje automático no requieren escalado de características?

los algoritmos de aprendizaje automático no requieren escala de características’; ¿Para lograr qué exactamente?

¿Clasificación? ¿Regresión? Agrupación? ¿Reducción de dimensionalidad?

Permítanme señalar suavemente que esta es una pregunta mal redactada que apesta a un enfoque de caja negra para los algoritmos de ML en general.

En caso de que busque algoritmos de clasificación supervisados ​​que sean nativos invariante bajo las transformaciones de escala de los valores de las características de entrada, o aquellas que son robustas para la escala de las características de entrada, debe comenzar con los diversos sabores de la familia Árbol de decisión / Bosque aleatorio .

El clasificador lineal Fisher LDA y los miembros de los clasificadores basados ​​en modelos gráficos (de los cuales Naive Bayes es miembro) son sin duda otros candidatos destacados notables.

En el ámbito de la regresión, un pequeño y pintoresco artefacto que es el término de sesgo que a menudo se ignora ayuda a explicar la no escala de características.

En general, cualquier algoritmo que aproveche la idea del vecino más cercano sensible a la distancia para clasificar, sería un mal candidato para ser alimentado con características comerciales sin escala.

Por supuesto, hay muchos otros puntos para considerar, como la naturaleza del despliegue del modelo (datos de transmisión en tiempo real versus análisis de datos exploratorios fuera de línea), el efecto sobre la tasa de convergencia del descenso de gradiente empleado en el aprendizaje de parámetros, numérico problemas de estabilidad que se vuelven muy importantes cuando usas versiones kernelized sofisticadas , etc.

Para concluir, el escalado de características a menudo puede ser un aspecto subestimado del aprendizaje automático. Muchos profesionales lo ven erróneamente como un simple recuadro negro de “estandarización de datos” en la denominada etapa de preprocesamiento de datos de la tubería de ML. Pero, como se podría imaginar, vale la pena entender esta fase un poco más claramente.

En realidad, no solo depende del algoritmo, sino que también depende de sus datos. Normalmente, el escalado de características se produce cuando las características en sus datos tienen rangos que varían enormemente, por lo que un objetivo del escalado de características es garantizar que cuando use algoritmos de optimización como el descenso de gradiente puedan converger a una solución (o hacer que la convergencia sea más rápida). Dicho esto, un algoritmo que viene a la mente que generalmente no requiere escala de características es Naive Bayes porque la estimación de parámetros no implica optimización.

More Interesting

¿Alguien puede resolver este ejemplo de algoritmo EM?

¿Cómo probar formalmente que el producto de dos núcleos es un núcleo? Si K1 (x, x1) y K2 (x, x2) son ambas funciones del núcleo, entonces K1 (x, x1) K2 (x, x2) también es un núcleo

El mejor ajuste de línea se puede encontrar analíticamente por el método de mínimos cuadrados. ¿Podemos decir que la regresión lineal (mínimos cuadrados) tiene un optimizador?

¿Alguien puede proporcionar ejemplos sobre cómo usar la biblioteca Shogun para modelos de Markov ocultos?

¿Se está separando la ciencia de datos / aprendizaje automático de la informática tradicional?

¿Cuáles son las características de HOG en visión artificial en términos simples?

¿Qué es un 'descriptor' en el contexto de una transformación de característica invariante de escala (SIFT)?

¿Cómo representa doc2vec el vector de características de un documento? ¿Alguien puede explicar matemáticamente cómo se realiza el proceso?

¿El reconocimiento facial basado en CNN todavía se clasificaría correctamente si la imagen facial presentada está al revés?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

¿Cómo agrupamos el comportamiento de navegación de usuarios similares y seleccionamos características separables?

¿Cuál es la ventaja de tener en cuenta la curvatura al optimizar las redes neuronales profundas?

¿Existe alguna relación entre la asignación de Dirichlet latente y los procesos de dirichlet?

¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?

¿Por qué es tan fácil el aprendizaje profundo?