¿Qué algoritmos de aprendizaje automático no requieren escalado de características?

‘ los algoritmos de aprendizaje automático no requieren escala de características’; ¿Para lograr qué exactamente?

¿Clasificación? ¿Regresión? Agrupación? ¿Reducción de dimensionalidad?

Permítanme señalar suavemente que esta es una pregunta mal redactada que apesta a un enfoque de caja negra para los algoritmos de ML en general.

¿Es cierto que las Redes Adversarias Generativas (GAN) aprenden la función de pérdida automáticamente, y si es así, cómo?
¿Cuáles son algunos usos prácticos o aplicaciones del conjunto de datos de YouTube 8M?
¿Qué computadora portátil debo comprar, la Dell XPS 15 o la MacBook pro 13 '2017 para una Maestría en Ciencias de la Computación, en los EE. UU. Con enfoque en aprendizaje automático y ciencia de datos?
¿Cuáles son algunos trabajos de investigación basados en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?
Cómo calcular gradientes en una red neuronal de avance utilizando matrices

En caso de que busque algoritmos de clasificación supervisados que sean nativos invariante bajo las transformaciones de escala de los valores de las características de entrada, o aquellas que son robustas para la escala de las características de entrada, debe comenzar con los diversos sabores de la familia Árbol de decisión / Bosque aleatorio .

El clasificador lineal Fisher LDA y los miembros de los clasificadores basados en modelos gráficos (de los cuales Naive Bayes es miembro) son sin duda otros candidatos destacados notables.

En el ámbito de la regresión, un pequeño y pintoresco artefacto que es el término de sesgo que a menudo se ignora ayuda a explicar la no escala de características.

En general, cualquier algoritmo que aproveche la idea del vecino más cercano sensible a la distancia para clasificar, sería un mal candidato para ser alimentado con características comerciales sin escala.

Por supuesto, hay muchos otros puntos para considerar, como la naturaleza del despliegue del modelo (datos de transmisión en tiempo real versus análisis de datos exploratorios fuera de línea), el efecto sobre la tasa de convergencia del descenso de gradiente empleado en el aprendizaje de parámetros, numérico problemas de estabilidad que se vuelven muy importantes cuando usas versiones kernelized sofisticadas , etc.

Para concluir, el escalado de características a menudo puede ser un aspecto subestimado del aprendizaje automático. Muchos profesionales lo ven erróneamente como un simple recuadro negro de “estandarización de datos” en la denominada etapa de preprocesamiento de datos de la tubería de ML. Pero, como se podría imaginar, vale la pena entender esta fase un poco más claramente.

Cómo encontrar la correlación más fuerte entre los vectores de colores a continuación en MATLAB o Python

¿Por qué se congelan los pesos en el discriminador de GAN durante el entrenamiento?

¿Cuáles son algunas buenas ideas de proyectos para aplicaciones web de negocios que utilizan análisis de sentimientos?

¿Cuál es la diferencia entre Hidden Markov Chain y Markov Chain?

¿Cómo afectan los registros duplicados en el conjunto de datos de entrenamiento a un clasificador Naive Bayes?

¿Cómo aplicamos el algoritmo de agrupamiento k-means para datos mixtos numéricos y categóricos?

En realidad, no solo depende del algoritmo, sino que también depende de sus datos. Normalmente, el escalado de características se produce cuando las características en sus datos tienen rangos que varían enormemente, por lo que un objetivo del escalado de características es garantizar que cuando use algoritmos de optimización como el descenso de gradiente puedan converger a una solución (o hacer que la convergencia sea más rápida). Dicho esto, un algoritmo que viene a la mente que generalmente no requiere escala de características es Naive Bayes porque la estimación de parámetros no implica optimización.

Dunstan Matekenya

More Interesting

¿Alguien puede resolver este ejemplo de algoritmo EM?

¿Cómo probar formalmente que el producto de dos núcleos es un núcleo? Si K1 (x, x1) y K2 (x, x2) son ambas funciones del núcleo, entonces K1 (x, x1) K2 (x, x2) también es un núcleo

El mejor ajuste de línea se puede encontrar analíticamente por el método de mínimos cuadrados. ¿Podemos decir que la regresión lineal (mínimos cuadrados) tiene un optimizador?

¿Alguien puede proporcionar ejemplos sobre cómo usar la biblioteca Shogun para modelos de Markov ocultos?

¿Se está separando la ciencia de datos / aprendizaje automático de la informática tradicional?

¿Cuáles son las características de HOG en visión artificial en términos simples?

¿Qué es un 'descriptor' en el contexto de una transformación de característica invariante de escala (SIFT)?

¿Cómo representa doc2vec el vector de características de un documento? ¿Alguien puede explicar matemáticamente cómo se realiza el proceso?

¿El reconocimiento facial basado en CNN todavía se clasificaría correctamente si la imagen facial presentada está al revés?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?