‘ los algoritmos de aprendizaje automático no requieren escala de características’; ¿Para lograr qué exactamente?
¿Clasificación? ¿Regresión? Agrupación? ¿Reducción de dimensionalidad?
Permítanme señalar suavemente que esta es una pregunta mal redactada que apesta a un enfoque de caja negra para los algoritmos de ML en general.
- ¿Es cierto que las Redes Adversarias Generativas (GAN) aprenden la función de pérdida automáticamente, y si es así, cómo?
- ¿Cuáles son algunos usos prácticos o aplicaciones del conjunto de datos de YouTube 8M?
- ¿Qué computadora portátil debo comprar, la Dell XPS 15 o la MacBook pro 13 '2017 para una Maestría en Ciencias de la Computación, en los EE. UU. Con enfoque en aprendizaje automático y ciencia de datos?
- ¿Cuáles son algunos trabajos de investigación basados en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?
- Cómo calcular gradientes en una red neuronal de avance utilizando matrices
En caso de que busque algoritmos de clasificación supervisados que sean nativos invariante bajo las transformaciones de escala de los valores de las características de entrada, o aquellas que son robustas para la escala de las características de entrada, debe comenzar con los diversos sabores de la familia Árbol de decisión / Bosque aleatorio .
El clasificador lineal Fisher LDA y los miembros de los clasificadores basados en modelos gráficos (de los cuales Naive Bayes es miembro) son sin duda otros candidatos destacados notables.
En el ámbito de la regresión, un pequeño y pintoresco artefacto que es el término de sesgo que a menudo se ignora ayuda a explicar la no escala de características.
En general, cualquier algoritmo que aproveche la idea del vecino más cercano sensible a la distancia para clasificar, sería un mal candidato para ser alimentado con características comerciales sin escala.
Por supuesto, hay muchos otros puntos para considerar, como la naturaleza del despliegue del modelo (datos de transmisión en tiempo real versus análisis de datos exploratorios fuera de línea), el efecto sobre la tasa de convergencia del descenso de gradiente empleado en el aprendizaje de parámetros, numérico problemas de estabilidad que se vuelven muy importantes cuando usas versiones kernelized sofisticadas , etc.
Para concluir, el escalado de características a menudo puede ser un aspecto subestimado del aprendizaje automático. Muchos profesionales lo ven erróneamente como un simple recuadro negro de “estandarización de datos” en la denominada etapa de preprocesamiento de datos de la tubería de ML. Pero, como se podría imaginar, vale la pena entender esta fase un poco más claramente.