¿Cómo puedo demostrar que si no escalo las características antes de aplicar el descenso de gradiente, disminuirá la convergencia?

En descenso gradiente,

[matemática] \ Theta_ {j} = \ Theta_ {j} – a / m \ cdot \ sum_ {i = 1} ^ {m} (h (x_ {i}) – y_ {i}) [/ math] [/ math] [ matemáticas] \ cdot x ^ {i} _ {j} [/ matemáticas] donde [matemáticas] m [/ matemáticas] es el número de ejemplos de entrenamiento, [matemáticas] a [/ matemáticas] es la tasa de aprendizaje, [matemáticas] h [/ matemáticas] es una hipótesis y [matemáticas] (x, y) [/ matemáticas] son datos de entrenamiento

Si las funciones no se escalan [matemática] x ^ {i} _ {j} [/ matemática] será alta para entidades con valores grandes, lo que provocará un gran cambio en [matemática] \ Theta_ {j} [/ matemática]. Por lo tanto, a pesar de que estamos haciendo pequeños cambios en otros valores [matemáticos] \ Theta [/ matemáticos], esto no garantizará que se acerquen los mínimos locales de la función de costos y también puede causar divergencia. El escalado de características se usa como una medida para evitar la situación anterior.

Related Content

¿Qué debo leer para desarrollar un rastreador web que raspe un subconjunto de Internet y me brinde los enlaces de los sitios web que son tiendas de abarrotes?

¿Cuál es el truco del núcleo?

Cómo entrenar una red neuronal para detectar un objeto en un video que no estaba presente en el cuadro anterior

Cómo explicar el desempeño de un modelo predictivo a la gerencia que no conoce el aprendizaje automático

¿Cómo entrenamos un clasificador para el cual solo tenemos datos de entrenamiento positivos (no hay datos negativos o sin etiquetar disponibles)?

¿Qué tan compleja era la aviónica soviética?

¿Cuál es el proceso típico de lograr la parte de diseño web de un proyecto?

Pruébalo tú mismo. Matemáticamente, debería tener sentido que si el escalado no lo hace más lento, al menos debería hacerlo más preciso. Nuevamente, depende totalmente de su conjunto de datos (los rangos grandes hacen que su divergencia de descenso sea más lenta) y su tasa de aprendizaje.

El propósito de reducir las características es asegurarse de que todo el conjunto de datos tenga un rango de uno. Esto hace que su implementación sea estandarizada y más fácil de trabajar. Si tiene un amplio rango de valores, pero una tasa de aprendizaje lenta, la divergencia prácticamente nunca podría completarse. Si su conjunto de datos tiene un rango pequeño pero una tasa de aprendizaje demasiado grande, su algoritmo tiene una alta probabilidad de perder el mínimo local.

En pocas palabras, no podría probar que, como ley, la escala de características hace que su descenso de gradiente diverja más rápido. Sin embargo, puedo decirle que es una buena práctica y le ahorrará muchos dolores de cabeza al establecer una tasa de aprendizaje demasiado alta o baja a medida que implementa sus algoritmos de descenso de gradiente.

Kaushik Kasi

More Interesting

¿Fallarán todos los modelos de aprendizaje automático en este conjunto de datos?

¿Qué recursos sobre modelos gráficos se recomiendan para los estudiantes de aprendizaje automático que desean ingresar al campo?

¿Cómo y por qué funciona la estimación de contraste de ruido?

¿Qué áreas del aprendizaje automático son más importantes para los fondos de cobertura y los bancos de inversión (en equipos cuantitativos)?

¿Qué técnicas son buenas para suavizar los clics de las consultas de cola larga en los motores de búsqueda?

¿El filtrado colaborativo se considera aprendizaje automático?

¿Cuáles son las aplicaciones no computacionales de las lecciones del aprendizaje automático?

Cómo optimizar las consultas SPARQL

¿Cuáles son algunas técnicas de compresión que usan redes neuronales recurrentes?

Cómo interpretar los resultados de R después del análisis en las organizaciones

¿Qué significa que una modelo se sobreajuste?

¿Cómo puede un joven de 16 años comenzar a aprender sobre el aprendizaje automático?

¿Debo aprender C ++, Python o Java para construir un sistema de aprendizaje automático de grado de producción?

¿Por qué los científicos no definen la inteligencia de tal manera que pueda implementarse artificialmente en un software, como si pudiéramos crear luz artificialmente?

¿Qué tema es adecuado para un taller de aprendizaje automático para estudiantes de secundaria típicos?

Web Analytics