¿Cómo entender las redes neuronales?

La idea clave aquí (para los detalles específicos de su pregunta) es que las redes neuronales con algunas capas pueden representar una gran clase de hipótesis de funciones. Luego, el backprop ajusta las capas de peso hacia abajo (lo que funciona inherentemente para problemas como la visión porque son de naturaleza compositiva) a medida que se alimentan los datos de entrenamiento y generalmente se necesitan muchos datos de entrenamiento para que las redes neuronales no se sobreajusten, de ahí esta imagen donde no son mejores que otros algoritmos hasta que obtengan suficientes datos de entrenamiento:

No hay una teoría ultra robusta de por qué se están generalizando tan bien a los resultados del mundo real en este momento (2016) todavía estamos especulando y haciendo analogías entre ellos y la naturaleza de la ley física para ver si hay algo de valor allí, por ejemplo, este documento

[1608.08225] ¿Por qué el aprendizaje profundo y barato funciona tan bien?

Mostramos cómo el éxito del aprendizaje profundo depende no solo de las matemáticas sino también de la física: aunque los conocidos teoremas matemáticos garantizan que las redes neuronales pueden aproximarse bien a funciones arbitrarias, la clase de funciones de interés práctico puede aproximarse a través del “aprendizaje barato” con exponencialmente menos parámetros que los genéricos, porque tienen propiedades simplificadoras que se remontan a las leyes de la física. La excepcional simplicidad de las funciones basadas en la física depende de propiedades como la simetría, la localidad, la composicionalidad y la probabilidad logarítmica polinómica, y exploramos cómo estas propiedades se traducen en redes neuronales excepcionalmente simples que se aproximan tanto a fenómenos naturales como imágenes y representaciones abstractas de los mismos como dibujos . Además, argumentamos que cuando el proceso estadístico que genera los datos es de cierta forma jerárquica que prevalece en la física y el aprendizaje automático, una red neuronal profunda puede ser más eficiente que una superficial. Formalizamos estas afirmaciones utilizando la teoría de la información y discutimos la relación con los procedimientos del grupo de renormalización. Varios “teoremas de no aplanamiento” muestran cuando estas redes profundas eficientes no pueden ser aproximadas con precisión por otras superficiales sin pérdida de eficiencia, incluso para redes lineales.

No se dicen si es correcto o no …

Las redes neuronales son lo que me gusta llamar “vudú matemático”. Las llamo así porque las ANN pueden aproximar cualquier tipo de función simplemente iterando en una función genérica sin ningún tipo de conocimiento o pensamiento sobre el sistema real.

¿Asique, como trabajan?

un ANN en su núcleo no tiene que funcionar. Es un sistema de cálculo básico basado en neuronas en el cerebro humano. Cada neurona recopila información de las sinapsis en forma de un impulso electroquímico y la combina para enviar una nueva señal. ANN trabaja de la misma manera. Un nodo recopila información de alguna entrada, cada entrada pasa a través de un peso (que representa su contribución particular a la señal general), la combina (a través de la suma) y envía una nueva señal (pasándola a través de algún tipo de función de activación). Al igual que los cerebros tienen muchas neuronas conectadas entre sí, las ANN también tienen muchas neuronas conectadas entre sí. Entonces, lógicamente, los ANN deberían ser análogos al pensamiento de un cerebro humano.

Desafortunadamente hay un problema con ANN’s. Tienen estos pesos. La cuestión es que no sabemos cuáles son estos pesos o cuáles deberían ser antes de que se capacite a la ANN. Sin embargo, lo que sí sabemos es cuál es la entrada al sistema y cuál debería ser la salida. Podemos usar esta información para entrenar al ANN usando una gran cantidad de métodos diferentes (el más común es la propagación inversa). Cada uno de estos métodos es esencialmente un método numérico iterativo que toma cuán equivocado está el sistema y lo ajusta lentamente hasta que es correcto. Piénselo como adivinar pero mucho más complicado que eso.

Para determinar si el sistema es correcto o no, se le aplica algún tipo de métrica. En las cajas de herramientas de Python comunes, he encontrado que esta métrica es un simple contador delta (si la cantidad de cambio en los pesos es pequeña, entonces está hecho). En otras herramientas (MATLAB) se realiza un análisis de regresión estadística para verificar si la diferencia entre el ANN y los datos de la prueba es estadísticamente significativa. Una vez que la métrica dice que el sistema es bueno, el sistema no se actualiza y se convierte en un estimador estático de bucle abierto (recientemente he leído algunos documentos que describen un medio para hacer que ANN se actualice continuamente para que esto pueda cambiar en el futuro).

En resumen, los ANN no son un método mágico para modelar ningún tipo de sistema. Las ANN en sí mismas son el modelo. Modelan el cerebro humano en un esfuerzo por crear un método que contenga los atributos que el cerebro humano tiene en su cálculo (versatilidad y precisión principalmente). Lo increíble de ellos es que funcionan bastante bien en una amplia gama de aplicaciones.

Creo que esto responde a su pregunta (sentí que era un poco amplia) avíseme si necesita alguna aclaración adicional y trataré de ayudarlo.

Apenas puedo decir que entiendo las redes neuronales. Pero cómo se dice si es correcto o no se llama Backpropagation. Esencialmente, lo que sucede durante esa fase es que una función de costo se minimiza, encuentra el gradiente, usando alguna forma de Descenso de degradado, con el gradiente, actualiza los pesos. ¡Enjuague y repita! Espero que esto arroje algo de luz y produzca nuevas preguntas más profundas.

Haga su propia red neuronal en Kindle

Apenas puedo decir que entiendo las redes neuronales. Pero cómo se dice si es correcto o no se llama Backpropagation. Esencialmente, lo que sucede durante esa fase es que una función de costo se minimiza, encuentra el gradiente, usando alguna forma de Descenso de degradado, con el gradiente, actualiza los pesos. ¡Enjuague y repita!

Espero que esto arroje algo de luz y produzca nuevas preguntas más profundas.

Creo que ‘Introducción a la matemática de las redes neuronales’ es un gran libro para esto. Por Jeff Heaton. Fácil de conseguir para Kindle.

Recorro muy explícitamente la red más simple posible: una puerta XOR si recuerdo. Deja todo extremadamente claro.

Las redes más complicadas son básicamente las mismas pero más profundas, más anchas, apiladas, convoluciones, etc. pero la estructura es básicamente la misma.

Durante el entrenamiento, los datos etiquetados son la verdad fundamental que espera al final de cada iteración. Un algoritmo popular, la propagación hacia atrás a menudo se usa al final de cada iteración de entrenamiento, para calcular las derivadas de error con respecto a cada peso. Teniendo esta derivada, podemos ajustar los pesos en consecuencia hacia valores más precisos.

More Interesting

¿Es la inteligencia humana reducible al aprendizaje automático?

¿Cuán inteligente puede ser el Asistente de Google en términos de IA ambiental que no solo podría ayudarnos a vivir mejor nuestras vidas sino también brindarnos compañía?

¿Cómo ayuda LSTM a prevenir el problema de gradiente de fuga (y explosión) en una red neuronal recurrente?

¿Sería útil una IA que detecte noticias falsas?

¿Por qué las grandes empresas tecnológicas están ausentes de ImageNet 2016?

¿Cuál es el algoritmo de inteligencia artificial detrás de la sugerencia de la sección de cada sitio web?

¿Deberían los tweets de Tay hacernos preocuparnos por el estado de la humanidad?

¿Qué es un agente de inteligencia?

¿Dónde podemos usar el aprendizaje automático en banca y finanzas?

¿Hay alguna relación entre las máquinas de Turing, la integridad de Godel y los teoremas de incompletitud?

¿Cuáles serán algunos de los principales trabajos creados en el futuro como resultado de la automatización y la inteligencia artificial?

¿Cuáles son buenos libros para redes neuronales artificiales recurrentes?

¿Qué es el aprendizaje profundo? ¿Por qué es esta una tendencia creciente en el aprendizaje automático? ¿Por qué no usar SVM?

¿Cómo funcionan los bots de Facebook / YouTube?

¿Puede funcionar una economía futura en la que las personas sean propietarias de la fuerza laboral robótica / IA y la alquilen a las grandes corporaciones? Ya sea individualmente o en grupos.