¿Cuáles son los fundamentos teóricos del aprendizaje profundo?

Por supuesto que soy el escéptico perenne, así que me gustaría decir … ¡Ninguna! Pero eso no sería cierto. Si bien el aprendizaje profundo no está tan sólidamente fundado en teoría como las máquinas kernel (basadas en la teoría VC) o algunos otros algoritmos que se basan en la teoría de aprendizaje PAC, tampoco existe en el vacío.

En mi opinión, en última instancia, el aprendizaje profundo se basa en redes neuronales. Entonces, el teorema del aproximador universal sería la primera parte de la teoría. ¡Este teorema establece que puede simular la salida de una red profunda con una red superficial suficientemente masiva (aunque imposible de implementar)!

El segundo aspecto detrás de la teoría de redes neuronales es Backpropagation. Este es el algoritmo clásico utilizado para entrenar redes neuronales que falla en redes neuronales profundas debido a un fenómeno llamado saturación que, según diría, es otro aspecto teórico importante que condujo a la aparición del aprendizaje profundo. Las redes neuronales profundas se entrenan mal con la propagación hacia atrás ya que los pesos en las capas neuronales más profundas no cambian (se saturan) con las iteraciones posteriores de la propagación hacia atrás.

Los científicos computacionales quedaron perplejos por este fenómeno durante un período de tiempo decente y se han hecho varios intentos teóricos y no tan teóricos para comprender esto con grados de progreso limitados pero interesantes.

Ahora, el genio de Geoffrey Hinton y varios otros científicos de la computación (entre 1995 y 2015) fue descubrir que uno podría sortear el problema de la saturación entrenando las redes capa por capa (codificadores automáticos dispersos) o inventando nuevas neuronas (ReLU) o por otros medios Eso es lo que llamamos “aprendizaje profundo” y aunque la base teórica es un poco nebulosa, probablemente requerirá una generación de doctorados en la academia para dilucidar y explorar por completo.

¿Qué es el error numérico?

¿Cuál es el significado del XOR Lemma de Yao?

Puedo tomar la teoría de grafos o la combinatoria el próximo semestre. Me interesa la informática teórica. ¿Cuál sería mejor?

¿Cuál es el problema P versus NP en informática?

¿Cuáles son las diferencias en las consecuencias entre el principio tautológico de elección demostrable en la teoría de tipos y el axioma completo de elección?

¿Cuál es la explicación rigurosa de por qué n / m es el factor de carga en una tabla hash?

Considere el trabajo realizado por Hinton alrededor de 2006 en relación con la capacitación previa sin supervisión. Lanzar redes neuronales profundas como pilas de Máquinas de Boltzmann restringidas coloca este estilo de aprendizaje profundo dentro de los reinos de los modelos gráficos bayesianos. Estos tienen una interpretación generativa que se puede utilizar para simular datos del modelo. En este caso, el aprendizaje profundo tiene una noción muy concreta de “proceso de generación de datos” y “modelo”. Puedes jugar con un modelo generativo para dígitos escritos a mano.

Dejando a un lado ese marco, dependería particularmente de la función de costos. Usando el costo de MSE, estaría tomando alguna entrada [matemática] x [/ matemática] y modelando la media de una variable de respuesta, es decir, [matemática] E [[/ matemática] [matemática] Y] = f (x) [/ matemática ] Para la probabilidad de registro estaría modelando [matemática] p (Y) = f (x) [/ matemática]. La medida en que tales soluciones son buenas es una cuestión para la teoría de la optimización.

En cierto sentido, el “proceso de generación de datos” que aborda el aprendizaje profundo es difícil de detectar porque es muy general. Tome el enfoque ligeramente quisquilloso del modelado tradicional de series de tiempo 1D usando ARIMA (p, d, q), etc., donde podría escribir ecuaciones explícitas. Es sorprendente que para las imágenes en 2D haya un enfoque que, entre otras cosas, pueda modelar con éxito el “proceso de generación de datos” que consiste en “cosas de las que las personas toman fotos y se pegan en Internet”. Al menos en el sentido de modelar la distribución de las etiquetas de clase condicionadas a los datos de entrada.

William M. Brooks

Una prueba fantástica en el aprendizaje automático es el avance de algoritmos computacionales que igualan o superan a las personas en los mandados de derivación perceptiva que están confusos por la variedad de perturbaciones. Por ejemplo, el reconocimiento visual del artículo incluye la posición oscura del ítem, la introducción y la escala en el reconocimiento del artículo, mientras que el reconocimiento del discurso incluye la oscura articulación de voz, tono y velocidad. Últimamente, se ha desarrollado otro tipo de algoritmos de aprendizaje profundo para asignaciones de deducciones de alta molestia que rutinariamente producen sistemas de reconocimiento de diseño con capacidades cercanas o superhumanas. Los instintos proliferan, sin embargo, un sistema de sonido para la comprensión, la ruptura y la combinación de estructuras de aprendizaje profundo se ha mantenido complicado. Respondemos a esta pregunta construyendo otra estructura probabilística para el aprendizaje profundo en vista del Modelo de renderizado profundo: un modelo probabilístico generativo que atrapa inequívocamente una variedad de molestias inactivas. Al desenrollar el modelo generativo a uno discriminatorio, podemos recuperar dos de los actuales sistemas de aprendizaje profundo, redes neuronales convolucionales profundas y bosques de elección irregular, brindando experiencias sobre sus triunfos e insuficiencias, y además un curso de principios para su cambio.

William M. Brooks

Este es un buen lugar para comenzar:

Motivaciones teóricas para el aprendizaje profundo

William M. Brooks

More Interesting

¿Cuánta programación necesito saber si quería ingresar a la criptografía?

¿Cuáles son algunos tipos interesantes de algoritmos / métodos de licitación?

¿Qué es una mónada?

¿Cómo sé cuándo usar números de coma flotante de precisión simple o doble?

¿Qué temas o campos en el aprendizaje automático o la minería de datos requieren matemáticas de alto nivel?

¿Por qué una función está tan definida?

Cómo formular un programa entero donde todos estén representados en un horario