¿Por qué Geoffrey Hinton sospecha de la propagación hacia atrás y quiere que la IA comience de nuevo?

Comencemos diciendo que las anteriores son excelentes respuestas. Quería agregar otra perspectiva sutil y diferente, creo que algunas personas se perdieron.

Hinton tiene una conferencia imperdible llamada “¿Qué hay de malo en las redes neuronales convolucionales?”. También creo que el esfuerzo más reciente de Hinton en ‘Redes neuronales escandalosamente grandes’ también ayuda a llevar mi punto a casa …

Mi sensación, que espero que también sea de Hinton, es que ha creado un monstruo Frankensteins de ese tipo.

Verá, las redes neuronales profundas son criaturas enormes y voluminosas e ineficientes que le permiten resolver eficazmente un problema de aprendizaje al obtener grandes cantidades de datos y una súper computadora. Actualmente intercambian eficiencia por fuerza bruta casi siempre. Las redes neuronales convolucionales son un excelente ejemplo porque no tienen una noción estándar de marco de referencia y no son invariables a los cambios de rotación y escala. La solución goto de hoy no es hacerlos invariables sino hacerlos ‘tolerantes’: usar grandes cantidades de datos y una gran capacidad de modelo.

La forma de Frankensteins también tiene sus problemas:

  • Algunos problemas de hoy simplemente están fuera del alcance de la mayoría de los investigadores ocasionales porque carecen de hardware adecuado. Eche un vistazo al lento ritmo de aprendizaje profundo que el video ha hecho hasta hace poco.
  • Esta misma ineficiencia es lo que hace que las redes profundas sean menos útiles para problemas de ‘datos pequeños’.

Si eres Google y obtienes un conjunto de datos etiquetado de 100 millones y una supercomputadora 10 Petaflop está a tu alcance, eres dorado. El problema es que este es el camino del ingeniero y no del científico. Hinton cree que deberíamos invertir en hacer que las redes neuronales sean más eficientes. Aún necesitaría datos etiquetados, pero mucho menos.

La duda es la clave en la exploración científica. La retropropagación es excelente debido a varias razones: matemática elegante, función objetivo diferenciable, parámetros de modelo fáciles de actualizar, etc. Sin embargo, el verdadero problema aquí (como lo mencionaron otros) es ¿qué problemas realmente queremos resolver?

La mayoría de los avances recientes en el aprendizaje profundo en estos días se informan en el dominio de aprendizaje supervisado. Esta es una gran noticia. Sin embargo, el mundo real no está puramente ‘supervisado’ per se. Otro problema ampliamente conocido con modelos profundos que usan propagación hacia atrás es la gran cantidad de datos etiquetados que requiere para la capacitación. Desde mi experiencia personal, puedo sugerir que etiquetar los datos es un trabajo arduo y laborioso: no es un desafío científico ni intelectualmente interesante, solo requiere mucha mano de obra. Un grupo de investigación (que sé) contrató a un par de pasantes cuyo trabajo consistía en anotar los rostros humanos durante todo el verano, bastante aburrido, ¿no? ¿No sería mejor si la tarea de etiquetado de datos se puede automatizar o si la necesidad de anotar los datos se elimina por completo? ¡Aunque me gustaría! La mayoría de las veces, descargamos datos ya etiquetados y probamos nuestros modelos en ellos sin comprender el esfuerzo invertido en la preparación de esos conjuntos de datos.

Desafortunadamente, los problemas del mundo real que nos rodean son en su mayoría ‘no supervisados’, o mejor dicho, una mezcla de no supervisados ​​(principales) y supervisados ​​(menores). El aprendizaje no supervisado obtuvo tracción en 2012, cuando los investigadores de Google y Stanford utilizaron un sistema de aprendizaje profundo que fue capaz de identificar a los gatos en imágenes digitales sin ninguna capacitación previa. Eso fue sorprendente, pero eso fue todo, seguido de algunas ideas interesantes, como:

  • ¿Deberíamos repensar el aprendizaje no supervisado?
  • ¿Cuál es el futuro del aprendizaje profundo sin supervisión?
  • Navegando por el paisaje de aprendizaje no supervisado – Intuition Machine – Medium
  • El futuro de la inteligencia artificial

donde diferentes investigadores presentan diferentes opiniones sobre el aprendizaje no supervisado. Sin embargo, decir que el aprendizaje no supervisado no tiene futuro porque es difícil no cambia el hecho de que representa problemas reales con desafíos serios. En ese sentido, puede ser que la propagación hacia atrás no sea suficiente y un cambio de paradigma es inminente para allanar el camino para el próximo avance.

Otras lecturas

La respuesta de Shehroz Khan a ¿Cuál es la diferencia entre los algoritmos de aprendizaje supervisados ​​y no supervisados?

Porque a pesar de todo el progreso, todavía no hay evidencia real de que el cerebro realice una propagación hacia atrás, incluso teniendo en cuenta algunas fanfarrias hace un par de años en torno a un mecanismo que el propio Hinton propuso (por ejemplo, vea el seguimiento de Bengio, https: // arxiv. org / pdf / 1502.04156 …).

El comentario específico de Hinton en el enlace que figura con la pregunta estaba aún en un nivel más profundo; él está señalando que tiene que haber otra forma de aprender que forzando soluciones para usar datos supervisados. Se pregunta si los métodos que ha sido pionero y defensor a lo largo de los años lograrán el objetivo original de las redes neuronales, específicamente, las máquinas de aprendizaje autónomas. A pesar del marcado progreso de los últimos años, todavía no hemos resuelto la cuestión de cómo el cerebro humano se autoorganiza en ausencia de retroalimentación externa fija utilizando datos notablemente escasos.

Una de las técnicas principales para el aprendizaje no supervisado es convertir un problema no supervisado en uno supervisado, lo que nos permite aplicar la propagación inversa. Esta técnica se utiliza, por ejemplo, en GAN, codificadores automáticos, modelos de lenguaje e incrustaciones de palabras. Incluso se puede demostrar que la maximización de las expectativas para los modelos generativos (un competidor potencial para la propagación inversa) en muchos casos se reduce a resolver un problema de optimización que aún se aborda mejor a través de la propagación inversa (auto-supervisión). En otras palabras, gran parte de lo que se promociona como aprendizaje no supervisado todavía se basa en la propagación hacia atrás y, en consecuencia, requiere largos tiempos de entrenamiento.

La expresión actual de escepticismo de Hinton no está necesariamente justificada. Es posible que la supervisión propia sea suficiente para hacer el trabajo, básicamente durante una fase de aprendizaje de “sueño”. Pero aunque podríamos hacer que funcione en una máquina, sigue siendo relevante que no exista una base neurológica conocida como el aprendizaje en humanos.

Entonces, ¿cómo podría ser otro enfoque? Tal vez volveríamos a visitar algunos elementos del pasado, como el aprendizaje Hopfield o las redes Kohonen. Quizás sea posible diseñar un modelo gráfico para el que EM produzca una actualización de forma cerrada. Quizás los humanos tienen varios atajos estructurales incorporados para tareas como la visión, el reconocimiento facial o el lenguaje (ver, por ejemplo, las afirmaciones de Pinker en el Instinto del lenguaje , siguiendo a Chomsky). Si ese es el caso, las arquitecturas cuidadosamente estructuradas podrían funcionar mejor. En el mismo sentido, tal vez falten componentes neuronales que, si se agregan a nuestras arquitecturas, podrían acelerar el aprendizaje sustancialmente. Para ver un ejemplo, consulte https://arxiv.org/pdf/1703.01988 … para una implementación de k-NN como modelo de memoria episódica; La idea de un conjunto indexado de objetos activos se corresponde bien con fenómenos psicológicos como la disponibilidad heurística o anclaje.

La conclusión es que no hemos terminado lo que comenzamos, y el camino a seguir probablemente implica repensar algunos supuestos. Creo que a eso se refería Hinton.

No creo que Hinton vaya lo suficientemente lejos. Backprop no es el problema fundamental, son las estructuras de red. Las redes neuronales no deben limitarse a una configuración de avance *. Backprop solo puede entrenar redes de avance y seguirá siendo una de las mejores soluciones siempre que las redes sean de avance.

Las respuestas de otras personas han indicado algunos de los problemas con backprop, que en realidad son problemas con las redes de alimentación en general:

  1. No hay evidencia real de que el cerebro realice propagación hacia atrás (Alan Lockett). Extendiendo esto aún más, no hay evidencia de que el cerebro esté enviando señales de error hacia atrás durante el aprendizaje. Hay muchas pruebas de que las señales de error se envían hacia atrás durante el reconocimiento, que las redes de avance no pueden enviar … porque, bueno … son de avance. No tienen conexiones hacia atrás.
  2. Los modelos de aprendizaje profundo son un desperdicio increíble de datos de entrenamiento, reciclando el mismo ejemplo una y otra vez. Si pasa una luz roja y un policía de tránsito lo detiene, no necesita repetir esa experiencia 10,000 veces para saber que es algo malo (Sridhar Mahadevan). El entrenamiento derrochador se debe a que la frecuencia de ocurrencia y la información relevante del conjunto de datos deben codificarse en los pesos de avance para que funcionen los métodos de avance. Por lo tanto, los conjuntos de entrenamiento no solo deben capturar todo lo posible, sino también equilibrar las frecuencias que ocurren. Claramente, el cerebro no está limitado de esta manera.
  3. El cerebro puede explicar lo que espera de sus redes de reconocimiento para la planificación y la supervivencia. Sin embargo, las redes feedforward son una caja negra.
  4. En el cerebro hay tantas conexiones de retroalimentación como conexiones de retroalimentación (por ejemplo, Sridhar Mahadevan). Eso justo allí refuerza el punto de que otras estructuras que no sean feedforward deben ser consideradas. ¿Cómo pueden estas conexiones no tener un papel importante durante el reconocimiento?
  5. Cada neurona puede conectarse a decenas de miles de otras neuronas. Para todas las computadoras avanzadas disponibles, las neuronas artificiales todavía tienen que tener un tamaño limitado porque grava demasiado los métodos de aprendizaje de pago.
  6. Podría seguir y seguir sobre fenómenos cognitivos (p. Ej., Dificultad con similitud) y neurales (p. Ej., Estallido) que no se observan inherentemente con los métodos de avance, pero detengámonos aquí.

Veamos la alternativa que nos mira a la cara: reconocimiento mediante redes de retroalimentación de retroalimentación. Le animo a que vea este video para apreciar más profundamente por qué los problemas de retroalimentación causan los problemas que hacen y cómo las conexiones de retroalimentación de retroalimentación utilizadas durante el reconocimiento abordan estos problemas.

Aprecio la capacidad de Geoffrey Hinton de criticar enfoques muy populares (que incluyen el suyo) que abren las mentes de los demás. Esa es una cualidad muy rara que da pasos agigantados para realizar nuevas investigaciones.

* Nota final: los informáticos a menudo usan nombres como redes recurrentes. No se confunda, estas son en realidad redes de avance. Pueden retroceder en el tiempo y entrenarse utilizando un algoritmo de backprop. Una regla general es que todo lo que puede ser entrenado por backprop es feedforward.

Geoffrey Hinton sospecha del método de propagación hacia atrás, probablemente porque:

  • Al ser un científico e investigador, no se enfrenta al status quo, y generalmente está buscando nuevas ciencias.
  • Al estar más centrados en los datos y menos centrados en la lógica, los métodos existentes de máquina / aprendizaje profundo necesitan algunas mejoras.
  • Al recibir el nombre de las neuronas, los métodos de redes neuronales a menudo son criticados por no ser una “verdadera representación” de las actividades cerebrales. (¿Imagina lo que hubiera pasado si los aviones fueran nombrados birdanes y los submarinos como fishanes?)

Algunas respuestas aquí establecen que el aprendizaje supervisado no juega un papel importante en el proceso de aprendizaje de un niño. Tiendo a estar en desacuerdo. Un niño aprende a clasificar diferentes objetos porque la madre y los simpatizantes del niño etiquetan diferentes objetos para que el niño los entienda (en etapas). También es probable que un niño nonato reúna algunas etiquetas a través de interacciones internas madre-hijo.

He estado pensando que técnicas como la lógica difusa, la diferenciación / integración fraccional y la inducción matemática basada en números complejos pueden ayudarnos a ampliar el aprendizaje profundo.

Soy nuevo en el increíble campo del aprendizaje automático y estoy interesado en aprender.

Aprendí redes neuronales de Geoff Hinton a mediados de la década de 1980 cuando enseñaba en CMU, y algunas veces caminamos juntos al campus desde Squirrel Hill (donde ambos vivíamos). No me sorprende que quiera repensar la propagación. Todos los que hemos estado en IA durante tres o cuatro décadas no estamos contentos con la propagación hacia atrás o incluso el aprendizaje profundo, por la sencilla razón de que no captura la forma en que funciona el cerebro.

  1. La propagación hacia atrás a través de redes neuronales profundas tiene tanto que ver con la forma en que el cerebro aprende como los aviones modernos tienen que ver con la forma en que vuelan las aves. Tanto los aviones como los pájaros vuelan, pero lo hacen utilizando principios completamente diferentes. Los aviones hacen cosas que las aves no pueden (vuelan a 500 millas por hora con muchos pasajeros), las aves hacen cosas que los aviones no pueden (despegan al instante).
  2. Las neuronas reales en el cerebro funcionan en gran medida por trenes de espigas. Cada neurona está enviando mensajes “da dit da” como el código Morse a las neuronas vecinas. Las funciones de transferencia son completamente diferentes de las RLU o sigmoides. Las neuronas reales son altamente sofisticadas. Tomé un curso de semestre completo donde estudiamos el funcionamiento de una sola neurona (el modelo Hodgkin Huxley, que le valió a sus inventores un premio Nobel). Las neuronas reales son enormemente complejas, y gran parte de esa complejidad no se refleja en los modelos altamente simplificados en el aprendizaje profundo. Hay tantas conexiones de retroalimentación como conexiones de avance. Cada neurona puede conectarse a decenas de miles de otras neuronas.
  3. El primer libro sobre aprendizaje profundo salió cuando era un estudiante graduado a mediados de la década de 1980. Se llamaba “Procesamiento distribuido en paralelo” y tenía dos volúmenes. El volumen I tenía el famoso artículo que presentaba la propagación hacia atrás (por cierto, no es sorprendente que muchas personas hayan demostrado que Werbos y muchos otros inventaron la propagación hacia atrás mucho antes, por lo que esta idea se remonta al menos una década o más antes de mediados de la década de 1980). El Volumen II tenía varios artículos de biólogos famosos, uno de ellos Francis Crick (posiblemente el mejor biólogo del siglo XX). Crick era profundamente escéptico de los modelos de redes neuronales. Hizo la analogía con Aristóteles, quien simplemente declaró que los hombres tienen más dientes que las mujeres (por supuesto, si el Sr. Aristóteles simplemente hubiera mirado dentro de la boca de la Sra. Aristóteles, habría descubierto que ella tenía la misma cantidad de dientes y obviamente estaba equivocado ) Del mismo modo, Crick sintió que los modeladores de redes neuronales simplemente ignoraban en gran medida la forma en que funcionaba el cerebro y la forma en que funcionaban las neuronas reales.
  4. Los modelos de aprendizaje profundo son un desperdicio increíble de datos de entrenamiento, reciclando el mismo ejemplo una y otra vez. El aprendizaje humano trata los datos como una cantidad mucho más preciosa. Las experiencias son valiosas. Si pasa una luz roja y un policía de tránsito lo detiene, no necesita repetir esa experiencia 10,000 veces para saber que es algo malo. Si nunca ha visto el símbolo del euro, ¿cuántas veces necesita verlo para aprenderlo? 5 o 50,000? La solución proporcionada por la retropropagación o sus infinitas variantes es completamente incorrecta y no puede ser la forma en que funciona el cerebro. Es un marcador de posición hasta que encontremos algo mejor.
  5. El aprendizaje no supervisado y el aprendizaje de refuerzo deben ser los modos principales de aprendizaje, porque las etiquetas significan poco para un niño que crece. Sin el lenguaje y el significado que tienen los adultos, los niños, sin embargo, son máquinas de aprendizaje notables y exhiben una capacidad notable para descubrir estructuras en el mundo. Esta capacidad no puede deberse al aprendizaje supervisado, porque un niño no comprende las etiquetas que usan los adultos (¿qué niño de 3 años puede reconocer categorías locas como “Ibex” en tareas de memorización artificial de memoria como Imagenet?). Para un adulto, una silla significa un objeto para sentarse. Para un niño, significa mucho más (un lugar para esconderse debajo, una forma de pararse más alto para alcanzar objetos más altos, y cientos de otros usos. Los niños aprenden posibilidades, no etiquetas. La IA tiene mucho que aprender sobre el aprendizaje humano, y un poco de tiempo dedicado a comprender cómo los humanos realmente aprenden pagará muchos dividendos.

Es fascinante que él, de todas las personas, se atreva a cuestionar un aparente avance que él y otros fueron pioneros. Pero la clave es que no está cuestionando los avances en la naturaleza y estructura de la computación neural.

Ahora entendemos claramente que el cerebro funciona a través de multitud de conexiones entre las neuronas y cómo se pueden entrenar o configurar tales redes para realizar y resolver tareas y problemas sorprendentes. Brain no funciona como una máquina de Turing o una computadora convencional de Von Neumann con registros y memoria. Estas realizaciones representan el tremendo progreso de nuestra comprensión de cómo funciona realmente la inteligencia humana.

Por lo tanto, su problema no es la estructura ni la naturaleza del cálculo neuronal, sino el método de aprendizaje de cómo se configuran todos estos pesos. Es el aprendizaje supervisado laborioso y dolorosamente lento con sus enormes conjuntos de datos y procedimientos digitales enormemente ineficientes para ajustes de pesos con los que tiene problemas.

Pero hay una comprensión que la gente está perdiendo en esta discusión, que es que los métodos de retropropagación son simulaciones digitales de procesos de optimización para ajustar pesos. Carver Mead demostró hace años cómo tales cálculos de resolución de optimización pueden resolverse directamente, mediante cálculos analógicos en sus trabajos, como la retina de silicio. En resumen, ¿qué tal hacer cálculos analógicos directos en lugar de simulaciones digitales de los mismos?

Para las personas con algunos antecedentes de EE allí, puede tomar un circuito biestable biestable elemental y aplicarle una entrada arbitraria y se resolverá instantáneamente en uno de sus estados. Todo funciona debido a las leyes electromagnéticas que rigen los comportamientos de los circuitos. Así funcionaba su retina de silicio. Por otro lado, uno puede tomar un simulador de circuito como Spice, para simular transiciones detalladas de voltaje y corriente y eso tomará mucho más tiempo, terminando con el mismo resultado.

Entonces, es el método de entrenamiento de simulación digital de procesos analógicos con el que Geoffrey Hinton tiene problemas, de la misma manera que Carver Mead tuvo décadas atrás.

En cuanto a los tamaños de los conjuntos de datos, esa es una pregunta muy interesante. Ciertamente, uno puede creer que los bebés humanos usan mucha menos información para comenzar a reconocer los conceptos de visión que los rodean. Esos, por cierto, no son realmente rasgos de inteligencia profunda, ya que los animales pueden hacer lo mismo.

Qué tal un ejemplo diferente, diga cuánto tiempo le toma a alguien muy inteligente comenzar a comprender sistemas complejos como los mercados financieros y sus comportamientos. Lleva años y años, con multitud de entradas y callejones equivocados. Convertirse en un exitoso macroinversionista, mega comerciante o administrador de fondos de cobertura de celebridades es un animal muy diferente al reconocimiento de gatos y perros en imágenes y videos.

Creo que está claro que los conjuntos de datos necesarios para lograrlos son mucho más grandes en términos de tiempo y longevidad que para tareas simples que los niños pueden entrenarse rápidamente para hacer. No solo son más grandes, sino que también son no deterministas porque solo unos pocos de los más brillantes y audaces pueden reconocerlos a un nivel lo suficientemente profundo como para crear avances. Ciertamente, diría que los años que pasaron los genios aprendiendo sobre el mundo antes de llegar a sus avances constituyen un aprendizaje supervisado.

En resumen, el problema central no es el tamaño de los conjuntos de datos. Es la naturaleza de los cálculos de optimización, actualmente simulados digitalmente, lo que parece molestar a Geoffrey Hinton y estoy de acuerdo con él allí.

Una de las principales ventajas de la propagación hacia atrás es que requiere una matemática bastante simple (calcular los gradientes de los pesos usando la regla de la cadena): esto los lleva a la elección para optimizar las redes neuronales, a pesar de que otras técnicas de optimización son algoritmos genéticos [1 ] existe; ha habido enfoques para combinar algoritmos genéticos con retropropagación, de modo que uno explota el enfoque de búsqueda global de algoritmos genéticos y el enfoque de búsqueda local de retropropagación [2]

El primer punto importante que hizo en la entrevista fue que el uso del aprendizaje no supervisado podría eliminar la propagación hacia atrás, sin embargo, como señaló Alan Lockett, estos problemas a menudo se transforman en problemas de aprendizaje supervisado, que a menudo utilizan la propagación hacia atrás para optimizar. Un ejemplo de esto es [3], donde realizan un aprendizaje de representación sin supervisión, al permitir que la red genere videos realistas utilizando una GAN [4]. Esta es esencialmente una tarea no supervisada, pero se transforma en una tarea supervisada mediante el uso de videos reales como puntos de referencia para los videos falsos y la capacitación de la red para generar los videos más realistas posibles.

Sin embargo, la idea del aprendizaje de representación sin supervisión es bastante poderosa; Al usarlo, una red puede aprender una buena representación de los datos subyacentes y esto puede mejorar el rendimiento en las tareas de reconocimiento (como se menciona también en [3]). Además, dado que la adquisición de datos etiquetados puede ser bastante costosa, esta técnica puede utilizar datos no etiquetados (cuya adquisición es bastante económica) para obtener una buena representación y, por ello, no necesita tantos datos etiquetados para la tarea de reconocimiento supervisada.

Como ya insinué el problema de los datos, vamos a expandirnos más en esta área. Como dijo Hinton, claramente no necesitamos todos los datos etiquetados; Una forma de resolver el problema de los datos es utilizar el aprendizaje de representación no supervisado como ya se ha discutido. Si comparamos las redes neuronales tradicionales para tareas de reconocimiento con un cerebro humano, una diferencia es bastante evidente: las redes neuronales necesitan muchos datos para realizar la tarea de reconocimiento, mientras que el humano puede reconocer objetos después de haber visto pocas instancias de un objeto antes. (piénselo: ¿necesita haber visto 10000 imágenes de un automóvil para poder reconocer un automóvil?). Una de las razones por las cuales los humanos son tan buenos en esto es que pueden usar el conocimiento previamente adquirido para aprender nuevas clases de objetos, lo que implica que hay algún tipo de transferencia de conocimiento en el sujeto humano. One Shot Learning [5] intenta hacer uso de las transferencias de conocimiento para imitar las capacidades de aprendizaje humano. Una de sus aplicaciones es [6], que utiliza redes neuronales aumentadas de memoria con aprendizaje de una sola vez, que puede asimilar rápidamente nuevos datos.

En conclusión, Hinton tiene razón al señalar que la propagación hacia atrás clásica tiende a necesitar muchos datos, sin embargo, no estoy necesariamente de acuerdo con él en su postura de deshacerse de la propagación hacia atrás utilizando un aprendizaje no supervisado; por ahora, las tareas no supervisadas a menudo se transforman en tareas supervisadas, debido a la eficiencia de la propagación hacia atrás

Notas al pie

[1] Algoritmo genético – Wikipedia

[2] G-Prop-III: Optimización global de perceptrones multicapa utilizando un algoritmo evolutivo

[3] http://carlvondrick.com/tinyvide

[4] Red de confrontación generativa – Wikipedia

[5] Aprendizaje único – Wikipedia

[6] [1605.06065] Aprendizaje de una sola vez con redes neuronales con memoria aumentada

Es sorprendente ver la publicidad de los medios en torno a todo lo que dice Geoffrey Hinton.

De hecho, hace solo un año, estaba dando vueltas afirmando que el cerebro probablemente respalda:

Creo que tendremos que esperar su último artículo, que se afirma que propone una arquitectura de red neuronal y un algoritmo de aprendizaje completamente nuevos, y que se publicará en NIPS 2017.

Pero tenga en cuenta que docenas, si no cientos de arquitecturas de redes neuronales han sido propuestas en el pasado, algunas por el propio Hinton. No voy a contener la respiración para que todas las respuestas salgan pronto.

Sospecho que la propagación hacia atrás está bien. Hay documentos que demuestran un aprendizaje de representación decente sin la necesidad de etiquetas. Por ejemplo, puedo ver humanos haciendo algo como [0,1].

Lo que necesitamos para avanzar son mejores regularizadores de nivel superior, por ejemplo, aquellos que se pueden obtener del modelado probabilístico o incluso del razonamiento simbólico no difuso explícito.

[0] https://www.cv-foundation.org/op

[1] https://www.cv-foundation.org/op

Según Hinton, los humanos y los animales aprenden la mayoría de sus cosas de manera no supervisada. Los datos etiquetados son caros de adquirir y las redes neuronales son muy hambrientas de datos y etiquetas cuando dependen de la propagación hacia atrás para aprender. Además, las etiquetas no tienen tanta información como los datos en sí. Las imágenes, el audio, el video, el texto, etc. son entradas ricamente estructuradas que nuestros sentidos están sintonizados para analizar incluso sin una amplia supervisión. Aquí está la cita de Hinton que lo explica mejor:

Cuando estamos aprendiendo a ver, nadie nos dice cuáles son las respuestas correctas, solo miramos. De vez en cuando, tu madre dice “eso es un perro”, pero esa es muy poca información. Tendría suerte si obtuviera algunos bits de información, incluso un bit por segundo, de esa manera. El sistema visual del cerebro tiene 10 ^ 14 conexiones neuronales. Y solo vives por 10 ^ 9 segundos. Entonces no sirve de nada aprender un bit por segundo. Necesita más como 10 ^ 5 bits por segundo. Y solo hay un lugar donde puede obtener tanta información: desde la entrada en sí. – Geoffrey Hinton, 1996 [1].

[1] Gorder, PF (2006, noviembre / diciembre). Las redes neuronales muestran una nueva promesa para la visión artificial. Computación en ciencia e ingeniería 8 (6), 4–8.

La participación de Hinton en el proyecto Google Brain lo ha llevado a interactuar con los fundadores de Google DeepMind como Shane Legg, quien realizó su trabajo de tesis sobre una teoría descendente de la inteligencia general artificial bajo Marcus Hutter, cuyo AIXI es la descripción matemática más rigurosa de la inteligencia universal. .

La medida universal de inteligencia resultante de Shane Legg, basada en la teoría de información algorítmica, muestra que la función objetiva más rigurosa para el aprendizaje no supervisado es aproximar el programa Kolmogorov de datos sensoriales, es decir, minimizar el tamaño del programa que genera los datos. disponible para el agente inteligente. Como la prueba de que uno ha alcanzado el tamaño mínimo (la complejidad de Kolmogorov) es indiscutible, las heurísticas son necesarias. Esto lleva a la meta ampliamente aceptada de descubrir la heurística evolutiva natural como se encarna en la escalabilidad aparente de la neocorteza. La diferencia entre el enfoque de arriba hacia abajo para tal modelado neocortical, y otras motivaciones para el modelado neocortical, es que con el enfoque de arriba hacia abajo, uno tiene un marco riguroso dentro del cual evaluar el grado en que varios modelos de la neocorteza se han aproximado universalmente. Criterios de aprendizaje no supervisados ​​inherentes a la inteligencia: compresión sin pérdidas. Este es un enfoque mucho más disciplinado de la inteligencia general artificial que las búsquedas menos dirigidas de técnicas, como las técnicas de Hinton (máquinas de Boltzmann restringidas, etc.) que “funcionan” para diversas tareas especializadas, pero que, según admitió Hinton, tienen aún no hizo mella en problemas tan simples como entender la oración: “El trofeo no cabía en la maleta porque era demasiado pequeño”.

No sé acerca de los puntos de vista de Hinton sobre el asunto, pero él es una especie de padre de las redes neuronales, por lo que seguramente tendrá algo de terreno.

Creo que no solo bprop, sino que la mayoría de los otros algoritmos no están cumpliendo el verdadero propósito para el cual se construyeron las redes neuronales. El verdadero objetivo de Neural Nets es imitar el cerebro humano.

Lo que tengamos hasta ahora, funciona muy bien, pero responde a este problema fundamental. La respuesta es un NO directo.

Míralo de esta manera … Los algoritmos en los que confiamos en ML / NN resuelven los problemas en blanco y negro. Esta es la esencia de las matemáticas en la que se basan estos algoritmos. Las matemáticas simplemente responden sí o no. Sin embargo, cuando tratamos con un cerebro humano, vemos muchos tonos de gris, es decir, para cualquier problema dado, el cerebro humano no dará una respuesta específica de sí o no, pero habrá mucho para ello.

Considere un conductor que tiene que detener su vehículo antes de toparse con un charco. Hace algunos cálculos y aplica los descansos y, por lo general, detiene el automóvil cómodamente antes de toparse con el charco, pero nunca resolvió un problema matemático en su cerebro ni calculó su distancia de frenado, etc. Sin embargo, a pesar de todo esto él puede detenerse cómodamente ante el charco.

Ahora considere un robot ML resolviendo el mismo problema de detenerse antes del charco. Seguramente realizará algunos cálculos matemáticos, obtendrá la distancia de frenado exacta, etc.

ML algos corren como el robot. Son muy precisos en sus cálculos y, tal vez, esa es la razón precisa por la que nunca pueden igualar el cerebro humano.

Aquí está mi respuesta (para mi discusión original, vaya a esta discusión de linkedin)

Estoy de acuerdo con el problema de Geoffrey Hinton con #AI ​​y #DeepLearning

La propagación hacia atrás e incluso el uso de métodos / algoritmos sofisticados para simular el disparo de las neuronas son buenos pasos en esta dirección, pero no lo suficiente como para lograr el próximo avance.

De hecho, ¡podemos estar en una PISTA TOTALMENTE EQUIVOCADA!

Todavía creo que nos falta un gran aspecto de por qué o cómo se activa una neurona biológica. Podríamos tomar lecciones muy valiosas de la mecánica cuántica.

La clave está en la granularidad, la relación y la indeterminación. Estamos haciendo “ok” cuando se trata de granularidad y relación, pero estamos siendo terriblemente ciegos cuando se trata de indeterminación.

La indeterminación dice que el futuro NO es y NO PUEDE ser determinado inequívocamente por el pasado. Las regularidades, por rígidas y “probadas en el tiempo”, son meramente estadísticas.

Mi búsqueda personal es comprender y desarrollar aún más la mente y la teoría del pensamiento que sigue los principios de la mecánica cuántica bastante bien.

Y conociendo granularidad, relacionalidad e indeterminación; nuestra mente calcula en dimensiones finitas, transfinitas y superfinitas para llegar a “decisiones”. Estas decisiones no son más que el resultado de pasar variables que “fluctúan continuamente”.

Nuestro enfoque debe ser, en cambio, mejorar la propagación hacia adelante de la decisión y sus trayectorias finitas, transfinitas y superfinitas.

Piense en esto a nivel atómico: cuando un electrón viaja desde una ruta A a B, atraviesa como si fuera a través de todas las trayectorias posibles para llegar al destino B para emitir / realizar la tarea. Del mismo modo, la teoría de la mente / pensamiento conduce estos experimentos y llega a la “decisión” de una manera muy rentable.

Realmente creo que aquí es donde radica el avance y me encantaría abrir una discusión a otros y aprender más

La fuente real de conocimiento proviene de los sensores, es decir, muestrear el entorno en el que vive su “cabeza”. La mayoría de los seres vivos no etiquetan sus resultados con “gato”, verde “o incluso” dos “: el lenguaje se construye sobre un sistema completamente viable en el que las respuestas primarias a las muestras no son etiquetas sino acciones (los sistemas de IA en tiempo real están orientados al control). Por lo tanto, la clasificación (que es el resultado general de estas técnicas informáticas) necesita generar una capa de respuestas que devuelvan acciones viables o no viables, que luego son retroalimentación del entorno como “no amenazante”. Este es un aprendizaje general “no supervisado” (se supervisa en el sentido hebbiano de ser normal (es decir, seguro). Esto conduce a interacciones animales integrales con el medio ambiente que no están basadas en el pensamiento, pero establecen una base de respuestas a los aportes. Este es un sistema autónomo que tiene un bajo nivel de inteligencia básica, ya que sintoniza el sistema (animal) con su entorno y esto corresponde a una arquitectura de control (retroalimentación de un entorno compatible). Esto puede considerarse como un tipo de circuito cerrado controle si el sistema y el entorno se consideran componentes en un sistema conjunto y de alguna manera se están igualando.

Esto no se parece en nada a las soluciones informáticas, ya que los comentarios provienen de un modelo que se supone / garantiza que es coherente y completo. Algo a lo que ningún sistema de modelo de red neuronal puede aspirar.

Y es por eso que la IA necesita comenzar de nuevo … Necesita una fuente de información completa y consistente para generar conocimiento.

Es bueno escucharlo. Tenía la esperanza de que una información privilegiada nos recordara los trucos del sombrero involucrados. Marvin Minsky no perdió su visión crítica, que yo sepa.

Recordatorio: no hemos comenzado a abordar cuestiones de cuasi-empirismo que se aplican aquí, así como a los puntos de vista cosmológicos.

En resumen, lo que vemos con estos métodos es un dominio excesivo y excesivo que presenta resultados obtenidos debido a la probabilidad de que la convergencia de la tendencia central sea bastante fuerte y parece querer aplastar el enfoque científico mediante la aplicación de un tiempo inmensamente costoso , energía, dinero) sin el debido respeto a nuestra necesidad de explicación.

Acababa de leer la respuesta de Scott E. Fahlman en la que señalaba muchos problemas abiertos cuando vi esta pregunta.

Felicitaciones a Geoffrey por hablar.

Supongo que G.Hinton ve los problemas que se acercan rápidamente con la IA. Para que podamos replicar las increíbles habilidades de nuestros cerebros humanos, primero necesitamos una comprensión básica de cómo funciona. Si la industria de la IA tiene la intención de reproducir algún día un cerebro humano artificial, los neurocientíficos deben dar algunos saltos gigantes muy pronto.

Supongo que la inteligencia artificial eventualmente seguirá un camino diferente al de la biología humana, pero esto podría presentar un problema para la IA. ¿Podría el cerebro humano ser la máquina pináculo de la inteligencia? Si es así, la IA necesita encontrar enfoques alternativos hasta que comprendamos los conceptos básicos.

Es un hecho increíble que todavía no comprendamos completamente los conceptos básicos de nuestro cerebro humano. Supongo que podría llamarse arrogante suponer que podemos superar el cerebro humano a través de la IA cuando no entendemos el cerebro humano.

La conciencia es la clave. Una vez que desbloqueamos los secretos de la conciencia, daremos autoconciencia a las máquinas, pero este secreto evasivo podría abrir la caja de Pandora.

Todavía no sabemos con certeza real si nuestros pensamientos conscientes se crean dentro de nuestra cabeza o si hay una fuente externa que muchas culturas antiguas creían. Tenemos la tecnología para ver los efectos energéticos en el cerebro cuando alguien está pensando y esto nos ha permitido distinguir las diferentes características del cerebro. Sin embargo, ¿estamos viendo que nuestro cerebro produce pensamientos o simplemente estamos viendo que nuestro cerebro reacciona a los pensamientos? Esta es una gran pregunta y una que eventualmente revelará los secretos de la conciencia.

Personalmente, creo que mi conciencia y tu conciencia son lo mismo de la misma fuente externa. Me imagino que nuestros cuerpos filtran esta información y la personalizan para brindarnos a cada uno nuestra propia experiencia. Creo que el cerebro humano guarda los recuerdos de nuestras experiencias y aprendizajes personales. Cada recuerdo es solo una emoción que se almacenó y una emoción almacenada puede contener los datos de cualquiera de nuestros sentidos para referencia futura. Esto personaliza la conciencia cuando se filtra a través de nuestro cerebro y nos da la ilusión de uno mismo.

Creo que es un gran error suponer que la conciencia / autoconciencia surgirá en la IA como un producto derivado de la replicación de nuestros sentidos, emociones, dolor, etc. No creo que sea posible codificar la autoconciencia real. Por supuesto, podría codificar la ilusión de la autoconciencia en una máquina, pero no tendría una comprensión real como nosotros. Podrías codificar fácilmente una máquina para temer por su vida también, pero de nuevo, es solo una ilusión creada en el código. La máquina nunca se comprendería de la misma manera que nosotros.

Como dije, la conciencia es la clave. Pero podría ser la clave de la caja de Pandora.

Lo siento si me salí un poco del tema pero me hiciste pensar.

El “muro” es el aprendizaje no supervisado.

Las redes neuronales comenzaron a funcionar después de que Hinton y otros inventaron la propagación inversa. Pero la propagación hacia atrás es solo una forma de encontrar los parámetros correctos en relación con los valores conocidos.

Necesita una gran cantidad de datos para obtener algunas interpretaciones.

Nosotros hacemos lo contrario.

Derivamos una cantidad masiva de interpretaciones a partir de datos mínimos.

No solo un niño de tres años reconocerá un iPhone después de ver solo uno, sino que puede dar un nombre, pensar en un uso, hacer una comparación, formar un juicio, conectarse a otra cosa …

Entonces usamos abstracciones. Y sí, los niños de tres años ya dominan algunos niveles de abstracción (pero no todos). ¿De dónde vienen? Los niños están expuestos a “datos” mínimos e imperfectos. Ese es el debate de Noam Chomsky sobre datos vs genoma.

Si asumimos que vamos a necesitar esa “capa de abstracción”, ¿pueden las redes neuronales aún producirla a partir de datos? ¿Pueden construir jerarquías y contextos reutilizables? Tal vez algún día, o tal vez no.

Creo que Hinton dice que no podemos excluir que la propagación hacia atrás sea un callejón sin salida para llegar allí; podríamos necesitar otra forma. Después de todo, tiene menos de 10 años (como lo usamos hoy), lo cual no es nada en la larga historia de la IA.

En lo que respecta a las redes neuronales o las máquinas de Boltzmann que fueron documentos iniciales del Sr. Hinton, fueron básicamente modelos matemáticos de lo que las neuronas aprendieron en comparación con lo que hace el cerebro.

Se realizaron constantes investigaciones en este campo para comprender cómo se aprendió la información con neuronas apiladas en millones y miles de millones en el cerebro. Salieron redes profundas que de alguna manera funcionaban para tareas basadas en imágenes mientras usaban el algoritmo de retropropagación.

La última investigación se está llevando a cabo en “Redes neuronales clave”, que no es necesariamente un modelo matemático y replica un modelo cerebral porque toma en consideración los picos de las neuronas como carreras de información. Las redes profundas de alguna manera no se generalizaron bien debido a varios modelos de neuronas. Los SNN son asíncronos y utilizan los fundamentos de la neurociencia.

Si SNN funcionaría, ya que la propagación hacia atrás no funciona con ellos. Los investigadores tienen que encontrar un algoritmo que de alguna manera use lo fundamental de la neurociencia en cuanto a cómo las neuronas aprenden con la plasticidad del pico.

-Hitarth

Del artículo original (el pionero de la inteligencia artificial dice que necesitamos comenzar de nuevo):

No creo que sea así como funciona el cerebro “, dijo. ” Claramente, no necesitamos todos los datos etiquetados “.

Si mal no recuerdo, él (o algún otro investigador prominente de NN como LeCun) expresó esta misma preocupación hace años.

Personalmente, creo que esta es una preocupación válida, pero aquellos que estén interesados ​​en el aprendizaje automático como una herramienta y no como una reproducción de la inteligencia humana probablemente no se interesen.

David Duvenaud, profesor asistente en el mismo departamento que Hinton en la Universidad de Toronto, dice que el aprendizaje profundo ha sido algo así como la ingeniería antes que la física en este artículo reciente:

“Alguien escribe un artículo y dice: ‘¡Hice este puente y se puso de pie!’ Otro tipo tiene un documento: “Hice este puente y se cayó, pero luego agregué pilares y luego se quedó arriba”. Entonces los pilares son una cosa nueva y caliente. A alguien se le ocurren arcos, y es como, ‘¡Los arcos son geniales!’ ”. Con la física, dice,“ realmente puedes entender qué va a funcionar y por qué ”.

More Interesting

¿Puede el aprendizaje automático predecir la dificultad de las piezas para piano?

Si los robots humanos se convirtieran en algo común, ¿deberían ser profesores universitarios?

¿Las preocupaciones relacionadas con la inteligencia sobrehumana que Nick Bostrom aborda en su libro 'Superinteligencia' son relevantes o descabelladas?

¿Utiliza LHC herramientas de IA para crear y mejorar modelos físicos?

¿Cuáles son las restricciones en un brazo robótico para imitar los movimientos del brazo humano?

¿Qué porcentaje de estudiantes MOOC de aprendizaje automático (ML) realmente termina trabajando con ML?

¿Qué tipo de ciencia y tecnología de datos se requiere para recopilar todo el conocimiento humano en un solo lugar y hacer recomendaciones significativas?

¿Cuáles son las tecnologías utilizadas detrás del chatbot de inteligencia artificial de Facebook?

¿Qué es lo interesante de la red neuronal?

¿Cómo se crean los grandes juegos como FIFA 14?

¿Cuál es la herramienta de aprendizaje automático más popular?

¿Quién fue Alan Turing y cuál fue su contribución al campo de la Inteligencia Artificial?

¿Qué podrían ser posibles aplicaciones de aprendizaje de refuerzo profundo en la industria aparte de la robótica?

¿Cuál podría ser un proyecto interesante en Python para aprender inteligencia artificial?

Cómo integrar un chatbot AI en la aplicación con una plataforma de atención al cliente (como Zendesk) y un centro de contacto en vivo para que los agentes puedan hacerse cargo de las conversaciones de chatbot cuando sea necesario