¿Hay muchos investigadores de aprendizaje automático que son escépticos sobre el éxito del aprendizaje profundo?

Los enfoques actuales de AI y ML son de naturaleza estadística y no pueden generar modelos o descubrir mecanismos causales a partir de datos (a veces los científicos ayudan con AI y ML pero no con AI o ML, y las personas se confunden creyendo que es AI o ML).

Las tendencias y los métodos, incluido el aprendizaje profundo (y las redes neuronales profundas), son enfoques de caja negra que funcionan increíblemente bien para describir datos, pero proporcionan poca o ninguna comprensión de los mecanismos de generación. Como consecuencia, tampoco pueden ser escalables a dominios para los que no fueron entrenados, y requieren toneladas de datos para ser entrenados antes de hacer algo interesante, y necesitan capacitación cada vez que se les presentan (aunque sea ligeramente) datos diferentes .

Con suerte, AI y ML se incorporarán más a los enfoques basados ​​en modelos, dejando atrás las estadísticas tradicionales e incorporando los primeros principios universales algorítmicos. Esto significa impulsar la ciencia fundamental en lugar de simplemente lanzar más recursos computacionales para resolver todo como lo hacen la IA y el ML actuales.

Los ejemplos anteriores potentes de enfoques basados ​​en modelos incluyen el modelado de ecuaciones diferenciales, pero esos enfoques también han carecido de los mecanismos para explorar y actualizar (y por lo tanto mejorar y escalar) modelos y, por lo tanto, lo que se necesita son enfoques fuertes basados ​​en el ciclo de datos de modelo. Afortunadamente, estamos avanzando en esa dirección, aquí nuestro enfoque orientado a la causalidad basado en la inferencia computacional dinámica:

Un cálculo de información algorítmica para el descubrimiento causal y los sistemas de reprogramación

Y aquí un video explicando el método:

Al principio, los resultados pueden parecer menos impresionantes en comparación con las noticias sobre el aprendizaje profundo (DL) que golpea a los humanos en Go, etc. Y hay razones para estar entusiasmado con eso, ya que DL es una herramienta muy poderosa para extraer y analizar datos. El DL eventualmente se incorporará al conjunto de herramientas que los científicos de datos aplicarán por defecto, al igual que las personas hacen análisis de regresión lineal (DL es en realidad un análisis de regresión con esteroides). Sin embargo, los científicos fundamentales continúan empujando desde la dirección opuesta hacia el modelado y la comprensión en lugar de reducir los números de los datos.

Por ejemplo, el documento anterior muestra cómo un motor puede generar modelos casi óptimos a partir de observaciones naturales o inducidas para crear mecanismos generadores que reproduzcan el sistema que a su vez reproduzca los datos, proporcionando así una comprensión profunda de las causas y los medios de dirección para manipularlos. , algo que queremos hacer si queremos, por ejemplo, curar enfermedades en lugar de tratarlas, por mencionar solo un ejemplo. En este otro artículo, una aplicación del método anterior podría modelar aspectos de la evolución natural que han permanecido misteriosos (por ejemplo, explosiones de diversidad, la aparición de genes, etc.) y también pueden acelerar los algoritmos evolutivos naturales y artificiales:

[1709.00268] Las mutaciones algorítmicamente probables reproducen aspectos de la evolución, como la tasa de convergencia, la memoria genética, la modularidad, las explosiones de diversidad y la extinción en masa.

Este video también muestra cómo ha impactado la investigación sobre la cognición:

Aquí hay algunas otras referencias interesantes:

Las redes neuronales profundas se engañan fácilmente: Predicciones de alta confianza para imágenes irreconocibles:

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Nguyen_Deep_Neural_Networks_2015_CVPR_paper.pdf

Abrir una caja negra de red neuronal profunda conduce a una compresión con pérdida de las estimaciones de información mutua entre el conjunto de entrenamiento y la predicción:

https://arxiv.org/pdf/1703.00810…https://arxiv.org/pdf/1703.00810.pdf

Grandes clasificadores, sin causalidad o generación de modelos.

Claramente, los resultados del aprendizaje profundo son sobresalientes, y no están a debate. Sin embargo, hay investigadores que son escépticos sobre el aprendizaje profundo desde tres perspectivas:

¿Hay algo mágico en las redes neuronales que los hace mejores que otros estudiantes ?

Esto se basa en la comprensión histórica de las redes neuronales. Esta es su tercera venida. La primera vez (principios de la década de 1960), se demostró que eran incapaces de aprender funciones arbitrarias (por ejemplo, XOR). La segunda vez (fines de la década de 1980, principios de la década de 1990), mostraron buenos resultados, pero poco después de que se desarrollaron nuevas técnicas de aprendizaje, se superaron las ventajas de las redes neuronales.

Estos fueron métodos de conjunto, modelos gráficos probabilísticos y máquinas de vectores de soporte. Entonces quizás aprendamos cómo mejorar el desempeño de las otras familias de ML, así como el aprendizaje profundo.

¿Cuál es la base teórica del aprendizaje profundo?

Los fundamentos teóricos del aprendizaje profundo no son sólidos. Lo único significativo que se ha demostrado es que, en muchos casos, quedarse atascado en los mínimos locales no es un gran problema.

Esto tiene consecuencias muy significativas:

  • El proceso de investigación es principalmente prueba y error: si pregunta por qué el enfoque X funcionó y Y no funcionó, es como “No sé, lo intentamos y fue mejor”. Piense en cosas como el abandono.
  • No puede hacer ninguna garantía sobre la convergencia o las propiedades de un alumno.
  • El progreso en el campo puede ser limitado porque no es obvio qué sigue. La teoría a menudo guía el progreso, como fue el caso del impulso que tiene una base teórica muy sólida.

¿Es el futuro del aprendizaje automático aprendizaje profundo?

El aprendizaje profundo ha mostrado un progreso sobresaliente en las tareas de memorización basadas en datos (como visión por computadora, traducción de idiomas). Pero tiene limitaciones: necesita muchos ejemplos, los resultados del aprendizaje son incomprensibles, es muy difícil incluir información de fondo o hacer transferencias entre problemas.

Entonces, ¿cómo pasaremos del aprendizaje profundo a la inteligencia artificial general que pueda razonar? ¿Será por mejoras incrementales al aprendizaje profundo? Esto parece poco probable. Necesitamos determinar qué capa va “encima” del aprendizaje profundo. Un ejemplo de una persona con este punto de vista es Gary Marcus (por ejemplo, discutiendo los límites de la inteligencia artificial).

No escéptico, ya que los éxitos del aprendizaje profundo son innegables, pero prudentes.

Soy lo suficientemente mayor como para recordar las dos revoluciones de redes neuronales anteriores: el perceptrón y la invención de la propagación inversa. Hubo un progreso significativo, una gran exageración en la comunidad científica, una gran exageración en los medios de comunicación, luego algo de decepción, a pesar de que se logró un progreso real.

A pesar de la nueva ola de arquitecturas y técnicas de aprendizaje automático, la visión por computadora aún no está resuelta y la IA aún menos. Principalmente, hemos lanzado más hardware al problema y mejorado los procesos de optimización, pero las ideas básicas son las mismas.

Las diversas técnicas de aprendizaje automático funcionan unas con otras, y no es improbable que la próxima ola de técnicas efectivas de aprendizaje automático utilice otra técnica que no sea el aprendizaje profundo.

La respuesta de Lalit Patel a ¿Por qué Geoffrey Hinton sospecha de la propagación hacia atrás y quiere que la IA comience de nuevo?

A diferencia de cualquier religión, cada ciencia tiene y necesita algunos escépticos. Al ser un esfuerzo científico, Deep Learning tiene y necesita algunos escépticos.

El principal escepticismo de Deep Learning está relacionado con que sea una caja mágica profunda y que también tenga mucha hambre de datos. ¿Qué sucede si alguien entrena un modelo con los datos del condado de Orange de California y luego lo aplica a los datos del condado de San Diego de California?

Al ser Deep Learning una caja mágica profunda, algunos usuarios pueden olvidarse de verificar el alcance y las limitaciones de un modelo, aplicarlo incorrectamente a los datos que no están dentro del alcance del modelo y hacer muchas predicciones incorrectas.

Es genial para algunos problemas, horrible para otros. Algunos problemas en los que falla incluyen pequeños conjuntos de capacitación, subgrupos dentro de la población y problemas en los que se necesita una visión específica del proceso; en esos, necesitamos otros algoritmos de ML (como los que se enumeran aquí: https://www.slideshare.net/Colle …).

Sí.

El padre de Dios del Profesor de Aprendizaje Profundo Geoffrey Hinton ha expresado su preocupación y escepticismo sobre el conocimiento actual y cómo se convierte en un impedimento para futuras ideas innovadoras.

El entusiasmo es alto, pero como Hugues señala correctamente, ha habido inviernos de IA a medida que las personas pierden la fe a pesar del éxito significativo.

También podría suceder nuevamente.

Una cosa buena que surgió de esta ola actual es que parece que hemos matado efectivamente el campamento bayesiano.

More Interesting

¿Quedan archivos después de desinstalar una aplicación en Linux? En caso afirmativo, ¿son difíciles de encontrar y eliminar como en Windows?

¿Cómo funciona Google Translator (función de cámara)?

¿Cuáles son las variables ambientales en las computadoras en términos simples?

¿Se puede obtener toda la información a través de preguntas sí / no?

¿Cuál es la mejor manera para que un programador autodidacta complete el conocimiento de que un título en informática podría haberle ganado?

¿Cuáles son algunos informes disponibles públicamente que detallan el crecimiento global de la demanda / consumo de recursos informáticos, particularmente desde la llegada de la computación en la nube?

¿Cómo reacciona la gente al escuchar que eres un experto en informática?

¿Es posible competir con las principales empresas de realidad virtual?

¿Por qué se habilita Superfetch después de un tiempo o después de reiniciar la computadora?

En Tensorflow, si uso sigmoid_cross_entropy_loss, ¿cómo puedo calcular la etiqueta que estoy prediciendo? (No puedo usar tf.argmax como en softmax_cross_entropy).

Además del desarrollo de software y la ingeniería de software, ¿qué otros campos emplean muchos científicos / ingenieros informáticos?

¿Qué es un píxel? ¿Cómo se puede medir en métrica?

¿Cuánta potencia informática tenía IBM SAGE?

¿Cuál es el significado de determinista y no determinista en informática?

Se me ocurrió una idea para una aplicación móvil. Me acabo de enterar de que una empresa multinacional acaba de lanzar una aplicación que es muy similar, ¿cómo debo proceder?