¿Bayesian Nonparametrics tiene futuro en el campo del aprendizaje automático?

Los investigadores de aprendizaje automático están más o menos convencidos de que el empuje de píxeles (esencialmente lo que hacen los algoritmos de visión por computadora) realmente no puede hacerlo mejor que una caja negra (lo que hacen las redes neuronales), ya que no existe una estructura intuitiva en la que basar el modelo. Tenga en cuenta que esto tiene una relevancia marginal para la cognición; Es una interpretación errónea común del aprendizaje profundo y lo que hace otra respuesta a esta pregunta.

Sin embargo, sería ingenuo decir que la visión por computadora es el fin de todas las tareas de aprendizaje automático. Incluso Michael Jordan es citado en alguna parte (creo que de la reddit AMA) proclamando su propio escepticismo al aprendizaje profundo para muchos problemas de PNL. Tampoco terminan los problemas con el aprendizaje profundo. Muchos, si no la mayoría de los modelos en otros dominios hacen suposiciones paramétricas fuertes formadas a partir de distribuciones estadísticas, y están justificadas al hacerlo porque saben con precisión que tal relación es más o menos el caso.

La ventaja para los no paramétricos bayesianos se inclina hacia la ventaja de los métodos bayesianos en su conjunto (interpretabilidad con formas increíblemente intuitivas para cuantificar la incertidumbre), además de extenderse a espacios de parámetros de dimensiones infinitas. El primero le permite a uno formar pruebas de significación y continuar planteando todo tipo de preguntas interesantes, en lugar de detenerse simplemente en el modelo discriminatorio; este último hace que el modelo sea teóricamente más justificado que un espacio finito y, por lo tanto, más prometedor, ya que no depende tanto de la “ingeniería de características”.

Aprendizaje automáticoinvestigación en informática

¿Cuáles son las principales conferencias / revistas en teoría CS?

¿Cuáles son algunas áreas inexploradas en el campo de la informática?

¿Cuáles son buenos temas para un trabajo de investigación?

¿Es necesario asistir a Stuyvesant para tener éxito en los concursos de investigación científica?

¿Cuáles son las áreas de alcance para la investigación en inteligencia artificial (IA) para un estudiante de informática? ¿Qué hay realmente dentro de la IA?

¿Cuál es la mejor computadora portátil Big Data?

No puedo hablar por él, pero puedo citarlo. En ese mismo AMA escribió:
”
Si tiene un rack lleno de tarjetas GPU, puede probar muchas arquitecturas y usar uno de los métodos de optimización de hiperparámetros recientes para encontrar automáticamente la mejor arquitectura para su red. Algunos recientes se basan en el proceso gaussiano (por ejemplo, los documentos recientes de Jasper Snoek).
En un entorno universitario, no siempre tiene suficientes GPU o suficiente tiempo antes de la próxima fecha límite de papel. Por lo tanto, intente algunas cosas y elija la mejor en su conjunto de validación.
Automatizar el diseño de la arquitectura es fácil. Pero es costoso.”
a otra pregunta

Jasper Snoek trabaja en material bayesiano no paramétrico para elegir hiperparámetros para algoritmos que incluyen redes neuronales. Entonces sospecho que Yann quiso decir exactamente lo que dijo, no que el Bayesian no paramétrico en general no tenga futuro en el aprendizaje automático.

Raúl Machado

Uno realmente no debería molestarse por lo que Yann ha mencionado (recuerdo haber visto este comentario en los foros de Reddit). Creo que Yann mencionó esto en el contexto de la escala de los métodos bayesianos (comentarios de akkhong sobre AMA: Yann LeCun). Creo que el trabajo reciente sobre el uso de la Inferencia Variacional Estocástica [1] y algunos trabajos recientes sobre el pastoreo [2] y el Proceso Gaussiano Profundo [3]. Recuerdo a Neil Lawrence: publicación de Google+ en algunos trabajos importantes en modelos probabilísticos donde menciona algunos documentos importantes.

PS Yann es un gran nombre, así que toma estos puntos con facilidad 🙂

[1] http: // Journal of Machine Learning Research / papers / volume14 / hoffman13a / hoffman13a.pdf
[2] Página en uci.edu
[3] Página en jmlr.org

Raúl Machado

Ya tiene presencia. Revisa estos documentos:

1- Un tutorial sobre el modelo no paramétrico bayesiano
2- Qué hacer cuando falla el agrupamiento de K-medias: un algoritmo alternativo simple pero con principios

Buena suerte

Harri Edwards

Para las tareas similares a los procesos de percepción cognitiva humana, como muchos problemas de visión por computadora y algunos problemas de procesamiento del lenguaje natural, es posible que le resulte más prometedor “imaginar” un modelo matemático que funcione de manera similar al cerebro humano, que algunos otros modelos. que son mucho más intuitivas, como bayes no paramétricos.

Pero creo que ha pasado el tiempo para que las personas solo sueñen con Inteligencia Artificial (por IA, quiero decir replicar la inteligencia humana), a las personas todavía les importa la IA, por supuesto, pero también se preocupan por tantas otras tareas que requieren inteligencia que podrían no ser parte de cerebro humano, como se le da una matriz de calificación puramente grande, o una gran red social, ¿cómo puede esperar que un ser humano las entienda? Hay muchas otras tareas con estructuras potencialmente mucho más complicadas, que tal vez los humanos no pueden resolver, pero esperamos que las máquinas lo hagan. Creo que esa es la parte donde entran en juego cosas como bayes no paramétricos, como un papel central. El funcionamiento del cerebro es una gran inspiración para las personas que apuntan a la IA y a la comunidad de aprendizaje automático en general, pero comprender las estructuras subyacentes de algunas maneras elegantes, por ejemplo, estadísticas de alta dimensión, sigue siendo algo fundamental para trabajar.

En resumen, creo que es más racional pensar esas diferentes metodologías bajo diferentes tareas y objetivos, en lugar de imaginar la imagen completa simplemente con un vistazo.

Raúl Machado

More Interesting

A un alto nivel, ¿cuáles son las principales diferencias entre los proyectos académicos y los de la industria para la visión por computadora?

¿Qué conocimiento matemático se necesita para la visión por computadora?

¿Por qué usar sigmoid y tanh como funciones de activación en LSTM o RNN no es problemático, pero este no es el caso en otras redes neuronales?

¿Cuáles son los principales problemas abiertos con respecto a los algoritmos?

¿Cuál es el mejor lugar para comenzar a prepararse para la investigación en lenguajes de programación?

¿Qué es exactamente la informática teórica? ¿Qué se investiga en él?

Cómo saber cuáles son las últimas áreas de investigación en informática

¿Cuáles son algunos posibles temas de investigación en neurociencia computacional que se centran en datos neuronales?

¿Cuál es el algoritmo más eficiente para el mejor ajuste en el problema del embalaje del contenedor (bPP)?

¿Qué opinas sobre la computadora cuántica D-Wave 2?