¿Por qué la red bayesiana no ha tenido tanto éxito como la red neuronal profunda?

Bueno, la definición de “exitoso” es importante, aquí. Las redes bayesianas son posiblemente más exitosas que las redes neuronales profundas hasta la fecha. Se aplican ampliamente en todas las industrias y se pueden usar fácilmente para inferencia, modelado y predicción.

Presumiblemente, su pregunta es realmente “por qué las redes bayesianas son menos precisas en la predicción y / o menos flexibles que las redes neuronales profundas”. Vea el último párrafo: están construidas para diferentes propósitos con diferentes necesidades y teorías subyacentes en mente.

Una comparación rápida: las redes bayesianas son, desde el principio, modelos de sistemas, mientras que las redes neuronales profundas son la materia prima a partir de la cual los modelos se construyen de manera automatizada. Usted, el científico de datos, construye la red bayesiana (excepto si está utilizando una metodología automatizada), mientras que solo proporciona la arcilla a partir de la cual se construirá el modelo para la red neuronal.

Por lo tanto, las redes bayesianas se entienden, diagnostican y modifican fácilmente simplemente mirando los parámetros del modelo entrenado. Eso es lo que los convierte en un “ganador” bajo ciertos criterios.

Por otro lado, están naturalmente limitados por la estructura que les asignó el científico de datos, que a su vez está operando en base a cierta comprensión humana del mundo, que no es necesariamente óptima.

Las redes neuronales profundas no tienen esta restricción. El modelo se desarrolla automáticamente a partir de lo que la máquina ve como matemáticamente óptimo en los datos . Eso significa que en muchos casos solo la máquina puede dar sentido al modelo, lo que a menudo no es deseable. Pero si la precisión predictiva es su único objetivo, y tiene suficientes datos para permitir que la máquina construya el modelo y entrene sus parámetros de manera efectiva, entonces las redes neuronales profundas podrían ser la opción correcta.

Un científico de datos críticos no los verá como alternativas intercambiables, siendo uno simplemente más preciso que otro.

Los enfoques bayesianos han sido populares en gran medida debido al sorprendente éxito de los ingenuos bayesianos, donde se supone que las características son independientes. Tales enfoques son fáciles de implementar y comprender, y funcionan sorprendentemente bien en muchas situaciones.

Las complejidades del enfoque bayesiano completo son menos atractivas, ya que los modelos de dependencia de características son de calidad cuestionable. Eso ciertamente no significa que no haya ninguno, solo que no son tan populares en la corriente principal como los ingenuos Bayes.

Otra gran razón es por qué las redes neuronales se hicieron populares en primer lugar, hace tres décadas, y esa es la generalización. Los recientes avances en el aprendizaje profundo simplemente lo expandieron a una nueva clase de problemas en visión por computadora y PNL, con avances en potencia informática y escala de big data.

Las redes bayesianas no han sido diseñadas para ejecutarse en GPU, las redes neuronales sí. Las redes neuronales consisten en capas que esencialmente se reducen a una multiplicación matricial en pesos x entrada que es paralelizable a través de GPU. Esta optimización es crítica porque le permite construir modelos más grandes que son más expresivos y también puede encontrar soluciones de “fuerza bruta” para cualquier problema, haciendo de las redes profundas una técnica que puede usar para conectar y desconectar. Las redes bayesianas, aunque altamente sofisticadas, no tienen este simple truco de ejecución en una GPU para hacerlas eficientes y hacerlas inaplicables a muchos problemas del mundo real.

El problema principal es que las redes bayesianas son computacionalmente inviables y se necesitan aproximaciones de Monte Carlo para una integral resistente.

More Interesting

¿Cuál es el mejor lenguaje de programación para el aprendizaje automático? ¿Qué idioma es mejor para programar microcontroladores y otras partes de hardware?

¿Cómo se puede aplicar el aprendizaje automático para predecir el tiempo de entrega de un producto?

¿Cuáles son algunos trabajos de investigación que puedo publicar en el campo del procesamiento / generación de lenguaje natural, aprendizaje automático y minería de datos?

¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?

¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.

Cómo dominar el aprendizaje automático en Python

¿El aprendizaje no supervisado es la clave de la inteligencia artificial general?

¿Cuáles son los mejores software de aprendizaje automático de código abierto para reconocimiento facial?

¿Es posible realizar el aprendizaje en conjunto mediante el apilamiento si solo tengo dos modelos?

¿Qué campos de la robótica tienen mucho espacio para la investigación (mucho antes de la madurez)?

¿Cuáles son los documentos que debería leer sobre los sistemas de recomendación basados ​​en el aprendizaje profundo?

¿Qué es el aprendizaje automático en términos simples?

¿Cuál es la mejor manera de combinar datos clínicos y de imagen en un enfoque de aprendizaje profundo?

¿Cómo se determina el tamaño del paso de actualización para el algoritmo de retropropagación ADADELTA?

¿Está bien usar API para mi proyecto de último año en Informática?