Andrew Ng: ¿Qué opinas sobre el futuro del aprendizaje de Bayesian Networks?

Esta pregunta me llevó algún tiempo responder, porque la respuesta más fácil hubiera sido “francamente no lo sé”. Pero como profesional retirado que amaba el concepto de bayesiano y había sufrido una considerable humillación durante el curso de doctorado. por ser bayesiano, pensé que debería ser lo suficientemente valiente como para escribir lo que realmente pienso. Entonces, aquí está, mi propia opinión, con mi conocimiento limitado de la Red Bayesiana.

El propósito principal para construir una Red Bayesiana es estimar ‘Estados’ de algunas variables dadas ‘Evidencia’.

Esto en términos bayesianos simples es cómo estimar la información posterior de un parámetro con cierta información previa y actual al respecto. Pero en Bayesian Network, los términos son poco diferentes.

Por lo tanto, el estado anterior de un parámetro se transforma con la información existente en otro estado, que es su estado posterior. En una situación bayesiana simple que se obtiene aplicando la regla de Bayes con probabilidades condicionales. En redes, este proceso no se detiene después de una iteración de la regla de Bayes. El Estado posterior obtenido, se convierte en el Prior para estimar el siguiente Estado, y así sucesivamente. Entonces, cuanto más complicada es la red, la derivación se vuelve igualmente compleja. Y si está haciendo un seguimiento de las Redes, quizás haya notado lo que quiero decir. Simplemente no hay fin a las redes nuevas y más complicadas que evolucionan. Con herramientas como las redes neuronales, ahora se ha vuelto muy útil pero también extremadamente desafiante. A medida que las redes se hacen más grandes y complejas, derivar información en cada estado (rama) se vuelve igualmente complicado y desafiante.

Un enfoque que se convirtió en una forma natural de resolver es la ‘Simulación estocástica’ por razones obvias. De hecho, el primer método de simulación para generar el Estado Posterior fue el MCMC o el método Markov Chain Monte Carlo. En este enfoque, la simulación de MonteCarlo fue inteligentemente diseñada para ejecutar una cadena de Markov durante mucho tiempo, siendo los estados de la cadena de Markov los estados del posterior para la variable o el parámetro. Este enfoque resolvió muchos problemas y aún lo hace.

Hoy en día, las redes son de tal escala que incluso los sofisticados hardwares de hoy se ven abrumados por las complejidades. Existen muchas aplicaciones y estudios con simulaciones estocásticas en las que la red bayesiana es muy útil, pero a veces se toman decisiones, no para utilizar toda la información proporcionada por la simulación, sino solo las pertinentes pertinentes al problema en cuestión.

Entonces, para mí, la dirección futura de cualquier tema específico está determinada por la utilidad y la exploración del mismo. Entonces, aunque las Redes pueden evolucionar sin límites, la extracción de información relevante y su utilidad a partir de ella necesitará más exploraciones.

More Interesting

¿Cuál es la diferencia entre la recuperación de información normal y los sistemas de recomendación?

¿Cuál es la diferencia entre un enrutador CNC y un molinillo CNC?

¿Podemos usar el modelo oculto de Markov para inferir las variables ocultas del universo?

¿La validación cruzada más pequeña siempre es un indicador de un mejor modelo predictivo incluso si un modelo predictivo tiene una gran cantidad de parámetros?

Ciencias de la computación: ¿Cuáles son los pros y los contras de utilizar el modelado de procesos gaussianos para la regresión?

¿Con qué biblioteca de aprendizaje automático debo experimentar entre SparkML, Microsoft Azure ML y AWS ML?

¿Cuál es la diferencia al aplicar el aprendizaje profundo en el reconocimiento de voz automático usando kaldi y usando la antorcha?

¿Por qué PCA y LDA se usan juntas en el reconocimiento facial?

Cómo calcular la precisión y recordar para la clasificación, donde ambas clases son igualmente importantes

¿Cuál es el mejor código de Python que extrae todas las frases y parte de las etiquetas de voz (POS) de una oración?

Aprendizaje automático: ¿qué significa "abandono en el cerebro con respecto a todas las entradas, mientras que abandono en una red convolucional funciona con respecto a cada unidad individual"?

¿Cuál es su enfoque para el diseño de redes neuronales convolucionales?

¿Los ingenieros de aprendizaje automático en Google tienden a publicar artículos?

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?

En el aprendizaje automático, ¿son siempre más datos mejores que mejores algoritmos?