¿Cómo podemos usar la cadena de Monte Carlo Markov y bayesiano no paramétrico para la reducción de dimensionalidad? La tecnología cambia la vida futura

Muy bien, hay muchas palabras clave en esta pregunta, pero intentaré responderla.

Parece haber mezclado el problema del modelado con el problema de la inferencia.

Una red bayesiana es una forma de describir una distribución de probabilidad conjunta sobre un conjunto de variables aleatorias y la capa de Markov de una variable aleatoria es una colección de variables aleatorias que se necesita para predecir el comportamiento de la variable original.

¿Es demasiado tarde para sumergirme en Data Science, ya que se están desarrollando poderosas herramientas de aprendizaje automático y ya hay muchos científicos de datos hábiles?
¿Existen por sí mismas redes neuronales que cambian automáticamente y que pueden cambiar su estructura interna (capas, nodos, hyerparameters)?
Cómo comenzar a implementar un sistema de recomendación para juegos
¿Por qué el núcleo RBF (función de base radial) se asigna al espacio dimensional infinito, mencionado muchas veces en las conferencias de aprendizaje automático?
¿Se pueden usar datos generados por simulación por computadora para algoritmos de aprendizaje automático?

Supongamos una colección de variables aleatorias: –

[matemáticas] X_1, X_2, X_3 … X_n [/ matemáticas].

Podemos resumir la propiedad general de markov como: –

[matemáticas] Pr (X_j | X_1… X_n) = Pr (X_j | MarkovBlanket (X_j)) [/ matemáticas].

Ahora, puede usar esta propiedad para simplificar sus algoritmos de inferencia. Tomemos el ejemplo del muestreo de Gibbs, que es una forma específica del algoritmo MCMC. Aquí, en cada paso de tiempo, debe muestrear una variable aleatoria condicionada a todas las demás variables aleatorias. Puede usar la propiedad de mantilla de markov para simplificar esto para condicionar solo los elementos en la mantilla de markov. Esto puede reducir significativamente el costo de una iteración individual si la manta de Markov es lo suficientemente pequeña en comparación con el tamaño general de la distribución conjunta.

Ahora, a su pregunta original de reducción de dimensionalidad. En esta configuración, está intentando proyectar los datos en un espacio que tiene menos dimensiones que su espacio de entrada pero que es capaz de preservar la información esencial. Tomemos el ejemplo de agrupar un conjunto de datos. Ahora sin entrar en demasiados detalles … voy a modelar los datos como procedentes de una colección de distribuciones gaussianas con coeficientes de mezcla desconocidos.

Ahora, tenemos un modelo sobre cómo se generaron los datos y podemos usar MCMC para calcular la distribución posterior sobre las asignaciones de conglomerados para cada punto observado. La asignación de clúster será una distribución de probabilidad que puede interpretar como una proyección en un nuevo espacio. En esencia, hemos reducido la dimensión del espacio de entrada transformando los vectores de entrada en sus asignaciones de clúster.

Ahora, pasemos a su palabra clave final, métodos bayesianos no paramétricos. En nuestro modelo, se desconoce el número de componentes del clúster, por lo que puede suponer un número infinito de clústeres [1] a pesar de que puede haber un máximo de n clústeres donde n es el número de puntos de datos. Este es un ejemplo de un método bayesiano no paramétrico donde el número de parámetros crece con el tamaño de los datos y estas técnicas le permiten agregar más flexibilidad para modelar el problema.

Espero que esta explicación ayude. Avíseme si me perdí algo que quisiera que le contestaran.

[1] https://www.cse.buffalo.edu/~jco…

Machine Learning