¿Qué significa decir: “En la geometría de la información, el paso E y el paso M se interpretan como proyecciones bajo dos conexiones afines”?

Comenzaría a sumergirme en la geometría de la información, pero nadie quiere leer una publicación de Quora de 100 páginas. En cualquier caso, encontré esta pregunta difícil de responder porque la mayoría de la literatura matemática está escrita para matemáticos por matemáticos. No soy matemático (apenas puedo leer la simbología si es que lo hago), así que tengo que investigar varias explicaciones de un concepto antes de poder sintetizarlo en algo que pueda entender y explicar a alguien más. Pero bueno, esa es una muy buena manera de ser inteligente en algo.

De lo que estamos hablando aquí es de un Algoritmo de Maximización de Expectativas. En el aprendizaje automático, se utiliza para la agrupación de datos. Por ejemplo, si estamos tratando de descubrir los parámetros para construir un modelo estadístico, podemos usar un algoritmo EM como Baum-Welch para ayudarnos a calcular las estimaciones de máxima verosimilitud .

¿Cuál es la máxima probabilidad? Digamos que vivimos en San Diego y queremos calcular el peso promedio de los pandas adultos en China. Desafortunadamente, nuestro presupuesto de escuela de posgrado es corto, por lo que necesitamos extrapolar de alguna manera una distribución normal de algunas muestras que nos envían nuestros otros amigos de la escuela de posgrado en Beijing. ¡Entonces obtenemos 100 pesos de panda, obtenemos la media y la varianza, y BAM! Utilícelos como entradas para nuestro Baum-Welch y nos dará valores paramétricos que nos darán los resultados más probables (máximo probable). Pero, ¿qué fue lo que dijiste sobre la agrupación? Erm. En aras de la discusión, llamemos a cada desviación estándar un clúster … ya que ahora tenemos una hermosa distribución normal de los pesos de los pandas.

El paso E y el paso M se refieren al paso EXPECACIÓN y al paso MAXIMIZACIÓN en nuestro Algoritmo de Maximización de Expectativas. Entonces, ¿cómo se interpretan como “proyecciones bajo dos conexiones afines”? Llegaremos allí. Paciencia.

¿Qué es una proyección? Me gusta pensar en una proyección como una plantilla 3D, porque pienso visualmente y es una taquigrafía visual fácil. Y si piensas en la proyección como en la proyección y la imagen en una pantalla, eso es lo que es. Está proyectando la secuencia de líneas y puntos desde el interior del proyector hacia la pared, y esta proyección está conectada a la de la pared mediante “líneas de luz”. Estas líneas de luz se interrumpen cuando un gamberro decide hacer títeres de mano frente al proyector.

¿Qué es una conexión afín?
Una conexión afín es un objeto geométrico que conecta espacios tangentes. Por ejemplo, si tiene una base de concreto de 100 metros cuadrados en San José, CA y otra base de concreto de 100 metros cuadrados en Sunnyvale, CA. Ahora imagine que ata una cuerda al medio del concreto en San José y la pasa al medio de Sunnyvale. Felicitaciones, acaba de crear un objeto geométrico (una línea) que conecta 2 espacios tangentes (los cimientos de hormigón). En este caso, nuestra esfera es la tierra, y los 2 planos tangentes son los cimientos de hormigón.

Una proyección bajo una conexión afín es una plantilla 3D de su espacio afín. Ok, saltaste a espacios afines y ni siquiera me dijiste qué es. Un espacio afín es un concepto geométrico o * estructura * que dice “Voy a generalizar las propiedades afines del espacio euclidiano”. <-Esto proviene de mi respuesta anterior sobre ¿Cómo funciona el Análisis discriminante lineal en términos simples?

Volviendo a nuestros pandas, podemos trazar nuestras observaciones en el espacio como X, Y, Z donde X = altura, Y = edad y Z = género. Si estuviéramos trazando esta información en algún espacio euclidiano imaginario, X, Y, Z pueden representar una tangente entre el lugar donde se encuentra ese punto de datos y el resto de nuestro espacio. El paso E nos da este punto . La tangente es un punto, y un punto puede tener una proyección como cualquier otra cosa. Lo extraño es que la proyección de un punto es una línea.

El paso M nos da una distribución normal que maximiza la probabilidad de E. En otras palabras, la distribución convergerá a un máximo local en E.

Si elegimos una E * diferente, obtendremos una M * diferente. Habrá una conexión afín entre E / M y E * / M *. De hecho, habrá una conexión doble afín, una entre E y E * y otra entre M y M *.