¿Cuál es la intuición detrás de llamar variables ortogonales como independientes? Proporcione una respuesta en el contexto del aprendizaje automático.

La ortogonalidad es como la independencia de primer orden, cuando interpretas las cosas de la manera correcta.

Dadas las variables aleatorias X e Y, son independientes si para cualquier función típica f y g, [matemáticas] E [f (X) g (Y)] = E [f (X)] E [g (Y)] [/ mates]. En otras palabras, la expectativa se divide. Un matemático podría pensar en la independencia como el espacio de probabilidad subyacente que se divide en un producto cartesiano de espacios, con las fuentes separadas de aleatoriedad descompuestas en cada uno.

La ortogonalidad es fundamentalmente un término geométrico. Para definir la ortogonalidad, necesita el concepto de producto interno: dos objetos son ortogonales si su producto interno es cero. Esto es en sí mismo una abstracción de la ortogonalidad en el espacio euclidiano, que es intuitiva.

La ortogonalidad aparece en probabilidad porque ciertos espacios de variables aleatorias pueden tener una estructura interna de producto. Estas variables aleatorias son las que son integrables al cuadrado, es decir, satisfacen [matemáticas] E [X ^ 2] <\ infty [/ matemáticas], que cubre muchas aplicaciones en la práctica. Para tales X e Y, puede definir el producto interno [matemática] (X, Y): = E [XY] [/ matemática]. La desigualdad de Cauchy-Scwartz es el ingrediente principal para establecer que esta definición es un producto interno.

Ahora, considere X e Y después de degradarlos, para que tengan expectativa cero.

Por construcción, [matemáticas] E [X] E [Y] = 0. [/ matemáticas].

Si X e Y son ortogonales, entonces [matemáticas] E [XY] = 0. [/ matemáticas].

Combinando estas dos últimas líneas, obtenemos la condición de independencia, pero solo para [matemáticas] f (x) = g (x) = x. [/mates]. Por lo tanto, la ortogonalidad es como una versión de independencia de primer orden.

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Cómo deberías comenzar una carrera en Machine Learning?

Cómo detectar texto / imágenes en una imagen de documento

¿La retropropagación de red neuronal de convolución utiliza un algoritmo en línea o un algoritmo por lotes?

¿Cuál es la relación entre un modelo múltiple que interactúa y un filtro de Kalman?

¿Qué modelo / algoritmo de ML utilizo?

La ortogonalidad no implica independencia. Es cierto solo cuando las variables se distribuyen normalmente. ¡Hay excepciones a esto también! [1]

Ortogonal es un caso especial de no correlacionado [2] cuando las variables se desplazan a la media (es decir, la expectativa de cada variable aleatoria es 0).

Sin embargo, desde mi experiencia, esto se usa generalmente en el contexto de redes bayesianas donde las personas generalmente trabajan con distribuciones normales, especialmente en ejercicios basados en datos. Esto posiblemente se deba a que es fácil probar la correlación cruzada = 0 de los datos, lo que implica muchas cosas para las distribuciones normales. Otra defensa para reclamar una distribución normal podría ser como consecuencia del teorema del límite central (no estoy muy seguro de esto).

[1] Normalmente distribuido y no correlacionado no implica independiente
[2] Sin correlación

Justin Rising

En general, las variables aleatorias ortogonales (o no correlacionadas) no son independientes. Eso es cierto si también se distribuyen normalmente de manera conjunta, pero no si se les permite seguir otras distribuciones. En mi experiencia, las personas en el aprendizaje automático generalmente no saben mucho sobre lo que hace que la distribución normal sea especial, por lo que parecen generalizarse por error.

Creo que es bueno ver un ejemplo específico de un par de variables aleatorias que no están correlacionadas pero que dependen para concretar la distinción. Suponga que [math] X [/ math] sigue una distribución exponencial con tasa [math] \ lambda [/ math], [math] S [/ math] sigue una distribución Rademacher, [math] X [/ math] y [math ] S [/ math] son independientes y [math] Y = SX [/ math]. Entonces [matemática] E [XY] = 0 [/ matemática], pero conocer el valor de [matemática] Y [/ matemática] le permite calcular el valor exacto de [matemática] X [/ matemática].

Wendy Krieger

La noción de independencia es que uno puede tratar a los dos por separado, en cualquier orden, por ejemplo, f (AB) = f (A) f (B) o f (g (A)) = g (f (A)).

La noción de ortogonalidad proviene de la teoría de grupos, donde AB = BA representa reflexiones en espejos ortogonales. Si ABCD representa espejos en un grupo y abcd en el segundo grupo, los dos grupos son completamente ortogonales si Aa = aA, Ab = bA, a través de todas las combinaciones de letras mayúsculas y minúsculas,

Una acción de simetría de la forma ABcdAb se puede reducir a ABA. cdb mediante el uso de la asociación ortogonal, y a partir de ahí, cada mitad tratada independientemente el uno del otro.

Wendy Krieger

More Interesting

¿Es posible compilar una función NumPy para TensorFlow como PyAutoDiff para Theano?

¿Cuáles son las diferencias entre Apache Spark y el Tensor Flow de Google?

¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?

¿Cómo son útiles las redes neuronales convolucionales para las empresas e industrias normales?

¿Podría el aprendizaje profundo vencer a los métodos tradicionales en 3D Vision?

Si, en el futuro, los robots / IA se vuelven comunes en los hogares, ¿cuál es el lenguaje de programación más probable en el que se escribirán?

¿Cuál es el mejor blog / sitio para mantenerse actualizado sobre las últimas tecnologías y herramientas de big data, aprendizaje automático?

¿Debo aprender Python o R para el aprendizaje automático si estoy cursando mi licenciatura en matemáticas e ingeniería informática? ¿Qué idioma se usa más en las industrias?

¿Qué tan efectivo es usar medidas simples de correlación en la selección de características?

¿Qué métricas debo usar en mi investigación de preprocesamiento de datos (no estructurada)?