Cómo explicar intuitivamente los tensores

A los físicos les gustan las leyes de la física que no dependen de ti. Dónde está sentado, hacia dónde se enfrenta y qué tan rápido va. Por lo tanto, necesitamos una forma matemática de escribir cosas sin hablar de un marco de referencia específico.

Por supuesto, todavía tenemos que calcular las cosas en un marco de referencia específico, pero al menos entonces necesitamos tener una forma específica de ir entre los marcos de referencia que los haga a todos equivalentes. Los tensores tienen propiedades de transformación específicas que les permiten describir la misma física en todos los marcos de referencia.

Hagamos esto un poco concreto. Comience con un escalar, como 2. No importa de qué manera lo mire, 2 es solo 2.

Ahora elige una dirección, como el norte, y apunta tu brazo en esa dirección. A medida que gira hacia la derecha, su brazo gira hacia la izquierda. Los ejes de coordenadas y los vectores contravariantes se transforman uno frente al otro.

Ahora mantenga su brazo derecho siempre apuntado en línea recta frente a usted. Gira a la derecha en lugar de a la izquierda. Este también es un tensor válido, pero no es un vector; Es una forma covariante .

También puede formar análogos de mayor dimensión y combinaciones de estos. Por ejemplo, un tensor contravariante de rango 2 debe transformarse dos veces para pasar a un nuevo marco de referencia. También puede tener un tensor que tiene que transformarse una y otra vez de forma contraria.

Los tensores también pueden considerarse funciones o mapas. Un vector es una función que toma una forma única y genera un escalar. Esta definición es solo el otro lado de la misma moneda, ya que requiere las propiedades de transformación anteriores. ¿Recuerdas que el escalar era el mismo sin importar cómo lo miraras? Necesita algo girado a la izquierda que actúa sobre algo girado a la derecha para obtener algo que no gira en absoluto.

Bueno, creo que ninguna de las respuestas anteriores es realmente intuitiva, y debido a que luché con esta pregunta, tal vez mi respuesta ayude:

Un problema principal que puede enfrentar es que hay dos formas casi equivalentes de pensar en ellas;

  1. Forma abstracta: son objetos matemáticos, que tienen ciertas propiedades, y se transforman de manera particular. Este puede ser útil para un robot, o solo para un matemático realmente geek.
  2. Manera algebraética: son una generalización de las matrices 2D habituales. Es decir, uno puede pensar en ellas como reglas de transformación para objetos / coordenadas en algún espacio n-dimentional (vector). Este es mucho mejor, sin embargo, su problema es que no es muy preciso / general, las respuestas anteriores proporcionaron ejemplos de esta visualización.
  3. Forma geométrica: son una colección de patrones tangentes en un punto de una variedad, mezclados con otra colección de funciones lineales asociadas con el mismo punto, pero ubicadas en un espacio dual (esta explicación es aproximada), aun así esta es la más general y precisa. manera de pensar en los tensores. Sin embargo, comenzar con esta explicación no tiene sentido, porque todos aprenden el análisis vectorial antes de la geometría diferencial.
  4. Forma física: esta es, en mi opinión, la mejor forma de visualizarlos, es como la algebrática, tiene los mismos problemas, pero aún más general e intuitiva. Lo obtuve cuando estudiamos la deformación de objetos en física de estado sólido, por lo que puede leer más en wikipedia. La idea principal es la siguiente: imagina una pieza cúbica de jabón sólido, luego imagina que estás presionando muy fuerte con tu dedo normalmente en algún lado, verás cómo el jabón intentará salir en todas las direcciones, pero si el jabón no está diferentes cantidades / volúmenes homogéneos de jabón tratarán de escapar en cada una de las direcciones. En realidad, hay 6 direcciones de escape (arriba, abajo … incluida la de su empuje). Esas cantidades se pueden organizar en un martrix 2D 3 × 3 (uno simétrico, tendrá 6 elementos únicos), ahora notando que tiene 6 caras en su cubo de jabón, en realidad necesitamos registrar solo 3 de ellas, porque el caras opuestas demostrarán la misma cantidad de jabón que se escapa, pero en una dirección opuesta. También podemos suponer que el cubo de jabón es un poco “infinitamente pequeño”, por lo que terminamos con una colección de 3 de 3 × 3 matrices, que pueden describir completamente cómo se deformará el cubo. Para hacer la vida más fácil, simplemente podemos combinar esta matriz para obtener un tensor 3D 3x3x3, y obviamente, cambiar las coordenadas debería forzar a las tres matrices a transformarse de manera consistente. Esta es la fuente de las propiedades de transformación de nuestro tensor. Ahora debería ser fácil entender que para describir cómo se deforma una pieza grande, de un jabón no homogéneo, definimos un tensor similar en cada punto de nuestro jabón (ahora no hay necesidad de tener uno qubic), esto es lo que se llama “Campo tensorial”.

Espero que esto ayude.

Estoy pensando en la explicación inicial para el laico no matemático.

Versión más corta: los tensores son cuadrículas de números de varias formas y tamaños, junto con métodos para hacer cálculos sobre ellos.

El concepto de tensores tal como se utiliza en el aprendizaje automático no es el mismo que en física, por lo que una explicación no tiene que ver con las aplicaciones de modelado más complejas utilizadas en física.

La explicación de un laico comenzaría hablando de un número, una lista de números (vector o tupla), una tabla rectangular de números (matriz) y daría algunos ejemplos que asignen significado a las coordenadas; por ejemplo, un vector de 3 elementos es el horizontal, mediciones verticales y de profundidad hasta un punto en el espacio; una matriz de 3 × 5 podría ser una lista de aquellos para 5 puntos. Luego, insinúa que todo esto podría considerarse un tipo de tensor y que podrías seguir construyendo estas cuadrículas de números con más índices, tres para un tipo de cubo o ladrillo de números, cuatro o más, aunque sea difícil de visualizar. Hable sobre cómo todos los índices representan diferentes tipos de valores asociados con el punto u objeto que se está representando, y que es útil poder considerar una fila o columna o cortar el tensor más grande. Crea algunos otros modelos que asignen índices a algo interesante, como tres para una posición en el espacio y uno, por ejemplo, para el calor. Los índices le permiten seleccionar un subconjunto y hacer algo con todos a la vez, pero ignore los otros números.

Luego intente introducir una operación útil o dos. Regrese a un caso bidimensional y hable sobre algunas operaciones de álgebra lineal en coordenadas espaciales, por ejemplo, multiplicación escalar y luego rotación. Muestre cómo la colección de vectores (que representan puntos) podrían rotarse todos al mismo tiempo mediante una multiplicación matricial. Luego mencione que es útil usar una notación que represente los objetos matemáticos como símbolos de letras y que son una convención en la que uno debe tener en cuenta lo que los símbolos “realmente” significan en términos de operaciones en números.

Tu laico probablemente quiera tomarse un descanso por aquí.

Para obtener crédito adicional, haga una generalización de “agitar las manos” y diga que los métodos son buenos para modelos y aplicaciones más complicados como el aprendizaje automático. Dé un ejemplo de algún proyecto representativo de aprendizaje automático.

¡Oh ho! Esa es una muy buena pregunta, y la respuesta depende en gran medida de la pregunta: ¿A quién se los está explicando?

Si se trata de alguien que no entiende los vectores, y mucho menos el cálculo de vectores, en 3D, entonces estás realmente jodido ya que, perdón por decirlo, el propósito del cálculo del tensor es mirar las preguntas en situaciones que ya no son ortogonales, como en el espacio de Minkowski cuando ocurren eventos a una porción apreciable de la velocidad de la luz. El sistema de coordenadas ya no es ortogonal y los aspectos de la traducción se miden en cada mapa de coordenadas en al menos otra coordenada. Lo que aprendió sobre las matrices de transformación se sale por la ventana y las matrices se vuelven profundamente enrevesadas porque cada dimensión ahora tiene coeficientes que afectan a todas las demás medidas.

La notación tensorial simplifica la representación, pero no la hace más intuitiva.

Odiaría explicárselo a mi hijo de 8 años.

De acuerdo: solo pensé: haré que mi hija se imagine midiendo la distancia a un globo, pero el globo se mueve y se hace más pesado a medida que se mueve y su peso aumenta su velocidad. Algo como eso.

Siempre voy con lo siguiente, si estoy hablando con personas sin experiencia en geometría, álgebra o transformaciones:

Los tensores son objetos que toman una cierta cantidad de vectores de columna y fila para formar un escalar. Entonces, si comienza con un tensor, y lo multiplica por un conjunto de n vectores de columna y un conjunto de vectores de fila m y termina con un escalar, lo que comenzó con un tensor mixto de rango n + m, y , si se preocupan por tales cosas, tiene n direcciones de tipo fila (covariante o espacio dual) ym direcciones de tipo columna (contravariante o espacio vectorial). El ejemplo común es un tensor de rango 2, 1 fila, 1 columna, que a menudo encontramos representados como una matriz.

Creo que el producto tensor según lo definido en la mecánica cuántica proporciona el medio más fácil para comprender los tensores en general, ya que le da un significado físico explícito a los tensores de múltiples índices. En mecánica cuántica, el estado de un sistema puede ser descrito por un vector en un espacio vectorial. Entonces, digamos que tenemos una partícula. Describiremos el estado de esa partícula por un vector ket [math] | \ psi_1 \ rangle [/ math].

Ahora agregue una segunda partícula. ¿Cuál es el estado de nuestro sistema total? Uno de los postulados de la mecánica cuántica dice que el espacio vectorial de este sistema más grande es igual al producto tensorial de los espacios individuales de las dos partículas y, suponiendo que nuestras partículas no se enreden, obtenemos un nuevo estado que es el producto tensorial. de los dos estados originales: [math] | \ psi \ rangle = | \ psi_1 \ rangle \ otimes | \ psi_2 \ rangle [/ math].

Presente, ahora, la famosa definición tautológica de un tensor: un tensor es algo que se transforma como un tensor. Nuestro estado de una partícula se transforma como un vector, es decir, a través de un operador lineal que actúa sobre el espacio vectorial de una sola partícula. Por lo tanto, es un vector que definimos como un tensor (1,0) (tenga en cuenta que por ahora no es particularmente importante si llamamos a nuestro vector de estado covariante o contravariante ). ¿Pero qué pasa con el sistema de dos estados? Para transformar eso, necesitamos transformar dos componentes, lo que hace que este estado sea un tensor (2,0). En la notación de índice (donde el índice se extiende sobre los componentes del vector, es decir, las columnas si representamos el vector como un vector de columna) podemos escribir esto de la siguiente manera:

[matemáticas] | \ psi_1 \ rangle = T ^ \ mu \ a A ^ {\ mu ‘} _ \ mu T ^ \ mu = A | \ psi_1 \ rangle [/ matemáticas]

[matemáticas] | \ psi_1 \ rangle \ otimes | \ psi_1 \ rangle = T ^ {\ mu \ nu} \ to A ^ {\ mu ‘} _ \ mu B ^ {\ nu’} _ \ nu T ^ {\ mu \ nu} = (A \ otimes B) (| \ psi_1 \ rangle \ otimes | \ psi_2 \ rangle) [/ math]

Tomemos un descanso ahora y analicemos lo que hicimos. Comenzamos con un espacio vectorial, algo que todos conocemos y amamos, y llamamos a los vectores (1,0) tensores. Luego presentamos el producto tensor que nos permitió generalizar (1,0) tensores a tensores con más de un índice. Por supuesto, estos tensores más grandes son técnicamente todavía vectores pero en un espacio vectorial mucho más grande; si quisiéramos, podríamos tomar, digamos, un tensor (2,0) en tres dimensiones y representarlo como un tensor (1,0) en las dimensiones [matemática] 3 ^ 2 = 9 [/ matemática]. En este sentido, los tensores no son tanto generalizaciones de vectores como un formalismo más elegante para representar vectores que pertenecen a espacios de productos tensoriales.

Continuando, consideremos ahora los funcionales lineales. Un funcional es una función que toma un vector como su entrada y le da un escalar como su salida. El ejemplo más familiar de un funcional lineal es el producto interno. Tome, por ejemplo, nuestro vector ket inicial [math] | \ psi_1 \ rangle [/ math] y conviértalo en un vector de sujetador (es decir, un funcional lineal) [math] \ langle \ psi_1 | [/ math]. Cuando actuamos este vector de sujetador en un vector ket, llamémoslo [math] | \ phi_1 \ rangle [/ math], obtenemos un escalar, el producto interno entre estos dos vectores, que denotamos con [math] \ langle \ psi_1 | \ phi_1 \ rangle [/ math] (o, en notación de índice, [math] W_ \ mu V ^ \ mu [/ math]). Debería ser evidente que estos funcionales forman su propio espacio vectorial y también son vectores que llamamos tensores (0,1) y al igual que con los tensores (1,0) podemos crear tensores más grandes usando el producto tensorial. De hecho, incluso podemos tomar el producto tensorial entre los vectores sujetador y ket para obtener tensores mixtos (p, q).

Volviendo a nuestra tautología, podemos definir un tensor (0, q) como algo que se transforma como un tensor (0, q). En notación de operador, un vector de sujetador se transforma por el inverso del operador que transforma su compañero de ket idéntico. En notación de índice, un vector de sujetador obtiene índices suscritos y se transforma de la siguiente manera:

[matemáticas] \ langle \ psi_1 | = T_ \ mu \ a A ^ \ mu _ {\ mu ‘} T_ \ mu [/ matemáticas]

Podemos combinar estas leyes de transformación para ver que el producto interno en realidad es un escalar. Un escalar es algo que es invariable para las transformaciones. Si nuestras transformaciones representan, digamos, rotaciones, entonces un escalar es una cantidad que es invariante a las rotaciones. Si pensamos en nuestras transformaciones como transformaciones pasivas, por supuesto, el producto interno entre dos vectores no debería cambiar (no estamos cambiando los vectores, solo la forma en que los representamos) y podemos ver que no:

[matemáticas] W_ \ mu A ^ \ mu _ {\ mu ‘} A ^ {\ mu’} _ \ mu V ^ \ mu = W_ \ mu V ^ \ mu [/ matemáticas]

Hagamos un resumen final. Un vector es un objeto que vive en un espacio vectorial. Transformamos este vector usando operadores lineales. Si nuestro vector es una partícula, entonces una transformación podría ser un cambio de base de coordenadas o podría corresponder a un cambio en el estado de la partícula, por ejemplo, su giro. Podemos escribir este vector usando una letra con un índice único que abarca la dimensión del vector (usando el giro de un electrón como ejemplo, el índice puede tomar dos valores que dan el componente de giro positivo de la partícula y su componente de giro negativo). Podemos generalizar este tensor de índice único a un tensor de índice múltiple que podría corresponder, por ejemplo, a un sistema de partículas múltiples. Los tensores de índice múltiple se transforman transformando cada uno de los índices por separado. En el caso de un sistema de dos partículas, podemos cambiar el giro de una partícula mientras dejamos sola la otra partícula (o podemos transformar los índices juntos y enredar las partículas). Los tensores más generales pueden tener índices superiores e inferiores, aunque creo que profundizar más en los tensores de múltiples índices merece una pregunta separada (ver, por ejemplo, ¿Cuáles son las diferencias físicas entre los tensores contravariantes y covariantes?).

Hice un pequeño proyecto sobre geometría diferencial y le hice a mi asesor esa pregunta exacta. Su respuesta: “Siempre los imaginé como pequeños marcianos con antenas que comen un montón de vectores y vectores duales y luego escupen algunos números de otros tensores … … no estoy completamente seguro de por qué tendría antenas … ”
El hombre es profesor de matemáticas.

Sin embargo, en serio, así es como pienso en ellos, al igual que cuando aprendiste sobre las funciones como máquinas pequeñas que comen un número y generan uno diferente.

Esto será intuitivo, no en el sentido de que sea simple u concreto, sino en el sentido de que todas las demás representaciones de tensores se caerán como casos especiales concretos. Piense en esta respuesta como una especie de pegamento que explica cómo se puede definir un tensor de muchas maneras.

Los tensores convierten ciertas operaciones bilineales en operaciones lineales. Esto es útil ya que los mapas lineales se encuentran entre los objetos más fáciles de estudiar y comprender en matemáticas.

Más precisamente, suponga que [math] V, W, X [/ math] son ​​espacios vectoriales y [math] f: V \ times W \ rightarrow X [/ math] es un mapa bilineal. Usando tensores, podemos obtener un mapa lineal [math] g: M \ rightarrow X [/ math] que en muchos aspectos es “igual” que [math] f [/ math], donde [math] M [/ math] es un espacio misterioso cuya identidad y naturaleza precisas deduciremos a continuación.

Para construir [matemática] M [/ matemática] y [matemática] g [/ matemática], primero regresemos a [matemática] V \ veces W [/ matemática]. [math] f [/ math] es un mapa bilineal en este espacio, pero nos gustaría convertirlo en un mapa lineal en un espacio ligeramente diferente. Si está familiarizado con los objetos libres, su intuición podría sugerir que podríamos comenzar con el espacio vectorial libre generado por el conjunto [math] V \ times W [/ math]. De hecho, la propiedad universal satisfecha por los objetos libres nos permite extender [math] f [/ math] desde un mapa en el conjunto [math] V \ times W [/ math] a un mapa lineal en el espacio vectorial libre [math] F [/mates]. Llamemos al mapa extendido [math] f ‘[/ math].

El problema es que el espacio vectorial libre sobre el producto cartesiano [matemática] V \ veces W [/ matemática] es potencialmente casi incomprensiblemente grande. Es mucho más grande de lo que necesitamos. Entonces, veamos si hay alguna relación especial que podamos introducir en este espacio vectorial libre [matemática] F [/ matemática] para colapsarla en algo más razonable.

Podemos escribir este espacio libre como la suma directa

[matemáticas] F = \ bigoplus _ {(x, y) \ en V \ veces W} \ mathbb {R} \ delta _ {(x, y)} [/ matemáticas]

donde asumí tácitamente que nuestros espacios vectoriales están definidos sobre el campo de los números reales.

Todo lo que necesitamos hacer es introducir las obvias relaciones de bilinealidad. Hacemos esto a través de la maquinaria familiar de espacios de cociente. Es decir, consideramos el subespacio [matemáticas] D [/ matemáticas] abarcado por las relaciones [matemáticas] \ delta _ {(x + z, y)} – \ delta _ {(x, y)} – \ delta _ {(z, y)} [/ math], etc., y calculamos el espacio del cociente [math] F / D [/ math]. Es fácil comprobar que el núcleo del mapa lineal extendido [math] f ‘[/ math] contiene estos generadores de [math] D [/ math] y, por lo tanto, [math] f’ [/ math] está bien definido en [ matemáticas] F / D [/ matemáticas].

En la práctica, escribimos [math] V \ otimes W [/ math] para el espacio [math] F / D [/ math], y presentamos un mapa especial [math] \ otimes: V \ times W \ rightarrow V \ otimes W [/ math] definido a través de [math] \ otimes (v, w) = \ delta _ {(v, w)} \ text {mod} D [/ math]. A menudo escribimos este mapa usando notación infija en su lugar como [math] v \ otimes w [/ math].

Ahora podemos finalmente decir que [matemáticas] M = V \ otimes W [/ matemáticas] y [matemáticas] g = f \ circ \ otimes [/ matemáticas].

Ahora, en este punto, los tensores aparecen en muchos lugares y en muchas formas. Muchos de los lugares más inesperados que surgen surgen de los diversos poderes tensoriales de un espacio vectorial: [matemáticas] V ^ {\ otimes k} [/ matemáticas]. Cuando un físico habla de un “tensor de rango [math] k [/ math] contravariante”, realmente se refiere a una entidad que representa la colección de todas las representaciones de coordenadas posibles de un elemento específico de [math] V ^ {\ otimes k} [ /mates]. En la práctica, se referirán a una representación de coordenadas específica como el tensor y luego decretarán que el tensor debe transformarse de una manera contravariante particular bajo el cambio de coordenadas. Esta ley de transformación es simplemente una declaración de la relación natural satisfecha automáticamente por dos representaciones de coordenadas diferentes de un elemento de [math] V ^ {\ otimes k} [/ math].

Para ser un poco más preciso al respecto, considere un tensor de rango 2 sobre 3 espacios [math] \ mathbb {R} ^ 3 [/ math]. Seleccione tres vectores básicos para 3 espacios: [matemática] x, y, z [/ matemática]. Entonces un tensor de rango 2 es una combinación lineal de los llamados tensores elementales [matemática] x \ otimes x, x \ otimes y, x \ otimes z, \ dots, z \ otimes x, z \ otimes y, z \ otimes z [/ matemáticas]. Hay exactamente 9 de estos tensores elementales, por lo que podemos pensar en un tensor general de rango 2 en 3 espacios como un conjunto de 9 números. Cada uno de los 9 componentes del tensor representa una cantidad que se ha asociado con un par ordenado particular de vectores de base en el espacio vectorial subyacente. Esto conduce directamente a una forma natural de visualizar dicho tensor e inmediatamente muestra la relevancia para la física.

De manera similar, cuando alguien se refiere a un “tensor de rango [matemático] l [/ matemático] covariante”, realmente significan la colección de todas las representaciones de coordenadas posibles de un elemento específico de [matemático] (V ^ *) ^ {\ otimes l} [/ math], donde [math] V ^ * [/ math] es el espacio dual de [math] V [/ math].

También escuchará que los físicos a veces hablan de tensores “mixtos” con índices contravariantes [matemáticos] k [/ matemáticos] e índices covariantes [matemáticos] l [/ matemáticos]. Se refieren a todas las representaciones de coordenadas de un elemento específico de [matemáticas] V ^ {\ otimes k} \ otimes (V ^ *) ^ {\ otimes l} [/ matemáticas].

También es muy común escuchar un tensor denominado mapa multilineal de valor real que toma argumentos vectoriales tangentes [math] k [/ math] y argumentos vectoriales cotangentes [math] l [/ math]. Si denotamos el espacio de mapas como [math] T_k ^ l [/ math], entonces esto resulta directamente del importante isomorfismo

[matemática] T_k ^ l \ cong (V ^ *) ^ {\ otimes l} \ otimes V ^ {\ otimes k} [/ math].

Podemos volvernos aún más exóticos si consideramos la suma directa de todos los poderes tensoriales de un solo espacio vectorial [matemática] V [/ matemática], que podríamos llamar el álgebra tensorial sobre [matemática] V [/ matemática]. El álgebra tensorial se clasifica de forma natural y admite algunas álgebras de cociente extremadamente útiles, incluido el álgebra exterior a partir del cual se deriva la teoría de las formas diferenciales. Desde este punto, es un viaje corto (pero intenso) a algunos de los grandes pilares de las matemáticas modernas, incluida la cohomología de De Rham que conecta el análisis, la geometría, la topología y el álgebra.

More Interesting

¿Qué herramientas estadísticas se necesitan para la extracción de características y el reconocimiento de patrones en el procesamiento de imágenes?

¿Qué tan útiles son los límites de convergencia en la aplicación práctica del aprendizaje automático?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?

¿Cuál es el nuevo enfoque o idea en la tecnología de Vicarious Systems?

¿Cuál es la diferencia entre las redes de Markov y las redes bayesianas?

¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

¿Cuáles son las 3 mejores GPU, independientemente del precio del aprendizaje profundo, especialmente si necesitamos mucha RAM de GPU, así como cálculos de alto rendimiento / velocidad?

¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

¿Cuál es la tasa de error de trama (FER) en las tareas de reconocimiento de voz?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?

¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?

¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?

¿Cuáles son las nuevas modificaciones en las redes neuronales recurrentes cuando se considera el aprendizaje profundo?

¿Podemos agregar la capa SVM como capa inferior en la arquitectura CNN para una mejor clasificación?