¿Cuál es una explicación simple de un espacio de características multidimensionales?

Cuando pensamos en el concepto de dimensiones, siempre pensamos en el “espacio” físico en el que vivimos. Describimos nuestra posición en el espacio con tres números que a menudo están representados por las variables x, y y z. Si elijo que el centro del universo sea mi sala de estar, z está arriba, y apunta al norte y x apunta al este. En este momento, estoy en x = 1.0 metros, y = -4.0 metros, y z = 0.0 metros. Así es como describe mi posición con respecto al centro de mi sala de estar.

Una representación más compacta de esta posición es [1.0, -4.0,0.0] . Eso es lo que llamamos un ” vector “. Más precisamente, es un vector tridimensional, o “3-vector”, porque tiene 3 números que describen mi posición en el espacio físico 3D.

También puedes describir otras cosas con vectores. Por ejemplo, ¿cómo describirías matemáticamente un rostro humano? Puede usar la siguiente información:

Color de la piel, representado como un valor que describe la concentración de un determinado pigmento (1 valor, 1 total)
Color del cabello, representado como un valor que describe la concentración de otro pigmento (1 valor, 2 en total)
Distancia entre ojos (1 valor, 3 en total)
Color de ojos (1 valor, 4 en total)
Distancia entre nariz y boca (1 valor, 5 en total)
Altura y ancho de la cabeza (2 valores, 7 en total)

Entonces podemos describir mucho (pero de ninguna manera todo) sobre el rostro humano usando 7 números. Y para describir un solo rostro humano, podemos usar un vector de números de 7 dimensiones . Estos números son lo que se llaman características . El vector que contiene estas características en un orden específico es un vector de características de 7 dimensiones . Cada vez que hay muchas características que estamos utilizando pero no sabemos el número exacto, decimos vector de características multidimensionales.

Si quisiéramos describir 100 rostros humanos, organizamos estos descriptores faciales de 7 vectores en un bloque. El ancho del bloque sería de 7 (el número de características), y la altura del bloque sería de 100 (el número de personas). Este bloque se llama matriz de características multidimensionales .

Un espacio de características multidimensionales es simplemente el sistema de coordenadas en el que todas las características “viven”, al igual que una coordenada x, y, z “vive” en un espacio físico tridimensional. Una matriz de características multidimensionales describe un grupo de puntos: un vector de n características es un punto n-dimensional, solo un 3-vector puede describir un punto en el espacio físico 3D, que “vive” en un espacio de características multidimensionales. ”

El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?

¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?

¿Cuáles son algunos ejemplos de inteligencia artificial en sitios web?

¿Cuáles son las diferencias entre los algoritmos CHAID y CART para el crecimiento de los árboles de decisión?

¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?

¿Cuáles crees que son los campos más emocionantes del aprendizaje automático fuera del aprendizaje profundo?

Me gustan las respuestas aquí y solo agregaré otra perspectiva.

El concepto es bastante fácil si piensas en un espacio de características unidimensional. Tome la presión arterial como ejemplo. Existen muchos estudios que analizan el impacto de la presión arterial en la salud. La presión arterial es la característica en este caso. Por lo tanto, uno podría tratar de predecir la esperanza de vida utilizando la presión arterial como característica, pero puede imaginar que esto podría no funcionar muy bien. Realmente necesitas más información. Por lo tanto, puede agregar niveles de colesterol, frecuencia cardíaca en reposo, índice de masa corporal y una serie de otras mediciones para ver si puede predecir la esperanza de vida de una persona. Esas mediciones adicionales también son características y ahora cada individuo tiene un vector de características multidimensionales que consiste en estas mediciones (en un momento dado de todos modos).

Con una característica única (como la presión arterial) puede trazar una distribución, por ejemplo, un histograma, de la presión arterial para una población. Incluso puede trazar un histograma bidimensional para dos parámetros como el colesterol y la presión arterial. Esto se vería como un mapa topográfico. Si la forma de la distribución era muy “diagonal” en todo el mapa, entonces podría pensar que la presión arterial y el colesterol están correlacionados, cuando uno cambia, el otro cambia junto con él. Hay formas más sencillas de probar esto que mirar la distribución 2-D, pero la distribución le dará cierta intuición.

Es muy difícil visualizar las distribuciones cuando el número de características es superior a 3. Solo tiene tres dimensiones (como máximo) para trazar las cosas. Tendría que usar algo no espacial para otros parámetros. ¿Qué tal el olor y la temperatura? “Cuando hace frío y huele a zapatos viejos y estamos parados en esta esquina, la gente parece vivir más”. Bueno, te haces una idea, ¡es difícil trazar distribuciones multidimensionales!

Los espacios multidimensionales son importantes debido a las correlaciones entre los parámetros. Entonces, por ejemplo, digamos que la presión arterial, el nivel de colesterol y el índice de masa corporal están correlacionados. Ahora, digamos que también trazamos puntos de datos de una gran población en tres dimensiones (imagine una nube de puntos) y digamos que esta nube de puntos parece formar una forma plana como una hoja de papel o un disco de papel.

De acuerdo, esto es algo interesante. Los datos que están en un plano, que son planos, en nuestro diagrama tridimensional no son realmente tridimensionales. Lo sabes porque un avión tiene dos dimensiones. Lo único que lo convierte en 3 dimensiones es que alguien de alguna manera giró el avión. Con algunos trucos matemáticos, puede girar ese plano hacia abajo a 2 dimensiones. Lo que quiero decir es que puede “transformar” cada punto de datos de 3-d a 2-d y ahora, cuando traza los datos de 2-d, se verá como el disco (u hoja) de papel en un 2-d (no rotada) trama.

Pido disculpas por esta larga y complicada historia, pero hay una razón para ello. Esa transformación que acabas de hacer te ha dejado con puntos de datos 2D. Sabes que esto es lo correcto porque los datos se veían realmente planos cuando los trazaste. ¿Pero cuáles son estas dos dimensiones? No tienen etiquetas como presión arterial, índice de masa corporal o colesterol. Son dos parámetros para los que no tenemos nombres derivados de los tres parámetros para los que sí tenemos nombres.

El punto que estoy tratando de hacer es que este es a menudo el caso en las aplicaciones de aprendizaje automático: terminas con una “representación” multidimensional derivada de parámetros sobre los que tienes cierta intuición. No tienes mucha intuición sobre la “representación”, pero hay herramientas que puedes usar para ayudar con eso. En realidad, estas herramientas son algunos de los temas principales en el aprendizaje automático.

Eso fue todo lo que quería agregar. Si escucha el término “análisis de componentes principales” o PCA, ¡no tenga miedo! Se trata de rotar hojas planas de datos flotando en el espacio (con más dimensiones).

Fred Richardson

Grados de libertad

En espacios multidimensionales, cada dimensión intrínseca de los datos está relacionada con un grado de libertad. Por ejemplo, si tiene puntos en una línea, solo tiene un grado de libertad, ya que puede moverse hacia la izquierda o la derecha sobre la línea. Lo mismo ocurre con un objeto 3D que gira en un solo eje, el objeto solo tiene un grado de libertad, si agrega un segundo eje, entonces tiene dos grados de libertad, etc.

Consideremos el conocido conjunto de datos MNIST, ¿cuáles son los grados de libertad aquí? Resulta que cada dígito tiene grados de libertad relacionados con las diferentes formas en que se puede escribir el número, para un 7 por un 7 puede agregar o no una línea de cruce, puede cambiar el ángulo entre la barra superior y el cuerpo del número, puede rotar el número, reducirlo, agrandarlo, etc. puede terminar con un número que puede ir de una docena a 30 más o menos dependiendo del número, pero eso es todo, solo hay una lista limitada de diferentes formas en que puede escribir cada uno número.

Recuerde que esto se trata de la dimensionalidad intrínseca, a menudo los datos están incrustados en un espacio de mayor dimensionalidad, MNIST generalmente está en 784 dimensiones y no tenemos tantos grados de libertad para escribir un dígito, por lo que la dimensionalidad intrínseca es menor.

Fred Richardson

More Interesting

¿Cómo se puede aplicar el aprendizaje profundo a los sistemas de recomendación en el mercado de valores?

¿Cómo puedo evitar el sobreajuste?

¿Se están realizando estudios actuales que utilicen la minería de datos o el aprendizaje automático en campos científicos?

¿Por qué los modelos basados en árboles son robustos para los valores atípicos?

¿Pueden los algoritmos de aprendizaje automático de análisis de datos reemplazar el trabajo realizado por los científicos de datos?

¿Qué significa el impulso en las redes neuronales?

¿Por qué los CNN se usan más para tareas de visión por computadora que otras tareas?

¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?

¿Qué es la agrupación conceptual?

¿Cómo funcionan las redes interbancarias?