En el aprendizaje automático, ¿un ‘espacio de características’ es lo mismo que un ‘espacio vectorial’?

Un espacio de características es típicamente un ejemplo de un espacio vectorial. La noción de un espacio vectorial es mucho más general.

Un espacio vectorial es cualquier dispositivo algebraico que admita

  • suma y resta de “vectores” (y tiene un vector cero) y
  • multiplicación escalar de vectores (que da como resultado un vector)

sujeto a los tipos habituales de leyes. Puede consultar Wikipedia para obtener detalles si lo desea. Por ejemplo, el espacio vectorial [math] \ mathbb {R} ^ n [/ math] consiste en todas las tuplas ordenadas [math] n [/ math] de números reales. La suma y la multiplicación escalar son componentes sabios.

Un espacio vectorial que no es un espacio de características:

El conjunto de funciones continuas [math] \ mathbb {R} \ to \ mathbb {R} [/ math] es un espacio vectorial. Puede sumar o restar dos de esas funciones. La función constante [matemática] 0 [/ matemática] sirve como vector cero. También puedes multiplicar escalar. Este espacio, generalmente denotado [math] C ^ 0 (\ mathbb {R}) [/ math], no es el tipo de espacio vectorial que se producirá como un espacio de características en el aprendizaje automático.

Un tipo de espacio de características:

En el aprendizaje automático, describimos ejemplos por ciertas características. Si estamos tratando de representar a las personas, estas características pueden ser “edad”, “peso”, “ingresos”, “género”, etc. Las tres primeras pueden representarse naturalmente como números. El género también puede, aunque no tan naturalmente: una estrategia común es codificar el hombre como [matemáticas] 0 [/ matemáticas], las mujeres como [matemáticas] 1 [/ matemáticas], e ignorar los géneros no binarios. El resultado, en este caso, es una [matemática] 4 [/ matemática] -tupla de números. Por ejemplo, una mujer de 25 años que gana $ 90,000 por año y pesa 120 libras. estaría representado por los vectores [matemática] (25,120,90000,1) [/ matemática]. Ese es un elemento de un espacio vectorial de cuatro dimensiones que, en este caso, es el espacio de características.

Otro tipo de espacio de características:

Otro ejemplo de aprendizaje automático: supongamos que nuestros puntos de datos representan visitas a un sitio web. Hay funciones numéricas (p. Ej., Tiempo dedicado a la página, fecha desde que el usuario se registró, etc.). También puede haber variables categóricas como el tipo de cliente (web, web móvil, aplicación de Android o aplicación de iOS). No hay un orden natural en estos tipos de clientes, por lo que no podemos codificarlos como valores especiales de un solo número ( ¿ves por qué? ). Entonces, el “espacio de características” no es naturalmente un espacio vectorial en este caso. Un truco estándar para forzar que este sea un espacio vectorial es crear múltiples funciones binarias: is_web , is_mobile_web , is_android , is_ios , cada una de las cuales puede ser [math] 0 [/ math] o [math] 1 [/ math]. Aunque en la práctica, generalmente omitimos uno de estos ( ¿ves por qué? Sugerencia: colinealidad ).

Espacios de características de horquilla de zapatos en forma de espacio vectorial

Muchas cosas que nos gustaría estudiar con el aprendizaje automático no son espacios vectoriales “naturalmente” de ninguna manera. El texto es un ejemplo común. Pero incluso en estos casos, el aprendizaje automático casi siempre resuelve el problema al poner el espacio de características en forma de espacio vectorial. Las incrustaciones de palabras y frases en el espacio vectorial son muy populares en este momento (ver, por ejemplo, Word2vec – Wikipedia).

Lo que llamaría un “espacio de características” es el espacio en el que se sitúa la representación de las características. En general, si está viendo n características, el espacio de características sería un subconjunto de [matemática] R ^ n [/ matemática] o [matemática] R ^ {n + 1} [/ matemática] si incluye un término constante en su vector de características.

Técnicamente, este subconjunto no sería un espacio vectorial, debido al hecho de que las variables de características no toman todos los números reales, sino solo un rango realista. Por ejemplo, si predice los precios de la vivienda a partir de pies cuadrados y la edad de la casa, los pies cuadrados pueden estar entre unos cientos de pies cuadrados y unos pocos miles, y la edad entre 0 y 100 años. (Una propiedad de un espacio vectorial es si un vector v está en el espacio, yk es cualquier número real, kv también está en el espacio).