Me parece que el t-sne no puede mantener bien la relación de traducción. ¿Es causado por la configuración de parámetros?
Bueno, no creo que sea el problema t-sne (incrustación de vecino t-estocástico). El problema radica en el hecho de que la reducción de la dimensionalidad es siempre un proceso con pérdida, la información siempre se pierde cuando proyecta vectores de alta dimensión en un espacio de menor dimensión.
Por ejemplo, percibimos un mundo 3D de manera estereoscópica con 2 ojos que ven en 2D. La proyección del mundo 3D en representaciones 2D significa que nuestro sistema visual es propenso a las ilusiones porque solo inferimos profundidad, no lo sentimos a través de los ojos, la información de profundidad se pierde y solo se recupera por medios estereoscópicos por centros de alto nivel en el cerebro, visión estereoscópica.
- ¿Cuál es la mejor manera de analizar y predecir en base a un conjunto de datos que tiene texto y números?
- Cómo hacer la clasificación y agrupamiento de documentos en rapidMiner
- ¿Cuál es la diferencia entre un vector de pensamiento y un vector de omisión de pensamiento?
- ¿Qué lenguaje de programación se usa para el aprendizaje automático?
- Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.
El t-sne intenta que sea mejor proyectar los vectores de alta dimensión en espacios vectoriales de menor dimensión, generalmente en 2D o 3D para que podamos trazarlos en un diagrama de dispersión. Podemos visualizarlos de esa manera, pero inevitablemente se pierde mucha información. La relación de traducción completa normalmente se codifica parcialmente en cualquiera de las dimensiones que se pueden descartar durante el proceso de proyección.
Por ejemplo, imagine un conjunto de puntos 3D que varían principalmente en el plano xy y menos en la dirección z, luego aplico t-sne o alguna otra técnica de reducción de dimensionalidad. Está claro que al proyectar en el espacio inferior 2D, el plano xy se seleccionará fuertemente porque la variación es más fuerte allí. La dirección z tendrá poca influencia en los puntos proyectados.
Por lo tanto, los pocos puntos originales que variaron fuertemente en la dirección z no se representarán adecuadamente en el espacio dimensional inferior más nuevo, pero eso está bien porque la idea de la reducción de la dimensionalidad es capturar las direcciones más importantes y desechar las menos importantes, perdiendo así alguna información en el proceso.
Dicho esto, nunca puede haber un algoritmo de reducción de dimensionalidad que capture la información completa desde el espacio dimensional superior hasta el espacio dimensional inferior.
Lo mejor es representar diferentes diagramas de dispersión de diferentes ejecuciones de t-sne. Entonces puede visualizar mejor las relaciones de esa manera.
Espero que esto ayude.