Cómo encontrar grupos en estos datos

Bueno, lo simple es asumir cada matriz como un punto de datos en el espacio euclidiano de 1000 * 1000 dimensionalidad (esto se puede hacer concatenando a un vector grande el contenido de cada fila de una matriz … imagínelo como la operación vec en la manipulación de la matriz )

ahora que tiene la gran dimensionalidad, puede realizar un método de reducción de dimensionalidad.
el método más barato es a través de proyecciones aleatorias

Por lo tanto, sus datos son una matriz de tamaño (1600 * 1000000) y puede proyectarlos en una matriz (1600 * k) a través de proyecciones aleatorias, esto puede ser del orden 0 (log (1600)) ya que las proyecciones aleatorias se basan en el lema de Johnson-Lindenstrauss que establece que puede mantener con una precisión relativamente alta las distancias por pares de los puntos de datos del espacio inicial a un espacio de dimensión inferior (¡el lema depende del número de puntos y no de la dimensionalidad del espacio inicial! !!)

Lema de Johnson-Lindenstrauss

así que ahora que ha exprimido la información, tiene algunos ahorros computacionales …

Por cierto, cuando tiene matrices como puntos de datos, puede suponer que representan gráficos y probablemente puede consultar la literatura de minería de gráficos para definir distancias sobre los gráficos (el método clásico pero costoso es calcular los espectros de los gráficos, sus valores propios – y defina una métrica sobre ellos)

referencia:

Página en cmu.edu

espero que esto ayude

cualquiera que tenga una mejor intuición puede ayudar

Related Content

¿Cuál es el mejor método de aprendizaje automático para predecir los datos de prueba una vez que conozco los datos de entrenamiento y la etiqueta de entrenamiento?

¿Cuáles son los pros y los contras de Spark MLlib vs. H2O?

¿Qué significa la siguiente declaración: las redes neuronales son generalmente paramétricas y optimizadas para producir una estimación puntual?

¿Cuáles son algunas características comunes utilizadas en la clasificación basada en audio?

¿Tiene sentido usar la selección de características antes de Random Forest?

Cómo lidiar con múltiples resultados mutuamente dependientes en el aprendizaje automático

¿Funciona el aprendizaje profundo si las entradas están en un espacio dimensional relativamente bajo?

No creo que haya una solución general a este problema.

La solución típica es escribir otra métrica de distancia que sea mucho más rápida y proporcione un límite inferior de la distancia, de modo que no sea necesario llamar la métrica costosa con tanta frecuencia.

Obviamente, la métrica de distancia rápida depende de su aplicación, así como la lenta.

Matthew Lai

More Interesting

¿Tiene sentido tener un conjunto de validación y realizar una validación cruzada al construir modelos?

¿Es posible guardar el estado de una red neuronal?

¿Debo aprender R o Spark para computación de alto rendimiento?

¿Cuál es el punto de probar los datos en k-fold cross validation?

¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?

¿Cuántas imágenes necesita un buen sistema de aprendizaje automático para aprender un nuevo concepto?

Cómo comenzar a aprender Neural Network y PNL

¿Se utiliza el álgebra abstracta y el análisis real en el aprendizaje automático? Si es así, ¿cómo se usan?

Cómo calcular un puntaje usando la prueba de relación de distancia al vecino más cercano en MATLAB

¿Cuál es la diferencia entre aprendizaje gradual y aprendizaje de refuerzo?

Cómo ejecutar la regresión logística en SAS en los datos de una encuesta donde las variables dependientes e independientes son niveles de satisfacción (escala - 0 a 5)

¿Qué algoritmo funciona mejor para bandidos adversarios?

¿Cuántos desarrolladores necesitamos si queremos hacer uso de la API Watson de IBM?

¿Cuál es una mejor manera de comenzar a aprender Ciencia de Datos, a través de cursos en línea o en un Instituto de capacitación?

Web Analytics