¿Cuáles son algunos buenos métodos para explorar datos de alta dimensión?

Depende de tu objetivo.

Como mencionó George, las técnicas de aprendizaje automático no supervisadas básicamente agrupan datos en un espacio n-dimensional. Bastante trippy, y no totalmente intuitivo. Básicamente, debe regresar y mirar sus grupos y considerar lo que le dicen los datos: ¿Cuál es la observación ‘promedio’ en cada grupo? ¿Cuáles son las dimensiones más significativas? ¿Qué te dice esto sobre tus datos?

Probablemente porque soy economista y consultor estratégico en capacitación, generalmente empiezo simplemente volcando mis datos en Excel y ejecutando un montón de tablas dinámicas y gráficos básicos de líneas / barras / dispersión de cortes interesantes. Si los datos son realmente grandes, entonces podría tomar un subconjunto de datos para graficar. Esto puede construir algunas intuiciones sobre lo que realmente está mirando y ayudar a guiar las técnicas de ML más intensas como la agrupación o lo que sea.

En Machine Learning hay un conjunto de algoritmos llamados aprendices no supervisados. Muchos de esos algoritmos, incluido k-means, se utilizan para agrupar los datos en diferentes regiones de un espacio n dimensional y encontrar relaciones que serían inconcebibles debido a la complejidad de los datos. Además, el Análisis de componentes principales puede ayudar a reducir esa dimensionalidad para que pueda deshacerse de algunas variables no realmente dependientes.

More Interesting

En su opinión, ¿la sugerencia de lectura recomendada basada en la actividad de navegación de los usuarios de Wikipedia mejorará la genialidad del sitio?

Cómo visualizar un clasificador durante su entrenamiento

¿Qué es una red neuronal deconvolucional?

¿Cuál es la relación entre física y aprendizaje automático / IA?

¿Cuáles son los últimos algoritmos de aprendizaje de los vecinos más cercanos? Me refiero a todo lo que se basa en datos, como métodos basados ​​en instancias, kNN, algoritmos de aprendizaje vecinos y métricos, todo en un solo lugar.

¿Cuáles son los diferentes métodos de reducción de dimensionalidad en estadística?

¿Cómo decidimos entre usar la factorización a priori o matriz para el filtrado colaborativo?

¿Por qué alguien querría usar el refuerzo sobre el apilamiento?

¿Por qué el uso de información mutua / ganancia de información / funciones similares funciona mejor que simplemente usar el error promedio (usando probabilidad) para un booleano (conjunto de datos de 2 clases) al construir un árbol de decisión?

¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

¿Cuál es la diferencia entre una inferencia y una predicción?

¿Qué significa la afluencia de IA y Machine Learning en productos tecnológicos para los diseñadores de UX?

Cómo explicar intuitivamente los tensores

¿Mejor ejecución de trabajos de Machine Learning directamente desde Pyspark o integración de scikit-learn en, a través del método de paralelización SparkContext?

Los datos financieros fluyen como 'gatos que cambian sus caras porque las computadoras los reconocen en YouTube'. ¿Hay una solución a este problema?