¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?

PCA es realmente solo SVD con resta media. Con datos binarios muy escasos (la norma en aplicaciones realmente grandes) esto hace muy poca diferencia.

La SVD a escala se realiza mejor (en mi humilde opinión) mediante proyección estocástica. Mahout tiene una implementación de esto. Las virtudes son que no se requiere ningún tipo de iteración de descenso de gradiente abierto. Obtiene los valores y vectores singulares superiores después de un número fijo y pequeño de pasos de reducción de mapa.

Alternar mínimos cuadrados (ALS) es muy competitivo para proyecciones que no son realmente una descomposición de valores singulares.

En mi opinión, la proyección estocástica es un algoritmo más fresco que tiene ventajas de escalabilidad potenciales sobre la ELA, pero en la práctica a escalas actuales, dudo que eso haga mucha diferencia. Tanto SVD como ALS se basan en un error al cuadrado que es inapropiado para los datos de conteo por razones bien conocidas.

La asignación de Dirichlet latente (LDA) evita algunos de los problemas con supuestos de error al cuadrado a un costo computacional tremendo. La implementación de Vowpal Wabbit de LDA tiene fama de ser muy rápida y puede ser competitiva por lo que está haciendo.

Las implementaciones de aprendizaje más profundas que involucran el aprendizaje de componentes no lineales suelen ser aún más costosas y solo hay algunos ejemplos de su uso a escala. Google informó algunos resultados sobre aprendizaje profundo en el reciente ML Workshop, por ejemplo.

Una excepción al alto costo general de las descomposiciones no lineales es la codificación de distancia de clúster. En este enfoque, utiliza algo como k-means y codifica sus datos como las distancias (o similitudes) a los pocos grupos más cercanos. Esto tiene muchos de los beneficios de los sistemas de codificación más conocidos, pero es mucho más fácil de implementar. En particular, el próximo sistema k-means para Mahout permitirá una agrupación de k-means a gran escala con valores muy grandes de k.

Related Content

¿Qué es la regularización neta elástica en el aprendizaje automático?

Cómo explicar intuitivamente los tensores

Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?

¿Cuáles son las habilidades requeridas para un ingeniero de aprendizaje automático / aprendizaje profundo de nivel básico?

Cómo garantizar que la función SIFT sea invariante en perspectiva

En la curva ROC, cualquier punto es resultado del modelo en un parámetro particular. No estoy claro por qué el adivinador aleatorio está en x = y y no siempre (0.5, 0.5). ¿También cómo interpretar el área bajo la curva?

URL personalizadas

Técnicas populares de reducción de la dimensionalidad lineal:

Análisis de componentes principales ** – Más popular
Cuantización vectorial
Valor singular de descomposición

Técnicas populares de reducción de la dimensionalidad no lineal:

Isomap
Microsoft MDS (escalamiento multidimensional)
Kernel PCA
Autoencoder **
Incrustación lineal local (LLE): lo mejor para hacer DR en las regiones locales. Supera el problema que PCA no puede resolver.

Sean Owen

More Interesting

¿Se ha resuelto el problema de reconocimiento de caracteres escritos a mano?

¿Es un doctorado en inteligencia artificial una cosa? ¿O el doctorado estaría realmente en aprendizaje automático / visión artificial, etc.?

¿Existe alguna herramienta o API capacitada en datos de tweets para la extracción de entidades con nombre?

¿Cuál es un resumen del trabajo de Jordan Boyd-Graber sobre la Respuesta incremental interactiva a preguntas que le valió el Premio a la Demostración Excepcional de NIPS?

¿Qué pasaría si las máquinas escribieran algunas de las preguntas sobre Quora?

¿En qué dominios encuentra aplicación la tecnología de procesamiento de eventos complejos (CEP)?

¿Qué técnicas utilizadas en el procesamiento del lenguaje natural son aplicables a otras áreas del aprendizaje automático?

En una unidad LSTM, ¿cuál es la razón detrás del uso de una activación de tanh?

Cómo obtener todos los problemas de investigación en el aprendizaje por refuerzo

¿Cuáles son las formas de ingresar a Stanford para obtener una maestría en informática o una maestría en aprendizaje automático e inteligencia artificial?

Cómo probar la idoneidad de diferentes funciones del núcleo en un proceso gaussiano (GP) en el modelado de una función

¿Alguien puede presentar un tutorial o un documento sobre cómo elegir el valor de 'C' en la función de regresión logística scikit-learn?

¿Cuál es mejor, el aprendizaje automático de Stanford en Coursera o un nanogrado Udacity?

¿Cuál es el significado de la investigación de OpenAI sobre estrategias de evolución y el hallazgo de que rivalizan con el desempeño del aprendizaje por refuerzo?

¿Cómo genera el modelo generativo muestras de ruidos?

Web Analytics