¿Qué clasificadores de aprendizaje automático escalan muy bien a big data? ¿Hay alguna referencia de papel?

SVM

Los SVM son computacionalmente muy caros y tienen la reputación de ser difíciles de escalar para grandes conjuntos de datos. Se ha trabajado un poco para crear versiones distribuidas / paralelas de SVM (enlace a los documentos a continuación), pero incluso entonces, en la mayoría de los sistemas de aprendizaje automático distribuidos que la gente está construyendo (h2o, dato), SVM queda en segundo plano, aunque eso podría También se debe a la popularidad comparativa de algoritmos como Random Forests y Gradient Boosting.

  1. http://www.jmlr.org/proceedings/…
  2. http://www.jmlr.org/papers/volum…
  3. http://papers.nips.cc/paper/3202…

Bosque aleatorio, aumento de gradiente

Estos conjuntos se prestan bastante bien a la paralelización, y como se mencionó anteriormente, son priorizados por los sistemas distribuidos de aprendizaje automático que se están construyendo en estos días. Si está construyendo un sistema desde cero, este sería el modelo más directo para incorporarlo. Para determinar si esto se escala lo suficientemente bien para usted, puede usar cualquiera de las soluciones disponibles y verlo por usted mismo.

Las máquinas de aumento de gradiente pueden funcionar mejor que los bosques aleatorios en una serie de problemas, pero tienen una mayor cantidad de hiperparámetros para ajustar, por lo que es posible que desee considerar eso.

Regresión lineal y logística.

Como se señaló en otra parte, estos algoritmos son los más fáciles de escalar, y probablemente deberían ser los primeros algoritmos que se prueban para un problema dado (es una buena idea comenzar siempre con la hipótesis más simple).

Aquí hay un documento interesante que debe mirar: http: //static.googleusercontent….

ANA

Con Big Data, probablemente esté viendo Deep Learning (su red probablemente terminará teniendo muchas capas de todos modos). Hay mucho trabajo en marcha allí, y debes investigarlo (esta respuesta ya se está haciendo demasiado larga).

Mapa reducido

Este artículo de 2006 fue bastante interesante: http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf.

Reformuló una clase de algoritmos de aprendizaje automático para que pudieran encajar en el paradigma de reducción de mapas (y así encajar en sistemas multinúcleo o multinodo (como Hadoop)). De hecho, Mahout, la biblioteca de aprendizaje automático para Hadoop, se basó originalmente en el enfoque de ese documento. Pero parecen haberse mudado de MapReduce. El aprendizaje automático en el paradigma de MapReduce está muerto.

La regresión de mínimos cuadrados puede escalar bien (forma cerrada), pero prácticamente solo hasta un cierto número de puntos de datos N y dimensiones D. Para manejar, uno puede usar enfoques iterativos (rápidos para la comunicación distribuida en memoria persistente) como Gradiente Descenso , pero el problema debería ser preferentemente convexo para garantizar la convergencia de dichos métodos.
En general, un algoritmo debe ser barato en cada iteración y distribuirse fácilmente en todo el clúster, pero prestando atención a la convergencia y al costo de comunicación C. Un buen ejemplo de un método efectivo es el que (si es posible es preciso y) puede representarse utilizando un Divide y conquista la estrategia cuando solo se requiere una iteración y un paso de comunicación.

Regresión de mínimos cuadrados con un modelo lineal: se trata de multiplicar un montón de matrices.

More Interesting

¿Todas las técnicas de compresión de datos sin pérdida requieren algún tipo de archivo / metadatos de mapeo que ilustre cómo recuperar datos originales?

¿Cuál es la herramienta de big data más fácil que se puede utilizar para el aprendizaje automático?

¿Qué es la gobernanza de datos?

¿Qué estudios serían los más útiles para nuevas empresas durante las próximas décadas, informática o ciencia de datos?

¿Cuál es la próxima gran cosa después de Big Data?

¿Cuáles son algunos de los "productos de datos" creados por los grandes como Amazon, LinkedIn, Twitter, Facebook, etc.?

¿Cuáles son los ejemplos cuando Data Science se utilizó o se utiliza para proteger o cuidar el medio ambiente?

¿Cuáles son las diferencias entre la estandarización de datos y los servicios de anexión de datos?

¿Cómo pueden las empresas beneficiarse del análisis de datos?

¿Cuáles son las características de Big Data como servicio?

¿Cómo manejas los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?

¿Cuáles son las mejores compañías de big data en INDIA para un desarrollador de software?

¿Qué es ciudadano de datos?

Tengo seis meses donde tengo que aprender Minería de datos y no hacer nada más. ¿Donde debería empezar?

¿Cómo debe medirse el rendimiento de un equipo de ciencia de datos como una unidad? Por ejemplo, si lideraba el equipo de ciencia de datos de LinkedIn, ¿cómo debería evaluar mi desempeño el CEO?