SVM
Los SVM son computacionalmente muy caros y tienen la reputación de ser difíciles de escalar para grandes conjuntos de datos. Se ha trabajado un poco para crear versiones distribuidas / paralelas de SVM (enlace a los documentos a continuación), pero incluso entonces, en la mayoría de los sistemas de aprendizaje automático distribuidos que la gente está construyendo (h2o, dato), SVM queda en segundo plano, aunque eso podría También se debe a la popularidad comparativa de algoritmos como Random Forests y Gradient Boosting.
- http://www.jmlr.org/proceedings/…
- http://www.jmlr.org/papers/volum…
- http://papers.nips.cc/paper/3202…
Bosque aleatorio, aumento de gradiente
- En este mundo de análisis de datos de autoservicio, ¿cuál es el papel del profesional de datos de TI?
- Vivo en Bangalore y no soy ingeniero informático. ¿Puedo aprender big data y Hadoop y cambiar mi campo?
- ¿Cuál es el mejor: ciencia de datos, aprendizaje automático o informática?
- ¿Cómo se aplica el big data al marketing de películas?
- ¿Qué es lo primero que haces al mirar un nuevo conjunto de datos?
Estos conjuntos se prestan bastante bien a la paralelización, y como se mencionó anteriormente, son priorizados por los sistemas distribuidos de aprendizaje automático que se están construyendo en estos días. Si está construyendo un sistema desde cero, este sería el modelo más directo para incorporarlo. Para determinar si esto se escala lo suficientemente bien para usted, puede usar cualquiera de las soluciones disponibles y verlo por usted mismo.
Las máquinas de aumento de gradiente pueden funcionar mejor que los bosques aleatorios en una serie de problemas, pero tienen una mayor cantidad de hiperparámetros para ajustar, por lo que es posible que desee considerar eso.
Regresión lineal y logística.
Como se señaló en otra parte, estos algoritmos son los más fáciles de escalar, y probablemente deberían ser los primeros algoritmos que se prueban para un problema dado (es una buena idea comenzar siempre con la hipótesis más simple).
Aquí hay un documento interesante que debe mirar: http: //static.googleusercontent….
ANA
Con Big Data, probablemente esté viendo Deep Learning (su red probablemente terminará teniendo muchas capas de todos modos). Hay mucho trabajo en marcha allí, y debes investigarlo (esta respuesta ya se está haciendo demasiado larga).
Mapa reducido
Este artículo de 2006 fue bastante interesante: http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf.
Reformuló una clase de algoritmos de aprendizaje automático para que pudieran encajar en el paradigma de reducción de mapas (y así encajar en sistemas multinúcleo o multinodo (como Hadoop)). De hecho, Mahout, la biblioteca de aprendizaje automático para Hadoop, se basó originalmente en el enfoque de ese documento. Pero parecen haberse mudado de MapReduce. El aprendizaje automático en el paradigma de MapReduce está muerto.