¿Qué marco de trabajo en el aprendizaje automático puede manejar grandes conjuntos de datos?

Sugeriría ver Apache Spark ™ – Computación en clúster ultrarrápida

Es una gran herramienta para Big Data en general e incluye MLlib | Apache Spark que permite trabajar con algoritmos de Machine Learning a gran escala. Lista de algoritmos presentados actualmente:

  • Máquina de vector de regresión logística y soporte lineal (SVM)
  • árbol de clasificación y regresión
  • bosque aleatorio y árboles impulsados ​​por gradientes
  • recomendación a través de mínimos cuadrados alternos (ALS)
  • agrupación a través de k-medias, bisección de k-medias, mezclas gaussianas (GMM) y agrupación de iteración de potencia
  • modelado de temas a través de la asignación de Dirichlet latente (LDA)
  • análisis de supervivencia a través del modelo de tiempo de falla acelerado
  • descomposición de valor singular (SVD) y descomposición QR
  • análisis de componentes principales (PCA)
  • regresión lineal con L1, L2 y regularización de red elástica
  • regresión isotónica
  • Bayes ingenuo multinomial / binomial
  • extracción frecuente de conjuntos de elementos mediante reglas de asociación y crecimiento de FP
  • minería de patrones secuenciales a través de PrefixSpan
  • resumen de estadísticas y pruebas de hipótesis
  • transformaciones de características
  • evaluación del modelo y ajuste de hiperparámetros