Sugeriría ver Apache Spark ™ – Computación en clúster ultrarrápida
Es una gran herramienta para Big Data en general e incluye MLlib | Apache Spark que permite trabajar con algoritmos de Machine Learning a gran escala. Lista de algoritmos presentados actualmente:
- Máquina de vector de regresión logística y soporte lineal (SVM)
- árbol de clasificación y regresión
- bosque aleatorio y árboles impulsados por gradientes
- recomendación a través de mínimos cuadrados alternos (ALS)
- agrupación a través de k-medias, bisección de k-medias, mezclas gaussianas (GMM) y agrupación de iteración de potencia
- modelado de temas a través de la asignación de Dirichlet latente (LDA)
- análisis de supervivencia a través del modelo de tiempo de falla acelerado
- descomposición de valor singular (SVD) y descomposición QR
- análisis de componentes principales (PCA)
- regresión lineal con L1, L2 y regularización de red elástica
- regresión isotónica
- Bayes ingenuo multinomial / binomial
- extracción frecuente de conjuntos de elementos mediante reglas de asociación y crecimiento de FP
- minería de patrones secuenciales a través de PrefixSpan
- resumen de estadísticas y pruebas de hipótesis
- transformaciones de características
- evaluación del modelo y ajuste de hiperparámetros
- ¿Cuáles son las consecuencias y desventajas de usar datos agregados? ¿Cómo podemos combatirlos si no hay datos de nivel granular?
- ¿Podrían probarse los conceptos de la medicina tradicional china mediante el aprendizaje profundo?
- ¿Cuáles son las diferencias en profundidad, amplitud y rigor entre 6.036 Introducción al aprendizaje automático - MIT, y el curso del Curso de aprendizaje automático de Andrew Ng?
- ¿Cuál es la desventaja de usar ADVI?
- ¿Cuántos datos se producen diariamente y cómo se obtuvo esa cifra?