¿Cuáles son los pros y los contras de Spark MLlib vs. H2O?

Esta respuesta se basa en información que tiene 3 meses de antigüedad, así que verifique dos veces. AFAIK la diferencia fundamental entre H2O y Spark MLLib es que H2O opera en un formato de datos especial (.hex) [1], mientras que MLLib acepta un RDD o un conjunto de datos que son las estructuras de datos básicas de Spark. Esto cambia el enfoque que adopta en la gestión de datos; ya sea un enfoque integrado verticalmente para H2O o un enfoque abierto para MLLib. Ambos tienen sus pros y sus contras.

En términos de algoritmos disponibles, diría que están a la par, ya que cada uno de ellos tiene un algoritmo para cada tarea, aunque sus elecciones de algoritmos y sus implementaciones varían. Pero eso realmente no importa mucho si tienes buenos datos.

En términos del flujo de trabajo de desarrollo, ambos dejan mucho que desear. Tendrá que construir un proceso de desarrollo en torno a cualquiera. H2O al menos está tratando de resolver el problema, pero Spark lo deja a Databricks.

[1] Datos: documentación de H2O 2.3.0.1283

Related Content

¿Cómo realizo la selección de funciones?

La IA ha existido por décadas. ¿Qué condujo a toda la publicidad reciente de AI / Deep Learning?

¿Crees que la tecnología 'block chain' es la próxima gran novedad en informática?

¿Puedo usar el aprendizaje profundo para aprender el aprendizaje profundo?

¿Cuál es la explicación detallada de Autoencoder apilado (Denoising)?

¿Cómo se relaciona la RNN con el aprendizaje profundo?

¿Los bloqueadores son capaces de bloquear todos los dispositivos electrónicos?

Hoy, ambos todavía están bastante desarrollados y aún necesitan trabajo. Entonces la elección es bastante subjetiva.

Algunos algoritmos se implementan mejor en uno frente al otro.
¿Qué idioma prefieres? Scala? R?

Li Yang

H2O parece escalar mejor que Spark MLlib de acuerdo con los números de referencia aquí: szilard / benchm-ml

Younes Abouelnagah

Spark MLlib no está listo para producción, en general. Y Spark en sí no es un motor útil para la computación. Es muy lento En el mejor de los casos, debe usarse como acceso rápido a datos / ETL.

H2O es bueno para bosques aleatorios y GBM. Vienen en un POJO. Sirve a las comunidades R y Python.

Ninguno de los dos realmente hace aprendizaje profundo (envuelven los marcos de otras compañías, por lo que casi no tienen la capacidad de mantener o extender el código subyacente).

¿Para qué quieres usarlos?

Li Yang

More Interesting

Soy un graduado en ingeniería eléctrica. Quiero seguir estudios superiores en aprendizaje automático o inteligencia artificial en EE. UU. ¿Qué tengo que hacer?

¿Por qué Intel Xeon Phi no se usa mucho para acelerar el entrenamiento de aprendizaje profundo?

Cómo evaluar la reciente eliminación de recomendaciones para usar hilo dental

En Batch Normalization, ¿por qué se deben actualizar moving_mean y moving_variance?

¿Cuáles serán las características de la próxima generación de servicios de monitoreo social?

¿Cómo debo representar las características para la clasificación de texto?

¿Qué técnicas son útiles para las series de tiempo financieras de minería de datos?

¿Debo comenzar a aprender Python y el aprendizaje automático al mismo tiempo?

¿Cuántos documentos son suficientes para estudiar para escribir una encuesta sobre aprendizaje profundo?

¿Cuál es mejor, el modelo de regresión o ecuación estructural, y por qué?

¿Cuántos tipos de técnicas utilizan los limpiadores profesionales?

¿Es un SVM o un clasificador MaxEnt apropiado para este escenario de clasificación de texto y por qué?

¿Por qué el aprendizaje automático, las redes neuronales y otros enfoques de IA, por ejemplo, no se usan más ampliamente en las predicciones del mercado de valores?

¿Qué es la curva de recuperación de precisión (PR)?

¿El modelado predictivo es una moda pasajera?

Web Analytics