Esta respuesta se basa en información que tiene 3 meses de antigüedad, así que verifique dos veces. AFAIK la diferencia fundamental entre H2O y Spark MLLib es que H2O opera en un formato de datos especial (.hex) [1], mientras que MLLib acepta un RDD o un conjunto de datos que son las estructuras de datos básicas de Spark. Esto cambia el enfoque que adopta en la gestión de datos; ya sea un enfoque integrado verticalmente para H2O o un enfoque abierto para MLLib. Ambos tienen sus pros y sus contras.
En términos de algoritmos disponibles, diría que están a la par, ya que cada uno de ellos tiene un algoritmo para cada tarea, aunque sus elecciones de algoritmos y sus implementaciones varían. Pero eso realmente no importa mucho si tienes buenos datos.
En términos del flujo de trabajo de desarrollo, ambos dejan mucho que desear. Tendrá que construir un proceso de desarrollo en torno a cualquiera. H2O al menos está tratando de resolver el problema, pero Spark lo deja a Databricks.
- ¿Cómo determina Quora a quién poner en mi sección "mejorar su alimentación"?
- Necesito trabajar en un pequeño proyecto de análisis de sentimientos. ¿Qué herramienta debo usar para aprender e implementar fácilmente como Python, TensorFlow?
- ¿Cómo es usar las API de servicios cognitivos de Microsoft?
- ¿Cuáles son las deficiencias del aprendizaje profundo? ¿Cuál es el mayor defecto o limitación del aprendizaje profundo?
- ¿Cuáles son algunas aplicaciones de aprendizaje automático para el comportamiento del usuario?
[1] Datos: documentación de H2O 2.3.0.1283