En general, los problemas de optimización (especialmente los de segundo orden) con un gran número de variables y restricciones no son adecuados para la realización a escala sobre Map-Reduce (MR), si restringimos MR a Hadoop MR. Esto se debe principalmente a 2 razones: falta de trabajos de MR de larga duración y falta de soporte informático en memoria.
Sin embargo, hay otras realizaciones de MR como Twister (Iterative MapReduce) o HaLoop (haloop – Una versión modificada de Hadoop para admitir el procesamiento de datos iterativo eficiente en grandes grupos de productos básicos – Google Project Hosting) que supera las limitaciones anteriores y proporciona memoria caché en memoria así como larga vida a los trabajos de MR. Estos pueden ser buenos candidatos para obtener soluciones a los problemas de optimización, incluso los de segundo orden. Sin embargo, la tolerancia a fallos es un problema abierto en ambos. Esto implica que la tolerancia a fallos proporcionada por estas realizaciones de MR no está cerca de Hadoop MR.
Esto nos deja con alternativas decrecientes para problemas de optimización: Spark (Lightning-Fast Cluster Computing) del equipo de UC Berkeley AmpLabs es una alternativa interesante. Debido a su capacidad para admitir cálculos iterativos en memoria y su enfoque único de manejo de fallas (basado en el concepto de un linaje gráfico), se pueden resolver problemas complejos de optimización a través de Spark. Esto está ilustrado por ML Lib [1] (MLbase).
- ¿Cómo se aplica la inteligencia artificial a los problemas ambientales?
- Cómo agregar una razón de probabilidad para una característica en mi conjunto de datos
- ¿Cómo se comparan las bibliotecas de aprendizaje automático de C ++ con las disponibles en Python?
- Cómo resolver un problema de la máquina Atwood con fricción
- ¿Cuál es la forma correcta de crear consultas jerárquicas?
[1] T. Kraska, A. Talwalkar, J.Duchi, R. Griffith, M. Franklin, MI Jordan. MLbase: un sistema distribuido de aprendizaje automático . En Conferencia sobre Investigación de Sistemas de Datos Innovadores, 2013.