Actualmente, enero de 2011, la integración entre Hadoop / Mahout y varios sistemas NoSQL no está disponible de forma comercial. Los enfoques simplistas de cosecha propia para esta integración pueden ser tan ineficientes como para anular la ventaja de escala de usar Hadoop; Depende de la aplicación. Del mismo modo, la capacidad de ejecutar Mahout en la nube está cada vez más disponible; No lo he probado, pero es tecnología de punta. Además, ejecutar Hadoop o Mahout en grupos demasiado pequeños generalmente no vale la pena. Si desea seguir esta ruta y aún no tiene los recursos internos, es mejor probarlo en la nube en lugar de comenzar a armar su propio clúster.
Los algoritmos de recomendación parecen ser una especie de punto dulce en el aprendizaje automático en este momento. Pero debe ser consciente de las limitaciones en cualquier enfoque de crowdsourcing (revisiones de venenos por parte de los competidores, astroturfing por parte de las partes interesadas). A los adolescentes y a las amas de casa de todo el mundo (incluidos los EE. UU.) Se les pagan salarios de tiempo completo para falsificar comentarios en los tableros de mensajes. Superar esto requiere un análisis más profundo que el que ofrece la PNL moderna.
Además, es posible que desee considerar enfoques alternativos para el paradigma MapReduce. Los sistemas conexionistas modernos o la teoría de los gráficos pueden dar resultados decentes en configuraciones de máquinas individuales con grandes memorias. El punto óptimo actual es una máquina de 512 GB de RAM (solicite detalles) que ejecute algún Método libre de modelo adecuado. Estos minimizan el esfuerzo humano requerido para el modelado del dominio (ya que son Modelo Libre) y aún pueden devolver resultados decentes. Para ver un ejemplo, vea mi charla sobre Science Beyond Reductionism en http://videos.syntience.com donde analizo el desafío de NetFlix realizado utilizando un enfoque teórico Graph. Estudie un puñado de ejemplos de teoría de grafos utilizados para resolver problemas y comprenderá cómo se hace.
- ¿Cuál es el flujo de trabajo típico para usar el aprendizaje profundo para resolver un problema?
- ¿Son las redes aditivas recurrentes universalmente mejores que las LSTM y GRU?
- ¿Qué es más robusto para datos ruidosos, un árbol de decisión o Naive Bayes?
- ¿Qué tan difícil es entrenar idiomas indios con CMUSphinx?
- ¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?