¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son “grandes”?

Recomiendo No use Hadoop: sus datos no son tan grandes: explica muy bien qué tecnologías podría usar dependiendo del tamaño de sus datos.

Si desea crear un servicio de recomendación, creo que el filtrado colaborativo es una buena manera de comenzar. Trabajé con las bibliotecas Mahout y Spark Machine Learning y son muy fáciles de usar e implementar:

Mahout enlaces útiles:
1. Aprendizaje automático escalable y minería de datos
2. Capítulo de recomendación de Mahout en acción
http://openresearch.baidu.com/u/…

Chispa:
1. La Guía de programación de la Biblioteca de aprendizaje automático (MLlib) es un muy buen lugar para comenzar
2. Este tutorial Guía de programación de la Biblioteca de aprendizaje automático (MLlib)

Si desea un curso “rápido” de 4 horas a través de recomendaciones, pruebe las conferencias de Xavier Amatriain en MLSS 2014

No soy un experto en Hadoop. Pero si sus datos no son “grandes”, creo que Hadoop es una exageración.

Necesita un servidor para hacer el cálculo del lado del servidor e implementar algoritmos centrales. Java y Python son opciones naturales para implementar tales algoritmos. Ve por Heroku o Google App Engine por ejemplo. Puede comenzar con el uso gratuito y pagar más tarde si aumenta su tráfico. El lado del cliente tiene más que ver con el diseño y puede alojarlo en casi cualquier lugar.

Espero eso ayude. Gracias por A2A.

Si sus datos no son grandes (y recuerde, grande es una palabra relativa en comparación con su potencia informática) no debe usar hadoop.

Si sus datos se pueden poner en forma de tabla, puede usar un RDBM, pero depende de usted.

Si sus datos no tienen una forma rectangular, su única opción es no sql.

Y para la parte de aprendizaje automático, puede comenzar con R para hacerlo.

Una cosa más, si está creando un sitio web, su arquitectura podría incluir una base de datos no SQL (para escribir) una base de datos SQL (como almacén de datos), etc.

Si tienes más preguntas, podría ayudarte. Gracias por el A2A.

Bien. En primer lugar, le sugiero que aprenda sobre el aprendizaje automático, aquí hay una gran introducción: http://ciml.info

Le informará sobre los principales algoritmos que se utilizan y los explicará. El ejemplo inicial es un sistema de recomendación.

More Interesting

En la era del aprendizaje automático, IA, big data, etc., ¿qué tan útil es estudiar campos ya maduros como CS teóricas y bases de datos relacionales a nivel de posgrado, y luego pasar a la industria del software?

¿Qué significan para las personas las frases "desarrollo basado en datos" y "productos basados ​​en datos"?

¿Cuáles son los posibles casos de uso del aprendizaje automático / ciencia de datos / análisis predictivo en ciudades inteligentes?

¿Cuál es la diferencia entre la captura de datos de cambio y el abastecimiento de eventos?

¿En qué sector y en qué país se usa ampliamente el big data?

¿Cómo podemos usar el aprendizaje automático y la ciencia de datos para tener un impacto significativo en el campo agrícola en la India?

Cómo pasar mi carrera de consultor MDM al análisis de datos

Para el análisis de datos, ¿cuál es mejor, SAS o Hadoop? Soy ingenuo en la programación pero estoy pensando en darle una oportunidad.

¿Cómo se usan los datos?

¿Por qué Sebastian Raschka no termina su doctorado?

¿Qué es una certificación para un analista de big data?

¿Qué herramientas usan los periodistas de datos para crear visualizaciones de datos? ¿Qué características les gustan más?

¿Qué sistema operativo es mejor para Python, R y data science, Mac o Windows?

¿Qué es la clasificación en minería de datos?

¿Qué libro de ciencia de datos / blog-artículo / texto debería leer cada profesional de ciencia de datos para tener una mejor comprensión del tema?