¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son “grandes”?

Recomiendo No use Hadoop: sus datos no son tan grandes: explica muy bien qué tecnologías podría usar dependiendo del tamaño de sus datos.

Si desea crear un servicio de recomendación, creo que el filtrado colaborativo es una buena manera de comenzar. Trabajé con las bibliotecas Mahout y Spark Machine Learning y son muy fáciles de usar e implementar:

Mahout enlaces útiles:
1. Aprendizaje automático escalable y minería de datos
2. Capítulo de recomendación de Mahout en acción
http://openresearch.baidu.com/u/…

Chispa:
1. La Guía de programación de la Biblioteca de aprendizaje automático (MLlib) es un muy buen lugar para comenzar
2. Este tutorial Guía de programación de la Biblioteca de aprendizaje automático (MLlib)

Si desea un curso “rápido” de 4 horas a través de recomendaciones, pruebe las conferencias de Xavier Amatriain en MLSS 2014

Análisis deAnálisis de Big DataAprendizaje automáticoBig DataCiencia de datosdatosDesarrolloMinería de datosPreguntas prácticasSistemas de recomendación

¿Puede un desarrollador de Java entrar en big data y análisis sin ninguna experiencia previa?

¿Hay algún buen conjunto de datos de huellas dactilares y / o iris disponibles públicamente para el aprendizaje automático?

¿Qué herramientas usan los científicos de datos para ver y seleccionar datos de archivos CSV?

¿La demanda de un analista de datos es mayor que la de un científico de datos?

¿Cuáles son algunos problemas de aprendizaje automático que se resolvieron con soluciones generativas en lugar de soluciones discriminatorias?

Cómo acceder a los programas y archivos en una computadora desde otra

No soy un experto en Hadoop. Pero si sus datos no son “grandes”, creo que Hadoop es una exageración.

Necesita un servidor para hacer el cálculo del lado del servidor e implementar algoritmos centrales. Java y Python son opciones naturales para implementar tales algoritmos. Ve por Heroku o Google App Engine por ejemplo. Puede comenzar con el uso gratuito y pagar más tarde si aumenta su tráfico. El lado del cliente tiene más que ver con el diseño y puede alojarlo en casi cualquier lugar.

Espero eso ayude. Gracias por A2A.

Adolfo De Unanue

Si sus datos no son grandes (y recuerde, grande es una palabra relativa en comparación con su potencia informática) no debe usar hadoop.

Si sus datos se pueden poner en forma de tabla, puede usar un RDBM, pero depende de usted.

Si sus datos no tienen una forma rectangular, su única opción es no sql.

Y para la parte de aprendizaje automático, puede comenzar con R para hacerlo.

Una cosa más, si está creando un sitio web, su arquitectura podría incluir una base de datos no SQL (para escribir) una base de datos SQL (como almacén de datos), etc.

Si tienes más preguntas, podría ayudarte. Gracias por el A2A.

Alireza Ghasemi

Bien. En primer lugar, le sugiero que aprenda sobre el aprendizaje automático, aquí hay una gran introducción: http://ciml.info

Le informará sobre los principales algoritmos que se utilizan y los explicará. El ejemplo inicial es un sistema de recomendación.

Alireza Ghasemi

More Interesting

En la era del aprendizaje automático, IA, big data, etc., ¿qué tan útil es estudiar campos ya maduros como CS teóricas y bases de datos relacionales a nivel de posgrado, y luego pasar a la industria del software?

¿Qué significan para las personas las frases "desarrollo basado en datos" y "productos basados en datos"?

¿Cuáles son los posibles casos de uso del aprendizaje automático / ciencia de datos / análisis predictivo en ciudades inteligentes?

¿Cuál es la diferencia entre la captura de datos de cambio y el abastecimiento de eventos?

¿En qué sector y en qué país se usa ampliamente el big data?

¿Cómo podemos usar el aprendizaje automático y la ciencia de datos para tener un impacto significativo en el campo agrícola en la India?