Esa es una dificil. Realmente depende de la interpretación de “big data”. Digamos que definimos big data como algo que no puede procesar en sus máquinas en términos de a) espacio de almacenamiento b) memoria disponible para ejecutar los algoritmos que necesita para analizar / procesar los datos. Pero incluso esta definición es un poco extraña: por ejemplo, es posible que no pueda ejecutar la regresión logística con la solución de forma cerrada o el descenso de gradiente, pero podría usar el descenso de gradiente estocástico para aprender los pesos del modelo al transmitir los datos del disco duro accionamiento de una o muchas máquinas.
Conjuntos de datos interesantes que están disponibles gratuitamente para jugar:
- El archivo reddit: http://gizmodo.com/download-the-…
- Zinc12, una gran base de datos de moléculas pequeñas http://zinc.docking.org/browse/s…
- ¿Existe un curso de ciencia de datos en el Instituto Indio de Ciencia Bangalore?
- ¿Cuáles son las mejores herramientas de código abierto para un científico de datos?
- En la compresión de datos, ¿cómo ayuda la mejora de la SNR a aumentar la tasa?
- ¿Cómo se conectan Hadoop y Machine Learning?
- ¿Por qué el bosque aleatorio (scikit-learn) usa tanta memoria? ¿Existen otras implementaciones además de scikit-learn que son más eficientes en memoria?