Cómo obtener un gran conjunto de datos para simular big data

Esa es una dificil. Realmente depende de la interpretación de “big data”. Digamos que definimos big data como algo que no puede procesar en sus máquinas en términos de a) espacio de almacenamiento b) memoria disponible para ejecutar los algoritmos que necesita para analizar / procesar los datos. Pero incluso esta definición es un poco extraña: por ejemplo, es posible que no pueda ejecutar la regresión logística con la solución de forma cerrada o el descenso de gradiente, pero podría usar el descenso de gradiente estocástico para aprender los pesos del modelo al transmitir los datos del disco duro accionamiento de una o muchas máquinas.

Conjuntos de datos interesantes que están disponibles gratuitamente para jugar:

El archivo reddit: http://gizmodo.com/download-the-…
Zinc12, una gran base de datos de moléculas pequeñas http://zinc.docking.org/browse/s…

Big DataBig Data AnalysisData AnalysisData Science

Related Content

¿Cuáles son los patrones de diseño para proyectos de minería de datos / aprendizaje automático?

He realizado mi pasantía en una empresa B2B y he realizado algunos análisis de datos como el porcentaje de daños, el retorno al origen y algunos otros. ¿Qué más puedo hacer con estos datos?

¿Cómo obtiene Seth Stephens-Davidowitz sus datos de Google?

¿Está garantizado el entusiasmo por la ciencia de datos? Si es así, ¿por qué?

¿Qué son los datos internos?

¿Cuáles son los fundamentos de las redes informáticas?

¿En qué se diferencian la investigación de operaciones y la gestión de la cadena de suministro (bajo ingeniería industrial) del análisis de datos?

More Interesting

¿Cómo funciona la tecnología detrás de las tarjetas magnéticas en términos de datos? ¿Cómo se manejan los datos del usuario y los datos de RFID / Bar de la compra desde el deslizamiento del terminal a los sistemas de back-end?

¿Qué calificaciones se requieren para un profesional de la ciencia de datos?

¿Cómo se puede usar Python para el conjunto de datos o el manejo y análisis de marcos de datos?

¿Qué tipo de herramientas de colaboración reducirían la duplicación del esfuerzo de I + D en el análisis y el intercambio de datos?

¿Es la velocidad de la luz una restricción para los grandes datos?

¿Cómo debería un principiante aprender de un libro técnico que diga "Ciencia de datos desde cero"? ¿Debería completarlo una vez y luego volver a comprender temas complejos, o debería comprender profundamente cada tema antes de continuar y así retrasar la finalización?

¿Qué tan unidos están la inteligencia empresarial y la ciencia de datos?

¿Puede uno convertirse en un exitoso arquitecto de Big Data sin aprender Data Science? ¿Cuál es la diferencia entre el arquitecto de Big Data y el científico de datos?

¿Qué es la ciencia de datos? ¿Cuál es el alcance? ¿El análisis de datos y el análisis comercial son lo mismo? ¿Necesitamos estudiar programación?

¿En qué se diferencian los análisis financieros de los análisis comerciales?

Cómo saber qué datos tiene Acxiom sobre mí

¿Es esto con lo que tienen que lidiar los científicos de datos?

¿Tener experiencia en ciencia de datos es útil para los negocios?

¿Cuál es la mejor manera de manejar los datos faltantes para el problema de clasificación en el aprendizaje automático?

¿Puedes citar un ejemplo de ley escrita usando Big Data?

Web Analytics