Cuando ejecuta algoritmos a través de big data, en términos de hardware, hay 2 cosas importantes: la CPU, obviamente, y la RAM. HDD no ayudará porque no está almacenando y leyendo datos directamente desde HDD para manipularlos.
¿Por qué es importante la RAM? Dado que ejecuta algoritmos a través de los datos, es probable que cree copias, corte algunos datos, almacene en matrices, todas esas cosas requieren memoria temporal. Por lo tanto, será mejor con una máquina de 20G RAM y 100G HDD que una 8G RAM y 500G HDD.
CPU: no hace falta decir que cuanto más rápida sea la CPU, mejor, sin embargo, creo que i3 y superiores son suficientes.
- ¿Qué oportunidades de carrera en ciencia de datos y aprendizaje automático existen en Oculus VR?
- Estoy trabajando actualmente. Quiero convertirme en un científico de datos. ¿Cuáles fueron los conceptos y tecnologías centrales que necesito aprender?
- ¿Es necesario aprender big data antes del análisis de datos?
- ¿Cuáles son las diferentes estrategias de gestión de datos? ¿Sus ventajas y desventajas?
- ¿Qué tan relevante es el análisis de Big Data para la economía global actual?
Sin embargo, lo más importante no es el hardware. Es el algoritmo. ¿Por qué? Los algoritmos deciden si la RAM puede manejar sus datos o no. Para darle un ejemplo. Si se trata de un archivo de texto de 5 MB (aproximadamente 5 millones de caracteres) y ejecuta un algoritmo O (n ^ 2) a través de él, nunca funcionará. ¿Por qué? Porque 5MB ^ 2 es aproximadamente 25000gb, o 25 tetrabytes. Por supuesto, no tiene suficiente RAM para eso, su com se niega a ejecutarse debido al desbordamiento de la memoria o, lo que es peor, puede que se cuelgue … Por el contrario, si ejecuta el algoritmo O (n) a través de él, ocupará solo 5 MB de RAM.
Entonces: es mejor usar una compilación incorrecta pero ejecutar buenos algoritmos que tener una compilación monstruosa y ejecutar algoritmos ineficientes. Confía en mí, hubo muchas veces que necesité estrangular mi computadora porque ejecutaba estúpidos algoritmos O (n ^ 2).