¿Cuál es la mejor computadora portátil Big Data?

Cuando ejecuta algoritmos a través de big data, en términos de hardware, hay 2 cosas importantes: la CPU, obviamente, y la RAM. HDD no ayudará porque no está almacenando y leyendo datos directamente desde HDD para manipularlos.

¿Por qué es importante la RAM? Dado que ejecuta algoritmos a través de los datos, es probable que cree copias, corte algunos datos, almacene en matrices, todas esas cosas requieren memoria temporal. Por lo tanto, será mejor con una máquina de 20G RAM y 100G HDD que una 8G RAM y 500G HDD.

CPU: no hace falta decir que cuanto más rápida sea la CPU, mejor, sin embargo, creo que i3 y superiores son suficientes.

Sin embargo, lo más importante no es el hardware. Es el algoritmo. ¿Por qué? Los algoritmos deciden si la RAM puede manejar sus datos o no. Para darle un ejemplo. Si se trata de un archivo de texto de 5 MB (aproximadamente 5 millones de caracteres) y ejecuta un algoritmo O (n ^ 2) a través de él, nunca funcionará. ¿Por qué? Porque 5MB ^ 2 es aproximadamente 25000gb, o 25 tetrabytes. Por supuesto, no tiene suficiente RAM para eso, su com se niega a ejecutarse debido al desbordamiento de la memoria o, lo que es peor, puede que se cuelgue … Por el contrario, si ejecuta el algoritmo O (n) a través de él, ocupará solo 5 MB de RAM.

Entonces: es mejor usar una compilación incorrecta pero ejecutar buenos algoritmos que tener una compilación monstruosa y ejecutar algoritmos ineficientes. Confía en mí, hubo muchas veces que necesité estrangular mi computadora porque ejecutaba estúpidos algoritmos O (n ^ 2).

He instalado el CHD 5.2 de Cloudera en un procesador i7 (6 núcleos) con 16 GB de RAM. Yo diría que 16 GB es suficiente para instalar y probar cosas básicas, pero si desea hacer ciencia de datos o jugar con grandes conjuntos de datos utilizando, necesitaría al menos 16 GB de memoria adicional. No estoy seguro de cómo realizar tareas / análisis en una computadora portátil que funciona durante horas. Sería ideal ejecutar hadoop en un servidor / escritorio remoto y acceder a él en su computadora portátil a través de SSH. Hay servicios como Amazon EC2 y domino, etc. que ofrecen eso. Siempre puede aumentar o disminuir sus requisitos de procesamiento / memoria.

Recomendaría un panel de pensamiento de Lenovo. 8 gb ram 750 GB HDD / 1TB HDD, 13-15 horas de duración de la batería.

En general, necesita más espacio RAM para ejecutar modelos predictivos. si ve muchas empresas de big data, emitirían un thinkpad lenovo a sus empleados. Una laptop bastante robusta también. solo que es un poco costoso (> 60-70 k)

En resumen, “su mejor opción sería un sistema Windows / Linux con al menos 4 GB de tarjeta gráfica nvidia, 2.9 gigas o más de velocidad de procesamiento, 16 gb de ram, al menos 512 gb ssd, procesador i7. HP Z8 es uno de los mejores sistemas con los que me he encontrado tarde, pero el costo es un poco alto. Para computadoras portátiles, revise la serie Dell Inspiron una vez ”.

Puede consultar mi respuesta en: La respuesta de Luv Aggarwal a ¿Cuál es la mejor compilación de PC para ejecutar proyectos de ciencia de datos localmente?

Para comenzar, debes dominar u obtener conocimientos y manejos aceptables de la parte de minería de datos del juego, para la cual una computadora portátil es suficiente. Si ya pasó esa etapa, se trata solo de algunos conocimientos de TI / programación distribuida / Hadoop para los que creo que debería dominar sus pruebas privadas antes de pasar a la nube.

Para la prueba de Big Data solo necesita mucha RAM para colocar sus máquinas virtuales.
Me gusta la virtualización con deduplicación de datos (como Hyper-v), ya que le permite tener cientos de máquinas virtuales sin tener que usar mucho HDD.

Para ser más profesional, debe probar mover sus máquinas virtuales a la nube y realizar un procesamiento de datos real.

Supongo que debe usar una computadora portátil decente de alto rendimiento con 8 GB de RAM y un tamaño cómodo (12-13 pulgadas será lo mejor), puede usar el servicio de alquiler en la nube como AWS o Google Cloud. En mi carrera de ciencia de datos, a menudo me uno a la reunión para participar en la competencia de Kaggle y reunirme con una persona de negocios. Por lo tanto, una computadora portátil es imprescindible.

Si haces cómputo paralelo, supongo que deberías comprar 2–3 PC baratas para probar.

Primero, depende de cuán grande sea el Big Data. ¿Una base de datos con una tabla con algunos millones de registros? Eso es trivial

Obtenga un I7 con tanto espacio para la expansión de RAM como pueda permitirse. El almacenamiento será un problema si intenta almacenar suficientes datos: la unidad Seagate de 5 TB es la más grande que existe, y si tiene suficientes datos, puede quedarse sin espacio fácilmente. (Una computadora portátil de doble unidad puede proporcionarle una unidad de sistema “normal”, 1 o 2 TB y una unidad de 16 TB para la base de datos).

Pero como estudiante, una CPU i7, 8 GB o 16 GB de RAM y 2 o 3 TB de disco duro probablemente va a ser más de lo que usará incluso mucho después de graduarse.

Obtén algo con una tonelada de RAM. Para tareas súper intensivas, ni siquiera se moleste con su computadora portátil, active un servidor Amazon EC2 que satisfaga sus necesidades y ejecute el código / análisis sobre eso.

Si realmente es Big Data, es probable que su única computadora portátil no sea suficiente. Le sugiero que compre una máquina asequible. Use el dinero que ahorra para aprovisionar algunos recursos en AWS para ejecutar sus trabajos.