¿Podría evitar usar una tecnología distribuida en el trabajo en un solo nodo y pasar entrevistas de ciencia de datos?

A2A: En primer lugar, Hadoop es solo una parte de la ciencia de datos, por lo que puedo asegurarle que se le pedirá mucho más que eso. Para saber más en detalle sobre un buen científico de datos, eche un vistazo a mi respuesta a ¿Qué hace a un buen científico? Volviendo a su pregunta, diría que si tuviera que entrevistarlo, definitivamente le preguntaría la cantidad de nodos y también sus tamaños. Todo el propósito de usar Hadoop es poder hacer computación paralela; El uso de un solo nodo supera por completo el propósito. Estamos hablando de rendimiento entre cerdo, colmena, mahout, chispa; cada uno de estos es adecuado para diferentes casos de datos y consultas. Y eso dependerá de la cantidad de bloques que esté procesando. Por ejemplo, para procesar 50 nodos de trabajo de Hadoop y 25 bloques de disco, habrá 25 bloques con 25 nodos de trabajo y los 25 nodos restantes estarán libres. En este caso solo necesita 25 nodos de trabajo hadoop. Entonces, en su caso, si solo estaba procesando 1 bloque de disco, tiene sentido usar un solo nodo. De lo contrario, me quedaría con un clúster que ofrezca un mejor rendimiento. En pocas palabras, si puede explicar por qué usó un solo nodo en lugar de un clúster, será bueno. Las entrevistas son para juzgar si tienes un buen razonamiento para hacer lo que hiciste. Generar clústeres no es muy difícil. Sugiero aprender al respecto. Hive, Pig, Mahout funcionan a la perfección en clústeres y definitivamente notará una diferencia de rendimiento. ¡Buena suerte!

La ciencia de datos trata más sobre algoritmos matemáticos, conocimiento de dominio y luego tecnología. Incluso una persona tecnológicamente ingenua puede aclarar entrevistas de ciencia de datos siempre que sea muy fuerte en matemáticas.

Estas son las habilidades requeridas para el típico científico de datos:

  • Fuertes habilidades matemáticas y de resolución de problemas.
  • Experiencia comprobada en investigación (Phd puede ayudar)
  • Fuerte dominio de conocimiento
  • Comprender algoritmos matemáticos
  • Capacidad para implementar utilizando tecnologías como R
  • Comprender las tecnologías distribuidas (facilitar una mejor comunicación con las contrapartes de TI).

More Interesting

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

¿Qué distribución de Linux es más adecuada para principiantes y entusiastas de la ciencia de datos / big data?

A los 28 años, y aprendiendo a programar. ¿Me he perdido la oportunidad de conseguir un trabajo en ciencia de datos y aprendizaje automático en el Reino Unido?

Cómo seguir creciendo como analista de datos

¿Cuáles son las startups que son realmente buenas en big data y análisis en Mumbai?

Entre la criptografía y la seguridad de la red, el procesamiento de imágenes y la minería de datos, ¿qué 2 asignaturas son mejores como asignatura optativa?

¿Cómo puedo leer datos del PLC?

¿Cuál es la proporción de creatividad vs trabajo de rutina en ciencia de datos?

¿Cuáles son las principales ventajas de big data?

¿Dónde puedo obtener algunas hojas de datos para practicar ciencia de datos en Python?

¿Cuál es la diferencia entre la recuperación de información y la minería de datos? ¿Cómo se relacionan los grandes datos con estas dos técnicas diferentes?

¿Dónde puedo encontrar conjuntos de datos de rango?

Cómo gestionar el big data

¿Cómo comenzó Big Data?

¿Es más probable que la minería de datos o la programación web generen altos salarios y oportunidades de empleo en el futuro cercano?