¿Podría evitar usar una tecnología distribuida en el trabajo en un solo nodo y pasar entrevistas de ciencia de datos?

A2A: En primer lugar, Hadoop es solo una parte de la ciencia de datos, por lo que puedo asegurarle que se le pedirá mucho más que eso. Para saber más en detalle sobre un buen científico de datos, eche un vistazo a mi respuesta a ¿Qué hace a un buen científico? Volviendo a su pregunta, diría que si tuviera que entrevistarlo, definitivamente le preguntaría la cantidad de nodos y también sus tamaños. Todo el propósito de usar Hadoop es poder hacer computación paralela; El uso de un solo nodo supera por completo el propósito. Estamos hablando de rendimiento entre cerdo, colmena, mahout, chispa; cada uno de estos es adecuado para diferentes casos de datos y consultas. Y eso dependerá de la cantidad de bloques que esté procesando. Por ejemplo, para procesar 50 nodos de trabajo de Hadoop y 25 bloques de disco, habrá 25 bloques con 25 nodos de trabajo y los 25 nodos restantes estarán libres. En este caso solo necesita 25 nodos de trabajo hadoop. Entonces, en su caso, si solo estaba procesando 1 bloque de disco, tiene sentido usar un solo nodo. De lo contrario, me quedaría con un clúster que ofrezca un mejor rendimiento. En pocas palabras, si puede explicar por qué usó un solo nodo en lugar de un clúster, será bueno. Las entrevistas son para juzgar si tienes un buen razonamiento para hacer lo que hiciste. Generar clústeres no es muy difícil. Sugiero aprender al respecto. Hive, Pig, Mahout funcionan a la perfección en clústeres y definitivamente notará una diferencia de rendimiento. ¡Buena suerte!

Related Content

¿Cómo es el mercado laboral en Canadá para los estudiantes de MS en CS y Data Science?

Maestría en Investigación de Operaciones / Ciencia de Datos / Análisis de Negocios? ¿Cuál sería una mejor opción? (Curso y carrera sabia)

¿Cuáles son los mejores ejemplos de ciencia de datos aplicados al comercio minorista?

¿Qué piensan los científicos de datos del libro "Programming Collective Intelligence"?

¿Cuáles son algunas áreas de investigación desafiantes / declaraciones de problemas en la minería de datos?

¿Qué productos / servicios, en su opinión, cambiarán el mundo en la próxima década?

¿Cómo se relacionan la ciencia de datos y el aprendizaje automático, si es que están relacionados?

La ciencia de datos trata más sobre algoritmos matemáticos, conocimiento de dominio y luego tecnología. Incluso una persona tecnológicamente ingenua puede aclarar entrevistas de ciencia de datos siempre que sea muy fuerte en matemáticas.

Estas son las habilidades requeridas para el típico científico de datos:

Fuertes habilidades matemáticas y de resolución de problemas.
Experiencia comprobada en investigación (Phd puede ayudar)
Fuerte dominio de conocimiento
Comprender algoritmos matemáticos
Capacidad para implementar utilizando tecnologías como R
Comprender las tecnologías distribuidas (facilitar una mejor comunicación con las contrapartes de TI).

Durga Viswanath Gadiraju

More Interesting

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

¿Qué distribución de Linux es más adecuada para principiantes y entusiastas de la ciencia de datos / big data?

A los 28 años, y aprendiendo a programar. ¿Me he perdido la oportunidad de conseguir un trabajo en ciencia de datos y aprendizaje automático en el Reino Unido?

Cómo seguir creciendo como analista de datos

¿Cuáles son las startups que son realmente buenas en big data y análisis en Mumbai?

Entre la criptografía y la seguridad de la red, el procesamiento de imágenes y la minería de datos, ¿qué 2 asignaturas son mejores como asignatura optativa?

¿Cómo puedo leer datos del PLC?

¿Cuál es la proporción de creatividad vs trabajo de rutina en ciencia de datos?

¿Cuáles son las principales ventajas de big data?

¿Dónde puedo obtener algunas hojas de datos para practicar ciencia de datos en Python?

¿Cuál es la diferencia entre la recuperación de información y la minería de datos? ¿Cómo se relacionan los grandes datos con estas dos técnicas diferentes?

¿Dónde puedo encontrar conjuntos de datos de rango?

Cómo gestionar el big data

¿Cómo comenzó Big Data?

¿Es más probable que la minería de datos o la programación web generen altos salarios y oportunidades de empleo en el futuro cercano?

Web Analytics