¿Qué tan necesario es una comprensión profunda de la computación paralela para un científico de datos?

Una comprensión “profunda” solo es necesaria si está creando las herramientas subyacentes. Por ejemplo, si fue uno de los primeros desarrolladores de lenguajes de alto nivel de Hive o Pig, necesitaría una comprensión profunda para obtener esos patrones correctos.

Un usuario de Hive hoy no necesita saber nada sobre computación paralela (SQL / HQL es declarativo, por lo que describe el conjunto de resultados, no cómo) y un usuario de Pig solo necesita saber lo suficiente para no cometer un error matemático conmutativo. Si está escribiendo su propio código MapReduce, entonces necesita comprender un poco más, pero no diría que es necesaria una “comprensión profunda” para la mayoría de los problemas que he tratado. Como otros han mencionado, dar sentido a los datos que tiene es mucho más importante que poder procesarlos en paralelo utilizando conceptos de nivel inferior.

Como muchas cosas en la vida, es útil para los científicos de datos tener una comprensión profunda de todo tipo de cosas informáticas, pero no es necesario para el 100% de los científicos de datos.

La mayoría de las plataformas paralelas que usan los científicos de datos son fáciles de usar hasta el punto de que no es necesaria una “comprensión profunda” de la computación paralela para operarlas de manera efectiva.

Hay algunos aspectos de la ciencia de datos que no tienen mucho que ver con el paralelismo. Por ejemplo, a menudo el problema principal es la cantidad de datos y cómo preservarlos. La solución aquí es puramente tecnológica: construir tuberías lo suficientemente grandes entre la producción y el almacenamiento de datos, y tener suficientes salvaguardas para la integridad de los datos.

Además, gran parte de la ciencia de datos se trata de análisis de datos . Por lo tanto, el conocimiento de las estadísticas y el aprendizaje automático es útil, pero los aspectos paralelos siguen siendo mínimos. Por ejemplo, lo que considero que las partes interesantes de la computación paralela implican combinar datos, por lo que debe preocuparse sobre dónde colocar los datos y cómo moverlos. En análisis, eso no parece ser un gran problema: muchos problemas son del tipo “rendimiento”, donde los elementos de datos se tocan una vez, y solo se conservan algunos resultados resumidos. Como ejemplo prototípico, existe, por supuesto, un mapa de reducción, que consiste en una etapa trivialmente paralela, seguida de una etapa de resumen.

Eso realmente depende del tipo de análisis que desee realizar. Hay muchas cosas muy interesantes que puede hacer sin computación paralela. Especialmente cuando no realiza análisis de datos en vivo.

Si usted es un científico de datos que puede llamar a la infraestructura para realizar su investigación, es imprescindible conocer las numerosas soluciones distribuidas / paralelas que ayudarán a su trabajo, de lo contrario, estará trabajando con soluciones compradas por su empresa. entonces el conocimiento específico de la herramienta se vuelve ideal. En ambos casos, teniendo en cuenta la magnitud de los datos con los que tratará, deberá conocer los conceptos de computación distribuida / paralela, incluido el funcionamiento de su herramienta.

More Interesting

¿Dónde puedo aprender análisis de datos en Bangalore? ¿Cuánto debería invertir para ello?

¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?

¿Son diferentes los métodos de minería de datos y el algoritmo de minería de datos?

¿Cómo se usa Data Analytics en finanzas (específicamente Hedge Funds)?

¿Cuál es el mejor método de minería de datos para predecir la demencia?

Cuando trabajamos en aprendizaje automático en big data, ¿podemos usar la biblioteca scikit-learn con MLlib?

¿Cuáles son algunos de los "productos de datos" creados por los grandes como Amazon, LinkedIn, Twitter, Facebook, etc.?

¿Cuáles son los conceptos erróneos comunes sobre la ciencia de datos?

¿Hay alguna manera de recopilar datos de Facebook de una página de la competencia con fines analíticos?

No me gusta la minería de datos, pero estoy interesado en el aprendizaje automático, ¿debería seguir estudiando ML para estudios superiores?

¿Cuáles son los beneficios de los diferentes tipos de esquemas en el contexto del almacenamiento de datos?

¿Vale la pena aprender R, o puedo usar Python para la ciencia de datos?

¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?

¿Cuáles son los requisitos previos para aprender Hadoop y la ciencia de datos?

¿Es muy difícil sobresalir en ciencia de datos? ¿Qué instituto debería considerar para los cursos de ciencia de datos en Pune?