¿Qué tan necesario es una comprensión profunda de la computación paralela para un científico de datos?

Una comprensión “profunda” solo es necesaria si está creando las herramientas subyacentes. Por ejemplo, si fue uno de los primeros desarrolladores de lenguajes de alto nivel de Hive o Pig, necesitaría una comprensión profunda para obtener esos patrones correctos.

Un usuario de Hive hoy no necesita saber nada sobre computación paralela (SQL / HQL es declarativo, por lo que describe el conjunto de resultados, no cómo) y un usuario de Pig solo necesita saber lo suficiente para no cometer un error matemático conmutativo. Si está escribiendo su propio código MapReduce, entonces necesita comprender un poco más, pero no diría que es necesaria una “comprensión profunda” para la mayoría de los problemas que he tratado. Como otros han mencionado, dar sentido a los datos que tiene es mucho más importante que poder procesarlos en paralelo utilizando conceptos de nivel inferior.

¿Es posible conseguir un trabajo en ciencia de datos o aprendizaje automático justo después de la graduación? ¿Si es así, cómo?

¿Cuáles son algunos algoritmos de aprendizaje automático que no pueden tolerar la falta de datos?

¿Cuál es la mejor manera de encajar los equipos de ciencia de datos en una estructura organizacional de desarrollo de productos?

¿Cuáles son algunos proyectos que un estudiante de ciencias de la computación puede hacer en el semestre final en el campo de big data y análisis de datos?

¿Debería un aspirante a científico de aprendizaje automático / científico de datos practicar problemas de kaggle?

¿Qué es el álgebra relacional y para qué se utiliza? ¿Cómo se relaciona con la ciencia de datos?

Como muchas cosas en la vida, es útil para los científicos de datos tener una comprensión profunda de todo tipo de cosas informáticas, pero no es necesario para el 100% de los científicos de datos.

La mayoría de las plataformas paralelas que usan los científicos de datos son fáciles de usar hasta el punto de que no es necesaria una “comprensión profunda” de la computación paralela para operarlas de manera efectiva.

Victor Eijkhout

Hay algunos aspectos de la ciencia de datos que no tienen mucho que ver con el paralelismo. Por ejemplo, a menudo el problema principal es la cantidad de datos y cómo preservarlos. La solución aquí es puramente tecnológica: construir tuberías lo suficientemente grandes entre la producción y el almacenamiento de datos, y tener suficientes salvaguardas para la integridad de los datos.

Además, gran parte de la ciencia de datos se trata de análisis de datos . Por lo tanto, el conocimiento de las estadísticas y el aprendizaje automático es útil, pero los aspectos paralelos siguen siendo mínimos. Por ejemplo, lo que considero que las partes interesantes de la computación paralela implican combinar datos, por lo que debe preocuparse sobre dónde colocar los datos y cómo moverlos. En análisis, eso no parece ser un gran problema: muchos problemas son del tipo “rendimiento”, donde los elementos de datos se tocan una vez, y solo se conservan algunos resultados resumidos. Como ejemplo prototípico, existe, por supuesto, un mapa de reducción, que consiste en una etapa trivialmente paralela, seguida de una etapa de resumen.

Anil Kumar Muppalla

Eso realmente depende del tipo de análisis que desee realizar. Hay muchas cosas muy interesantes que puede hacer sin computación paralela. Especialmente cuando no realiza análisis de datos en vivo.

Anil Kumar Muppalla

Si usted es un científico de datos que puede llamar a la infraestructura para realizar su investigación, es imprescindible conocer las numerosas soluciones distribuidas / paralelas que ayudarán a su trabajo, de lo contrario, estará trabajando con soluciones compradas por su empresa. entonces el conocimiento específico de la herramienta se vuelve ideal. En ambos casos, teniendo en cuenta la magnitud de los datos con los que tratará, deberá conocer los conceptos de computación distribuida / paralela, incluido el funcionamiento de su herramienta.

Victor Eijkhout

More Interesting

¿Dónde puedo aprender análisis de datos en Bangalore? ¿Cuánto debería invertir para ello?

¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?

¿Son diferentes los métodos de minería de datos y el algoritmo de minería de datos?

¿Cómo se usa Data Analytics en finanzas (específicamente Hedge Funds)?

¿Cuál es el mejor método de minería de datos para predecir la demencia?

Cuando trabajamos en aprendizaje automático en big data, ¿podemos usar la biblioteca scikit-learn con MLlib?

¿Cuáles son algunos de los "productos de datos" creados por los grandes como Amazon, LinkedIn, Twitter, Facebook, etc.?

¿Cuáles son los conceptos erróneos comunes sobre la ciencia de datos?

¿Hay alguna manera de recopilar datos de Facebook de una página de la competencia con fines analíticos?

No me gusta la minería de datos, pero estoy interesado en el aprendizaje automático, ¿debería seguir estudiando ML para estudios superiores?