¿Qué temas de informática necesitan aprender para ser un científico de datos? ¿Cómo se aplica en el mundo real? P.ej. colas de prioridad, buscar / ordenar algo

Las colas de prioridad no tienen absolutamente nada que ver con la ciencia de datos. Los algoritmos de búsqueda y clasificación tampoco tienen absolutamente nada que ver con la ciencia de datos. De hecho, nada de lo que aprenderá en su clase de algoritmos le será de gran utilidad como científico de datos.

Aquí hay un problema de ciencia de datos. Tiene una supercomputadora con 10k nodos de cómputo que ejecutan una combinación siempre cambiante de simulaciones de física, química, biología y clima. Puede medir lo que quiera siempre y cuando no perturbe el rendimiento en ~ 0.1%. ¿Cómo utiliza esos datos para diseñar la actualización al sistema de nodo de 10k de modo que esté maximizando el rendimiento?

Ese problema requerirá un conocimiento profundo de la arquitectura del procesador (y del acelerador?), Un poco de conocimiento del sistema operativo, alguna facilidad con lenguaje ensamblador, un conocimiento profundo de MPI + OpenMP + cualquier otro modelo de programación paralela que esté en uso en su sitio, conocimiento de cómo obtener una gran cantidad de datos que se transmiten desde los nodos de cómputo a una base de datos, y suficientes chops de bases de datos para entrar y dar sentido a lo que está sucediendo en el sistema. Luego, debe poder tomar ese conocimiento y aplicarlo para mejorar el sistema existente o diseñar la actualización.

Existe un mito en la comunidad de la ciencia de datos de que puede entregar un corpus de datos a un científico de datos que, sin ningún conocimiento de dominio particular, podrá brindarle información mágica sobre su problema subyacente. Nunca he visto ese trabajo en la práctica. Hay una cantidad combinatoriamente explosiva de eventos medibles que se pueden medir solo en el procesador, lo mismo para la aplicación, lo mismo para todas las bibliotecas y los sistemas operativos / operativos que la aplicación está utilizando. Solo podrá medir una fracción extremadamente pequeña de esos datos potenciales, y aun así parecerá que está en el extremo equivocado de la manguera de bomberos. Si no comprende el sistema subyacente, no debe comprender lo que se puede medir, y mucho menos lo que se debe medir (y con qué frecuencia).

Para responder a su primera pregunta: conviértase primero en un experto en dominios. Si desea hacer ciencia de datos en genética, tome tantas clases de genética de poblaciones y bioquímica molecular como sea posible. Si desea hacer ciencia de datos para la política, pase el rato en los departamentos de historia y ciencias políticas. ¿Quieres ser un quant? Elimine las asignaturas optativas de los departamentos de negocios y economía.

Luego, asegúrese de tener una base sólida en las estadísticas. Los humanos tienen una capacidad fabulosa para mentirnos a nosotros mismos sin darnos cuenta de que lo hacemos. Y estamos felices de usar datos (o lo que parecen datos) para ayudar. Cuanto mejor estadístico seas, más escéptico serás.

Finalmente, tome algunas clases de “ciencia de datos”: visualización, bases de datos, herramientas, etc. Estos temas cambiarán rápidamente, pero apréndalos lo suficientemente bien como para que sepa cómo aprender sus reemplazos por su cuenta.

Lo más importante: si quieres que te paguen por hacer ciencia de datos, haz ciencia de datos ahora. Estamos inundados de conjuntos de datos disponibles públicamente. Comienza a jugar con ellos. Comience a explorar la literatura en su área para ver quién está publicando y qué herramientas están usando, y comience a aprender esas herramientas (al menos hasta el punto en que entienda lo que hacen). Cuando llegue el momento de una entrevista de trabajo, se presentará a sí mismo (y a su cartera) como un científico de datos, en lugar de un estudiante recién graduado que quiere ser un científico de datos.

¡Buena suerte!

More Interesting

Tengo un programa en el que los datos se generan muy rápido, ¿cómo inserto los datos en una base de datos?

¿Por qué se prefiere Mechanical Turk sobre Crowdflower para obtener datos etiquetados para Machine Learning?

Quería ser un científico de datos, pero desde que me uní a la industria justo después de los estudiantes universitarios, no obtengo ese tipo de roles. Ir a un MS es muy difícil ahora que ya he pasado algunos años en la industria del software. ¿Qué tengo que hacer?

¿Vim es adecuado para la ciencia de datos?

¿Debo ir para el desarrollo de Android o la ciencia de datos o la programación de Python o el aprendizaje automático?

¿Cuál es el mejor libro para aprender Python para la ciencia de datos?

¿Cuáles son algunos de los consejos, trucos y trucos en hadoop?

Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?

¿Qué se debe saber para tener éxito en la ciencia de datos?

¿Cuál es el alcance de la ciencia de datos con Python?

Cómo escanear un diccionario antiguo de manera que pueda indexar el contenido

¿Cuáles son los métodos para la agrupación de datos de series temporales aplicables a grandes conjuntos de datos?

¿Qué ha contribuido en gran medida al lanzamiento de la era de Big Data?

¿Cómo es útil la econometría tradicional como la que se enseña en los programas de posgrado en economía para los científicos de datos en la práctica?

¿Qué es mejor, Data Science M.Tech de IIT Hyderabad o Big Data Analytics Certification de IIM Bangalore?