¿A qué nivel, o cuánta programación, necesito saber para convertirme en científico de datos?

El problema con responder esta pregunta es que hay una gran variación en qué tipo de responsabilidades se asignan a un científico de datos. En algunos roles, un científico de datos es solo un desarrollador de software que conoce algunas estadísticas. En otros, es un estadístico que sabe cómo programar algo.

Dicho esto, el consejo general es que necesita saber cómo trabajar con grandes conjuntos de datos. En lugar de tratar de averiguar cuál es el mínimo, déjame revisar una lista de lo que consideraría el ideal. Cuantos más de estos pueda marcar, más feliz será en el mercado laboral:

  • R, SAS o algún otro paquete estadístico. No quiere perder el tiempo construyendo sus propias versiones de modelos estadísticos estándar. SAS es infinitamente mejor en el manejo de grandes conjuntos de datos que R, pero las capacidades gráficas y la extensibilidad de R son sorprendentes. MATLAB se agrupa aquí a veces también.
  • Python o algún otro lenguaje de script. Hay mucho que hacer en los lenguajes de programación estadística, pero Python lo maneja muy bien. Los lenguajes más rápidos tienden a tener ciclos de desarrollo más largos, por lo que Python es una gran herramienta para jugar. Ruby y Perl son comparables, pero Python es definitivamente el estándar.
  • C ++, Java o algún otro lenguaje de rendimiento relativamente alto. Python no siempre lo cortará a la velocidad, y ahí es cuando rompes las armas grandes. Java es mucho más común que C ++ por lo que he visto, pero los dos lenguajes son lo suficientemente similares como para que puedas elegir el otro una vez que hayas eliminado uno de ellos.
  • SQL y bases de datos relacionales. Estos no se ajustan a todos los conjuntos de datos, pero cuando lo hacen, se ajustan muy bien.
  • Bases de datos NoSQL. Estas son las alternativas a SQL. Este es un grupo de paquetes de software mucho menos estandarizado, por lo que es difícil dar consejos específicos. Hive es popular y encaja bien con otras herramientas informáticas distribuidas, por lo que podría ser la mejor para empezar.
  • Hadoop / MapReduce. Si no sabe cómo solucionar esto, no conoce big data.
  • Estructuras de datos estándar. Aquí encontrará todo lo que encuentre en el libro “Introducción a las estructuras de datos con el lenguaje X”. La lista estándar es básicamente listas enlazadas, colas, pilas, árboles binarios, montones, tablas hash y estructuras de datos gráficos. Cualquier cosa que sepas arriba es un bono.
  • Algoritmos estándar. Esto es un poco difícil de separar de la lista de estructuras de datos, pero diría que la mayoría de lo que hay en los capítulos básicos de CLRS es un juego justo. En particular, los algoritmos básicos de búsqueda de gráficos son esenciales.
  • Los algoritmos estándar de aprendizaje automático. Regresión lineal, SVM, vecino más cercano, redes neuronales, Adaboost, árboles de decisión, regresión logística, LDA. Las técnicas para la selección de funciones siempre son interesantes.
  • Los fundamentos de las estadísticas aplicadas. Sepa cómo diseñar un esquema de muestreo que no sea solo un muestreo aleatorio simple. Ser capaz de analizar algunos experimentos básicos. Puntos de bonificación si sabe cómo analizar datos de panel con modelos lineales generalizados.

Obviamente, nadie puede ser un experto en todo esto al salir de la escuela, pero como dije anteriormente, mientras más de estas cosas puedas hablar inteligentemente, mejor será tu búsqueda de empleo.

La ciencia de datos debe comenzar con curiosidad cuando te enfrentas a un montón de datos.
Creo que saber matemáticas de nivel secundario es muy recomendable para comenzar a crear un programa significativo. Soy un programador autodidacta y comencé a aprender análisis de datos leyendo algunas estadísticas y matemáticas básicas.

Un libro recomendado que realmente me ayuda es:
“Análisis de datos con herramientas de código abierto” (Phillip K. Janert)
El libro explica cómo debe manejar los datos y elegir el análisis apropiado para sus datos. El autor también proporciona al lector código Python para hacer ejercicio.

Para el lenguaje de programación, puede usar cualquier lenguaje de programación, pero le recomiendo que comience con Python o R, ya que son realmente adecuados para el análisis de datos.

Si desea refinar la gran idea sobre la ciencia de datos, puede visitar la página oficial de STRATA de O’Reilly:

Análisis de datos, minería de datos y gestión de datos

¡Espero eso ayude!

Aclamaciones,
Sunu .W (Japón)

La ciencia de datos parece comenzar con una formación básica en programación. Obtendrá todas las estructuras de datos básicas en el proceso, pero no es realmente central para lo que es la “ciencia de datos” (sea lo que sea).

Para comenzar, necesitará adquirir experiencia en estadísticas y bases de datos. (No solo las estructuras de datos, sino los entresijos de cómo funcionan realmente las bases de datos reales. Debería conocer genuinamente al menos un sistema de base de datos y qué lo hace diferente de los demás). Ayuda tener experiencia en aprendizaje automático y visualización de datos.

También ayuda a adquirir experiencia en algunas de las herramientas de Big Data, como Hadoop y MapReduce.

Depende. Si lo sabe, sería una buena opción para BI o ingeniería de datos. Los científicos de datos tienden a centrarse en estadísticas / aprendizaje automático, en lugar de almacenamiento de datos y ETL. Te sugiero que aprendas las matemáticas si quieres hacer la transición al aprendizaje automático, así como adquirir experiencia con el análisis de datos.

More Interesting

Cómo avanzar mi habilidad R al siguiente nivel

¿Qué porcentaje de una muestra proporciona suficiente análisis de datos?

¿Por qué el bosque aleatorio (scikit-learn) usa tanta memoria? ¿Existen otras implementaciones además de scikit-learn que son más eficientes en memoria?

¿Cuáles son las aplicaciones de big data y Hadoop en educación?

¿Cuáles son las habilidades necesarias para la ciencia de datos?

Con experiencia en informática, ¿vale la pena aprender R y ciencia de datos?

¿Me puede recomendar un curso avanzado de ciencia de datos?

Cómo implementar Data Compression + Denoising usando Machine Learning

¿Cuál es el escenario actual / las perspectivas futuras de la ciencia de datos en la India en comparación con Silicon Valley?

¿Cuál es el futuro de la ciencia de datos en los próximos años? ¿Cómo es el mercado laboral en ciencia de datos para los graduados de nivel de entrada? ¿Es fácil de aprender, o necesitamos hacer más y más trabajo duro para conseguir un trabajo de nivel de entrada?

¿Cuáles son algunas simulaciones modificables gratuitas de código abierto disponibles para el público?

Cómo demostrar que los grandes datos son valiosos para las empresas

¿Cuál es el alcance futuro del almacenamiento de datos y la minería de datos? ¿Desde dónde puedo comenzar a aprender estos dos campos emergentes?

¿Cuáles son los beneficios de tener una regularización de datos en tiempo real?

¿Cuáles son los desafíos para clasificar los datos informáticos de salud?