Comienza a pensar en términos de números y probabilidades 🙂
Habilidades tecnológicas difíciles para un científico de datos:
- Estadística
- Aprenda los conceptos importantes a fondo: espacios de probabilidad, distribuciones, teorema de Bayes, conceptos de muestreo aleatorio, estimación de punto y conjunto, prueba de hipótesis.
- Encontré este excelente libro en línea gratuito: Probabilidad, Estadística matemática, Procesos estocásticos. Léalo y absorba al menos hasta el capítulo 8 sobre pruebas de hipótesis. Tiene excelentes ejercicios de aprendizaje. Haz todos los ejercicios si es posible. Debido a mi experiencia en el procesamiento de señales de EE, había aprendido y utilizado la teoría de probabilidad y procesos estocásticos en el pasado. Sin embargo, la estadística es un tema mucho más general que la teoría de la probabilidad que se enseña en EE. Entonces, para aprender estadísticas, encuentro este libro en línea como una gran herramienta.
- En la práctica, es probable que no esté inventando nuevos métodos o algoritmos estadísticos, sino que solo utilizará los existentes. Pero el conocimiento de las estadísticas lo ayudará a comprender, evaluar o ajustar estos métodos existentes, especialmente todos los métodos modernos de aprendizaje automático.
- Aprendizaje automático (ML):
- Desde mi experiencia, recomiendo tomar el curso de aprendizaje automático de Coursera por el profesor Andrew Ng. Tomé este curso recientemente para repasar mi oxidado conocimiento de ML de mis días de IIT hace 25 años. Encontré que el profesor Ng es un excelente maestro que ha creado un curso para principiantes diseñado fantásticamente que se adapta a una amplia gama de antecedentes estudiantiles.
- Para conocer las razones estadísticas detrás de los diversos algoritmos de ML: lea un libro más avanzado como Introducción al aprendizaje automático de Alpaydin. La mayoría de los algoritmos de ML modernos son realmente métodos estadísticos que estiman directa o indirectamente la distribución de probabilidad inversa bayesiana, es decir, la probabilidad de salida dada por los datos de entrenamiento dados.
- Habilidades prácticas (yo mismo todavía no estoy allí 🙂)
- Idiomas: R parece lo más importante. A continuación están Python y Scala. Octave es útil para la creación rápida de prototipos de sus propios algoritmos de ML personalizados o recién inventados.
- Bibliotecas: Mahout, MLib.
- Practica los problemas en sitios como Kaggle.
Habilidades blandas:
- ¿Es Big Data todo sobre sistemas distribuidos?
- ¿Qué se entiende por indexar datos en términos de Elasticsearch?
- Ciencia de datos: dados los buenos datos estructurados, ¿qué técnica de modelado predictivo se puede implementar en R dentro de una semana?
- ¿Es correcto hacer un curso sobre big data? ¿Cómo puedo asegurar un trabajo como nuevo después de hacer un curso de Big Data?
- ¿Qué es la "ciencia" en ciencia de datos? ¿Se trata exclusivamente de la ciencia de monetizar grandes datos, o también hay un aspecto de no negocios?
- Habilidades de visualización de datos: hay buenos libros y herramientas para esto. Yo mismo sé muy poco, pero tengo habilidades formales.
- Habilidades de presentación de datos:
- Supongo que las mejores presentaciones no provienen de un estilo elegante, sino de la claridad de los propios pensamientos sobre el tema y los resultados del proyecto.
- Aún así, el estilo también es importante: puede ser mejor aprender de las diapositivas de otras personas además de la propia creatividad.