Data Science es un campo relacionado con la limpieza, preparación y análisis de datos. Primero, necesitas tener una base sólida en Matemáticas. Las matemáticas básicas del nivel XII deberían ser suficientes para iniciar su viaje en Data Science.
Para las matemáticas, necesita repasar los siguientes temas:
1. Álgebra lineal y cálculo : puede estudiar en Khan Academy , MIT Open Courseware (MIT OCW) , Udacity (curso de actualización de álgebra lineal) o usar libros de referencia como Advanced Engineering Mathematics de Kreyszig . Pulir sus conceptos sobre álgebra lineal será útil para comprender muchos aspectos del aprendizaje automático, como la optimización de hiperparámetros, las funciones de regularización y el análisis de conglomerados; nombrar unos pocos entre muchos.
- ¿Por qué "todo parece estar correlacionado en una escala de log-log"?
- ¿Está garantizado el entusiasmo por la ciencia de datos? Si es así, ¿por qué?
- ¿Cuáles son las características principales de un sistema de minería de datos?
- ¿Cuál es mejor en big data, SAP, FICO o Hadoop?
- ¿Cuál es la diferencia entre trabajar en análisis y ciencia de datos?
2. Cálculo vectorial : para el cálculo vectorial nuevamente, puede seguir los recursos mencionados anteriormente. Y brillante | La matemática y la ciencia bien hechas también es una aplicación muy interactiva para ayudarte a aclarar los conceptos de la misma.
3. Estadísticas : junto con los recursos mencionados anteriormente, puede completar el curso “Introducción a las estadísticas ” en Udacity para proporcionar sus habilidades de análisis estadístico.
En una visión concisa, hay 3 requisitos para un científico de datos:
1. Comprensión de los algoritmos de aprendizaje automático.
2. Implementación de algoritmos utilizando herramientas estadísticas.
3. Comunicar los resultados a través de una narración efectiva.
En la actualidad, las herramientas estadísticas de código abierto más preferidas son ‘R ‘ y ‘Python’.
- Para R: comience a aprender bibliotecas como dplyr , tidyr, data.table para manipulación de datos y ggplot2 para visualizaciones.
- Para Python : comience a usar numpy y pandas para manipulación de datos. En general, matplotlib se usa para visualización en python, pero si desea ahorrar tiempo puede usar ggplot2 que tiene la misma sintaxis que en R. De hecho, la visualización en ggplot2 es mucho mejor que la de matplotlib.
Libros recomendados
- Ciencia de datos desde cero : Explicar algoritmos construyéndolo desde el nivel del suelo en python. Esto puede ayudar a comprender el algoritmo en lugar de usar bibliotecas como una caja negra .
- Elementos de aprendizaje estadístico : Complementando el curso de aprendizaje estadístico de Stanford, un tratamiento avanzado de todos los algoritmos ampliamente utilizados.
- R para todos – Este libro está escrito por Jared P. Lander. Cubre todos los aspectos de la ciencia de datos, como la visualización de datos, la manipulación de datos, el modelado predictivo. Puede entender todo fácilmente, ya que cubre una amplia gama de temas.
Cursos Recomendados –
1. Aprendizaje estadístico – Stanford : este curso está diseñado específicamente para explicar los algoritmos sin depender en gran medida de las fórmulas matemáticas y se centra en las implementaciones en R. La lista compilada de videos está disponible junto con una versión gratuita en pdf.
2. Cursos de ciencia de datos | Coursera .
El campo que aún se encuentra en la etapa inicial no tiene cursos fijos a seguir. Pero hay varios blogs analíticos y personales de los principales científicos de datos que serán vitales para aprender nuevos métodos.
Algunos de los blogs famosos son:
1. AnalyticsVidya
2. R-Bloggers
3. Data Science Central
4. KDNuggets
Puede seguir algunos inspiradores científicos de datos en Linkedin de la siguiente manera:
1. DJ Patil es el científico jefe de datos de los Estados Unidos en la Oficina de Política de Ciencia y Tecnología de la Casa Blanca. El escritor de uno de los artículos más citados en los negocios sobre cómo pensar sobre el área emergente de la ciencia de datos.
2. Kirk Borne – Kirk es un veterano analítico, educador, científico espacial y más. Actualmente es el principal científico de datos en Booz Allen y ha enseñado ciencia de datos, estadística, ética de datos y modelado computacional durante más de 12 años en la Universidad de Mason.
Leer más: ¿Quién debe aprender ciencia de datos?
¿Cuál es el mejor curso para comenzar a aprender ciencia de datos?
¿Cómo puedo comenzar a aprender ciencia de datos y convertirme en un maestro en ella?
Espero que esto ayude.