Conjunto de datos: en primer lugar, necesita un conjunto de datos interesante para jugar. O ya tiene sus propios datos (¡felicidades!) O necesita adquirir algunos. Estamos viviendo en la era de la sobrecarga de información, lo que probablemente significa que los datos están en todas partes y es fácil obtenerlos, ¿verdad? si y no
Estadísticas: Tener una buena comprensión de las estadísticas es extremadamente útil al realizar el análisis de datos. Una regla general dice que el primer paso después de obtener un conjunto de datos es echarle un vistazo rápido, y algunas estadísticas descriptivas básicas son un buen amigo suyo aquí. Si su conjunto de datos contiene variables numéricas, es posible que le interesen sus distribuciones: su centro (es decir, la media) y su extensión (es decir, la varianza).
Aprendizaje automático: en términos simples, el objetivo de los algoritmos de aprendizaje automático es aprender a tomar decisiones basadas en datos. Este enfoque, contrario al diseño de algoritmos codificados, tiene enormes beneficios en el sentido de que un método puede servir para muchos propósitos. Además, los sistemas de aprendizaje automático están diseñados para mejorar a medida que ingresan nuevos datos.
- Cómo ingresar a un programa de doctorado en ciencia de datos
- Cómo explicar la normalización de la base de datos con ejemplos del mundo real
- ¿Qué son exactamente los grandes datos y qué lenguajes de programación se deben aprender para comprender mejor este concepto?
- ¿Cuáles son algunos buenos currículums de Data Science?
- ¿Hay alguna manera de recopilar datos de Facebook de una página de la competencia con fines analíticos?
Visualización: ya he mencionado el poder descriptivo de las estadísticas. Permítanme ilustrar la importancia de la visualización en un ejemplo, donde las estadísticas simples no son suficientes: el cuarteto de Anscombe es una colección de cuatro conjuntos de datos diferentes con dos variables x e y.
MOOC: La ciencia de datos en diversas formas se está introduciendo como un nuevo programa en muchas universidades de todo el mundo. Los cursos en línea masivos van de la mano con esta tendencia y ya puede encontrar una gran cantidad de cursos gratuitos o muy asequibles que lo guiarán desde Introducción a la Ciencia de los Datos, pasando por Análisis de Datos e Inferencia Estadística, Minería de Datos o Visualización de Datos hasta Aprendizaje Automático. por Andrew Ng.
Desafíos: ahora, cuando tenga todas las piezas juntas, es hora de aplicar sus conocimientos en la práctica. ¿Y qué puede ser más divertido que participar en una competencia? Los desafíos de la ciencia de datos, como Kaggle, son una gran oportunidad para probar sus propias habilidades y aprender de los demás.