La idea errónea más común entre los aspirantes a la ciencia de datos es que si puedes aprender a hacerlo solo enseñándote a ti mismo cómo usar algunas herramientas especializadas (como R, scikit-learn, pandas, matplotlib, etc.)
Ignora por completo el hecho de que estas herramientas representan solo la parte pequeña y visible del iceberg, el resto de las cuales se basa en un conocimiento profundo de las estadísticas y el método científico.
En el dominio de la ciencia de datos, puede comenzar con estadísticas, aprendizaje automático y visualizaciones simples.
- ¿Qué tan popular es SPSS entre los científicos de datos?
- Cómo guardar sus datos en R
- ¿Cuál es la más fácil: aprendizaje automático, inteligencia artificial o ciencia de datos?
- ¿Cuál es el límite de tamaño de archivo en una carga a Slack?
- ¿Es mejor tener demasiados falsos positivos o demasiados falsos negativos?
La matemática es un requisito previo necesario (necesitará cálculo de variables múltiples, álgebra lineal / matricial, optimización y ecuaciones diferenciales) para estadísticas y aprendizaje automático
Si quieres obtener experiencia haciendo ciencia de datos, haz ciencia de datos en lugar de las cosas turísticas que representa Kaggle. Identifique una pregunta que valga la pena hacer y que pueda responderse con los conjuntos de datos existentes, e idee una estrategia para responderla. Una vez que llegue a ese punto, puede comenzar a jugar con herramientas (como Python, R NoSQL / MySQL y Hadoop) y construyendo las partes externas de su proyecto.