Primero, debe saber que Data Science es un término general muy amplio que cubre muchas áreas. En términos generales, en ciencia de datos, intentas comprender y explicar tus datos. Para el caso, necesita saber:
- Cómo visualizar sus datos para tener una idea de cómo se ve. Es posible que no sea trivial si tiene un conjunto de datos de alta dimensión.
- Algunas estadísticas para poder sacar conclusiones científicamente sólidas.
- Algunos métodos de Machine Learning para saber dónde necesita aplicar qué método para clasificar sus muestras, etc.
- Cómo escribir historias coherentes.
- ( la lista puede continuar)
Es importante que conozca los métodos de ML que utiliza. En ciencia de datos, los métodos de LD podrían considerarse como herramientas para el trabajo. Mientras mas sabes es mejor. Si conoce los detalles de cada método, puede interpretar mejor el resultado. Cuanto más profundo sepa, más fácil le resultará elaborar su historia.
Sin embargo, no es necesario saber cómo implementarlos desde cero. Ni siquiera se recomienda. Si hay un paquete disponible para el método ML que está buscando, simplemente utilícelo. Esos paquetes son desarrollados, probados y validados. Incluso si los implementa, necesita toneladas de pruebas para asegurarse de que su código sea absolutamente correcto. No reinventar la rueda .
- ¿Cuántos datos puede manejar JMP?
- ¿Cuánto tiempo lleva aprender correctamente big data y ser un analista exitoso?
- ¿Qué tareas de minería de datos (big data) necesitan precisión de predicción más allá de 0.999999?
- Como aspirante a científico de datos, ¿qué lenguaje de programación debo aprender entre Python, R, C # y Java, dado que no tengo experiencia previa en programación? Tengo una licenciatura en economía y estadística y una maestría en administración.
- ¿Tienes alguna recomendación de biblioteca para construir un robot de póker?
Impleméntelos solo si
- No hay paquete / biblioteca para ellos. O
- Está tratando de optimizar el método ajustando algunas partes en la ruta de datos.
Algunos de mis amigos son científicos de datos y los únicos lenguajes / herramientas de programación que solo conocen son SAS y SPSS.
PD: Podría ser un caso diferente para los informáticos. Por lo general, cuando un informático es asignado a un trabajo de ciencia de datos, se espera que sepa cómo implementar cualquier algoritmo; Métodos de ML incluidos.