Razonable depende de su conjunto de habilidades. Puede ser un principiante en ciencia de datos y un dios como el codificador de Python sin experiencia en aprendizaje automático o un maestro del conocimiento estadístico sin habilidades de codificación o cualquier otra cosa intermedia. Sus hitos, como algo accionable y alcanzable, dependen en gran medida de su contexto.
La razón por la que enfatizo esto es porque si no tienes antecedentes, tendrás que elegir, como mínimo, estadísticas y codificación 101. Eso en sí mismo puede llevar algunos meses de trabajo y no creo que pueda decir cuáles serían los hitos para ello.
Supongamos que tiene suficientes conocimientos de programación y estadísticas para elegir un pequeño proyecto y darle una oportunidad. Estos hitos podrían aplicarse:
- ¿Cuáles son los mitos del big data que afectan a las PYME?
- ¿Cuál es un ejemplo de cómo usaste la ciencia de datos para resolver un problema, tomar una decisión u optimizar algo en tu vida personal?
- ¿Hay algún lugar en Gurgaon donde pueda enseñar Data Science gratis?
- ¿Cuáles son los antecedentes de los miembros del equipo de datos de Quora?
- ¿Cuál es la mejor manera de manejar los datos faltantes para el problema de clasificación en el aprendizaje automático?
- Ejecute un análisis de datos descriptivos. Una simple El objetivo es que pueda responder preguntas simples sobre un conjunto de datos. Calcular resúmenes no es suficiente. Haz que se vea profesional tanto en comunicación como en imágenes. No harás tantas cosas como científico de datos, pero la experiencia será útil.
- Ejecute un análisis inferencial. Informe (nuevamente profesionalmente) los resultados de la prueba y comprenda la relación entre el tamaño de la muestra, el resultado de la prueba y el poder estadístico. Aproveche la oportunidad de comprender el diseño de conceptos experimentales. No olvide hacer una recomendación basada en sus hallazgos. De nuevo … no haces tanto como científico de datos, pero la experiencia es útil.
- Estudie y entienda la regla de Bayes. Intente aplicarlo a ejemplos médicos que a menudo acompañan las explicaciones. Comprender la sensibilidad y la especificidad.
La mayor parte de la conversación sobre ciencia de datos está relacionada con algoritmos y aprendizaje automático. Estoy totalmente en desacuerdo con esto. Un científico de datos que no comprende el lenguaje central de los datos es como un médico que no sabe cómo medir la temperatura del paciente. Los 3 hitos anteriores son ponerlo en contacto con los datos y comprender las cosas básicas que utiliza un científico de datos: ¡datos y ciencia!
Ahora es el momento de los productos de datos.
- Cree productos de datos que impliquen clustering. Ahora analice esos grupos como lo hizo con el análisis descriptivo. Piensa en tus grupos. ¿Tienen sentido? ¿Puedes usarlos? Prueba (como en estadística inferencial) hipótesis sobre las diferencias en las características.
- Cree productos de datos que impliquen regresión. Pruebe tantos como pueda, pero al menos lineal, no lineal y multivariante. Comprenda la validación cruzada, ¡úsela! Use conjuntos de datos grandes y anchos, cree modelos que respondan preguntas que podrían usarse. Si sus conjuntos de datos son lo suficientemente grandes, adquiera el hábito de tener conjuntos de trenes, pruebas y validación. ¡Haga la selección de características! La regresión es excelente para obtener un pulso en la selección de funciones, ya que puede obtener comentarios inmediatos del modelo.
- Cree un producto de datos que implique clasificación. Pruebe diferentes algoritmos que tengan enfoques diferentes, por ejemplo, si prueba bosques aleatorios, no intente árboles de decisión ya que uno deriva del otro. ¡Pero prueba SVMs! Y ingenuos bayes. Realice la extracción, use PCA. Si tiene un problema con un algoritmo, no se rinda, busque una respuesta. ¿Recuerdas sensibilidad y especificidad? ¡Bueno! Ir a la matriz de confusión, trazar ROC, calcular AUC. Comprenda sus problemas y sus soluciones, no sea un robot de ajuste de código de una línea.
Y antes de irme, una última cosa. Haga que sus productos de datos sean útiles. Crea unos interactivos. Sus productos de datos no pueden ser scripts que se ejecuten y muestren resultados. Tienen que ser utilizados de alguna manera.
¡Espero que esto ayude!