¿Cuáles deberían ser algunos hitos razonables para un principiante en ciencia de datos?

Razonable depende de su conjunto de habilidades. Puede ser un principiante en ciencia de datos y un dios como el codificador de Python sin experiencia en aprendizaje automático o un maestro del conocimiento estadístico sin habilidades de codificación o cualquier otra cosa intermedia. Sus hitos, como algo accionable y alcanzable, dependen en gran medida de su contexto.

La razón por la que enfatizo esto es porque si no tienes antecedentes, tendrás que elegir, como mínimo, estadísticas y codificación 101. Eso en sí mismo puede llevar algunos meses de trabajo y no creo que pueda decir cuáles serían los hitos para ello.

Supongamos que tiene suficientes conocimientos de programación y estadísticas para elegir un pequeño proyecto y darle una oportunidad. Estos hitos podrían aplicarse:

  1. Ejecute un análisis de datos descriptivos. Una simple El objetivo es que pueda responder preguntas simples sobre un conjunto de datos. Calcular resúmenes no es suficiente. Haz que se vea profesional tanto en comunicación como en imágenes. No harás tantas cosas como científico de datos, pero la experiencia será útil.
  2. Ejecute un análisis inferencial. Informe (nuevamente profesionalmente) los resultados de la prueba y comprenda la relación entre el tamaño de la muestra, el resultado de la prueba y el poder estadístico. Aproveche la oportunidad de comprender el diseño de conceptos experimentales. No olvide hacer una recomendación basada en sus hallazgos. De nuevo … no haces tanto como científico de datos, pero la experiencia es útil.
  3. Estudie y entienda la regla de Bayes. Intente aplicarlo a ejemplos médicos que a menudo acompañan las explicaciones. Comprender la sensibilidad y la especificidad.

La mayor parte de la conversación sobre ciencia de datos está relacionada con algoritmos y aprendizaje automático. Estoy totalmente en desacuerdo con esto. Un científico de datos que no comprende el lenguaje central de los datos es como un médico que no sabe cómo medir la temperatura del paciente. Los 3 hitos anteriores son ponerlo en contacto con los datos y comprender las cosas básicas que utiliza un científico de datos: ¡datos y ciencia!

Ahora es el momento de los productos de datos.

  1. Cree productos de datos que impliquen clustering. Ahora analice esos grupos como lo hizo con el análisis descriptivo. Piensa en tus grupos. ¿Tienen sentido? ¿Puedes usarlos? Prueba (como en estadística inferencial) hipótesis sobre las diferencias en las características.
  2. Cree productos de datos que impliquen regresión. Pruebe tantos como pueda, pero al menos lineal, no lineal y multivariante. Comprenda la validación cruzada, ¡úsela! Use conjuntos de datos grandes y anchos, cree modelos que respondan preguntas que podrían usarse. Si sus conjuntos de datos son lo suficientemente grandes, adquiera el hábito de tener conjuntos de trenes, pruebas y validación. ¡Haga la selección de características! La regresión es excelente para obtener un pulso en la selección de funciones, ya que puede obtener comentarios inmediatos del modelo.
  3. Cree un producto de datos que implique clasificación. Pruebe diferentes algoritmos que tengan enfoques diferentes, por ejemplo, si prueba bosques aleatorios, no intente árboles de decisión ya que uno deriva del otro. ¡Pero prueba SVMs! Y ingenuos bayes. Realice la extracción, use PCA. Si tiene un problema con un algoritmo, no se rinda, busque una respuesta. ¿Recuerdas sensibilidad y especificidad? ¡Bueno! Ir a la matriz de confusión, trazar ROC, calcular AUC. Comprenda sus problemas y sus soluciones, no sea un robot de ajuste de código de una línea.

Y antes de irme, una última cosa. Haga que sus productos de datos sean útiles. Crea unos interactivos. Sus productos de datos no pueden ser scripts que se ejecuten y muestren resultados. Tienen que ser utilizados de alguna manera.

¡Espero que esto ayude!

El primer hito es encontrar un conjunto de datos que le interese con suficiente profundidad, tamaño de muestra y granularidad para producir un análisis significativo. Este paso no debe tomarse a la ligera: es difícil obtener buenos datos.

Si, en algún momento de su viaje de ciencia de datos, se encuentra con una pared donde su salida es obvia o basura, donde no sabe lo suficiente sobre el sistema subyacente para comprender si su modelo está funcionando, donde se da cuenta de que el esfuerzo que está haciendo no está generando resultados que valgan la pena, cuente como una lección y regrese a este paso.

El segundo hito es la higiene de los datos. ¿Sabes qué significan todas las dimensiones, cómo se recopilan, cuál es el sesgo probable, dónde está incompleto? ¿Cómo puedes almacenarlo? ¿Cómo puedes transformarlo de cómo está almacenado a cómo-necesitas-ser-para-ser-para-modelar? ¿Puedes encontrar los valores atípicos? ¿Puedes encontrar los registros rotos, huérfanos, no confiables, duplicados? ¿Cuál es la diferencia entre un cero y un valor nulo? ¿Qué necesita ser separado? ¿Qué necesita ser agregado? Antes de comenzar a lanzar algoritmos, ¿puede mostrarme lo que quiere modelar? ¿Puede encontrar ejemplos, datos anecdóticos, estudios de casos, una historia “perfecta” dentro de los datos?

El tercero es un propósito. ¿Qué problema estás resolviendo? ¿A quién le importa resolverlo? ¿Qué le dicen estos datos? ¿Cómo estás midiendo el éxito? ¿Cómo se ve una victoria?

Honestamente, estos son los tres pasos más difíciles: los algoritmos son fáciles de implementar en datos limpios con métricas de éxito claras. La ciencia de datos, en la práctica, tiene menos que ver con el algoritmo y más con el conjunto de datos. Limpiarlo, comprenderlo, separar la señal del ruido, experimentar con las relaciones que existen y tener sentido antes de llegar a las que producen resultados, y mucho menos crear valor o conocimiento nuevo.

El algoritmo correcto es obvio cuando conoce los datos y el problema. Más que eso, es fácil evaluar si su algoritmo está funcionando cuando conoce bien los datos. Si no conoce sus datos o el problema que está resolviendo, ningún algoritmo funcionará.

More Interesting

¿Cuáles son los recursos en línea más útiles (como capacitación, libros o certificaciones) para convertirse en un experto en arquitectura de Big Data?

¿Existe alguna literatura interesante sobre cómo ajustar las distribuciones normales por MLE, permitiendo que tanto la media como la varianza dependan de los regresores y el uso de series temporales?

¿Cuáles son algunos algoritmos de aprendizaje automático que no pueden tolerar la falta de datos?

¿Qué debo hacer a continuación para conseguir un trabajo en Data Science y Machine Learning en India?

¿Qué tan importante es la teoría de juegos para un científico de datos?

¿Qué debo saber antes de aprender el análisis de big data?

¿Dónde puedo obtener tutoriales en línea gratuitos para análisis de big data con python?

¿Qué tan popular es Datatau?

¿Cuál es la fuente de datos perfecta para el análisis de sentimientos a nivel de documento?

¿Cuáles son algunos proyectos de análisis de datos que puedo hacer como principiante en ciencia de datos?

¿Qué herramientas e idiomas necesito saber para convertirme en un científico de datos en el futuro?

¿Cómo alguien más nuevo pone el pie en la puerta de la ciencia de datos, tanto en términos de aprendizaje como de trabajo?

¿Qué curso en línea debo hacer, aparte de R, para comenzar mi carrera en el campo del análisis de datos?

¿Cómo difieren las redes neuronales y los algoritmos genéticos en términos de método, procesos y resultados?

¿Debería unirme a 'dominar el análisis de datos con R' por edureka o 'Análisis de datos con R' por Udacity?