En pocas palabras, el análisis de datos es el proceso de convertir datos en información útil. El ciclo de análisis tiene alrededor de 5 partes.
Adquirir : supongamos que su gerente le pide que averigüe qué productos debe poner a la venta para la próxima temporada. Bueno, para responder esa pregunta necesitarás ir y encontrar los datos desde algún lugar. Puede tratarse de redes sociales, como clientes anteriores que hablan sobre su producto, o puede consultar los datos internos de su empresa, como las ventas del año pasado.
Explorar : una vez que tenga los datos, tendrá que ver con qué está trabajando realmente y ver si es relevante para lo que está tratando de responder. Por ejemplo, en sus datos de ventas puede tener datos de hace 5 años sobre productos que ya no vende y que desea excluir. O puede encontrarse con datos insuficientes y necesitar volver a la fase de adquisición.
- ¿Cuáles son las preguntas más frecuentes sobre entrevistas de ciencia de datos?
- ¿Podemos hacer aprendizaje automático escalable con R? ¿Puede R trabajar con Hadoop para procesar una matriz de 100 GB?
- ¿Cómo se descubrió la identidad de Startup L Jackson con tweets de minería de datos?
- Si se le da una opción entre el aprendizaje automático y el big data como electivo, ¿cuál es el mejor para elegir teniendo en cuenta el alcance?
- ¿Que competencia de kaggle debería elegir?
Limpieza : genial, tienes todos los datos que necesitas y te gusta lo que tienes. Bueno, si acaba de hacer un volcado de datos, los datos deben limpiarse y prepararse para su análisis. Es posible que tenga valores vacíos o problemas de formato que arrojarán sus resultados si no los detecta en esta fase.
Análisis : esta es la parte en la que realmente comienza a hacer un análisis de sus datos para encontrar la respuesta a sus preguntas. Si está trabajando en Excel, comenzará a crear tablas dinámicas para buscar tendencias en el conjunto de datos. Por ejemplo, puede encontrar que una determinada línea de productos genera 3 veces más ingresos cuando se vende por menos de $ 20.
Visualización y comunicación : aquí es donde tomas tu análisis y creas algunas imágenes y paneles agradables para llevarlo a tu jefe para que él / ella pueda entender tu análisis. Este es un paso crucial que muchas personas suelen pasar por alto. Su análisis es prácticamente inútil si no puede comunicar sus hallazgos a otros.
A lo largo de este proceso, te encontrarás saltando pasos y volviendo a los pasos anteriores todo el tiempo. Esto es normal. A menudo verá algo en los datos que no esperaba y generará más preguntas.
Los datos suelen ser sin formato y sin formato, lo que genera confusión. Más o menos, las empresas necesitan personas para tomar estos datos y proporcionar información útil. Por ejemplo, piense en construir una casa. Primero comienza con materias primas como ladrillos, cemento, metal, etc. Esta es su materia prima o datos en bruto.
Miras con qué tienes que trabajar y comienzas a combinar los materiales, como el cemento y los ladrillos, y pronto tienes una pared. Esto es como tomar los datos sin procesar y prepararlos para el análisis. Está tomando sus datos sin procesar y comienza a hacer un análisis (construir un muro).
Antes de que te des cuenta, tienes una casa y has hecho algo útil con tu materia prima. Esto es como crear una visualización y poner todo junto. Has hecho algo útil con los materiales que te dieron.
En K2 Data Science, le enseñamos cómo convertirse en un excelente analista de datos con un programa de análisis de datos dirigido por un mentor. Desglosamos los conceptos en ejemplos del mundo real que nuestros alumnos pueden relacionarse con ellos. ¡Echale un vistazo!
¡Espero que esto ayude!