El análisis se refiere a dividir un todo en sus componentes separados para un examen individual. El análisis de datos es un proceso para obtener datos sin procesar y convertirlos en información útil para la toma de decisiones por parte de los usuarios. Los datos se recopilan y analizan para responder preguntas, probar hipótesis o refutar teorías.
El estadístico John Tukey definió el análisis de datos en 1961 como: “Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de estadísticas (matemáticas) que se aplican al análisis de datos “.
Hay varias fases que se pueden distinguir, que se describen a continuación. Las fases son iterativas, ya que la retroalimentación de las fases posteriores puede resultar en un trabajo adicional en las fases anteriores.
- ¿Cómo hacen las estadísticas clases e intervalos de clase cuando los datos están en decimales?
- Ciencias de datos o nube, ¿cuál es mejor?
- ¿Cuál es la forma más efectiva de estructurar un equipo de ciencia de datos?
- ¿Cuánto tiempo te llevó convertirte en analista / desarrollador junior de BI productivo?
- ¿Hay algún software de Big Data de código abierto disponible en este momento?
Requerimientos de datos
Los datos necesarios como entradas para el análisis se especifican en función de los requisitos de quienes dirigen el análisis o de los clientes que utilizarán el producto terminado del análisis. El tipo general de entidad sobre el que se recopilarán los datos se denomina unidad experimental (por ejemplo, una persona o población de personas). Se pueden especificar y obtener variables específicas con respecto a una población (por ejemplo, edad e ingresos). Los datos pueden ser numéricos o categóricos (es decir, una etiqueta de texto para los números).
Recopilación de datos
Los datos se recopilan de una variedad de fuentes. Los analistas pueden comunicar los requisitos a los custodios de los datos, como el personal de tecnología de la información dentro de una organización. Los datos también se pueden recopilar de sensores en el entorno, como cámaras de tráfico, satélites, dispositivos de grabación, etc. También se pueden obtener a través de entrevistas, descargas de fuentes en línea o lectura de documentación.
Procesamiento de datos
Los datos obtenidos inicialmente deben ser procesados u organizados para su análisis. Por ejemplo, esto puede implicar colocar datos en filas y columnas en un formato de tabla para su posterior análisis, como dentro de una hoja de cálculo o software estadístico.
Limpieza de datos
Una vez procesados y organizados, los datos pueden estar incompletos, contener duplicados o contener errores. La necesidad de la limpieza de datos surgirá de problemas en la forma en que los datos se ingresan y almacenan. La limpieza de datos es el proceso de prevenir y corregir estos errores. Las tareas comunes incluyen la coincidencia de registros, la identificación de la inexactitud de los datos, la calidad general de los datos existentes, la deduplicación y la segmentación de columnas. Estos problemas de datos también se pueden identificar a través de una variedad de técnicas analíticas. Por ejemplo, con información financiera, los totales de variables particulares pueden compararse con números publicados por separado que se consideran confiables. También pueden revisarse cantidades inusuales por encima o por debajo de umbrales predeterminados. Existen varios tipos de limpieza de datos que dependen del tipo de datos, como números de teléfono, direcciones de correo electrónico, empleadores, etc. Se pueden utilizar métodos de datos cuantitativos para la detección de valores atípicos para eliminar los datos probablemente ingresados incorrectamente. Los correctores ortográficos de datos textuales se pueden usar para disminuir la cantidad de palabras mal escritas, pero es más difícil saber si las palabras son correctas.
Análisis exploratorio de datos
Una vez que se limpian los datos, se pueden analizar. Los analistas pueden aplicar una variedad de técnicas denominadas análisis de datos exploratorios para comenzar a comprender los mensajes contenidos en los datos. El proceso de exploración puede resultar en la limpieza de datos adicionales o solicitudes adicionales de datos, por lo que estas actividades pueden ser de naturaleza iterativa. Se pueden generar estadísticas descriptivas como el promedio o la mediana para ayudar a comprender los datos. La visualización de datos también se puede utilizar para examinar los datos en formato gráfico, para obtener información adicional sobre los mensajes dentro de los datos.
Modelado y algoritmos
Las fórmulas o modelos matemáticos llamados algoritmos pueden aplicarse a los datos para identificar relaciones entre las variables, como la correlación o la causalidad. En términos generales, los modelos se pueden desarrollar para evaluar una variable particular en los datos en función de otra (s) variable (s) en los datos, con algún error residual dependiendo de la precisión del modelo (es decir, Datos = Modelo + Error).
Fuente: este