¿Cuáles son los procesos de análisis de datos?

El análisis se refiere a dividir un todo en sus componentes separados para un examen individual. El análisis de datos es un proceso para obtener datos sin procesar y convertirlos en información útil para la toma de decisiones por parte de los usuarios. Los datos se recopilan y analizan para responder preguntas, probar hipótesis o refutar teorías.

El estadístico John Tukey definió el análisis de datos en 1961 como: “Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de estadísticas (matemáticas) que se aplican al análisis de datos “.

Hay varias fases que se pueden distinguir, que se describen a continuación. Las fases son iterativas, ya que la retroalimentación de las fases posteriores puede resultar en un trabajo adicional en las fases anteriores.

Requerimientos de datos

Los datos necesarios como entradas para el análisis se especifican en función de los requisitos de quienes dirigen el análisis o de los clientes que utilizarán el producto terminado del análisis. El tipo general de entidad sobre el que se recopilarán los datos se denomina unidad experimental (por ejemplo, una persona o población de personas). Se pueden especificar y obtener variables específicas con respecto a una población (por ejemplo, edad e ingresos). Los datos pueden ser numéricos o categóricos (es decir, una etiqueta de texto para los números).

Recopilación de datos

Los datos se recopilan de una variedad de fuentes. Los analistas pueden comunicar los requisitos a los custodios de los datos, como el personal de tecnología de la información dentro de una organización. Los datos también se pueden recopilar de sensores en el entorno, como cámaras de tráfico, satélites, dispositivos de grabación, etc. También se pueden obtener a través de entrevistas, descargas de fuentes en línea o lectura de documentación.

Procesamiento de datos

Los datos obtenidos inicialmente deben ser procesados ​​u organizados para su análisis. Por ejemplo, esto puede implicar colocar datos en filas y columnas en un formato de tabla para su posterior análisis, como dentro de una hoja de cálculo o software estadístico.

Limpieza de datos

Una vez procesados ​​y organizados, los datos pueden estar incompletos, contener duplicados o contener errores. La necesidad de la limpieza de datos surgirá de problemas en la forma en que los datos se ingresan y almacenan. La limpieza de datos es el proceso de prevenir y corregir estos errores. Las tareas comunes incluyen la coincidencia de registros, la identificación de la inexactitud de los datos, la calidad general de los datos existentes, la deduplicación y la segmentación de columnas. Estos problemas de datos también se pueden identificar a través de una variedad de técnicas analíticas. Por ejemplo, con información financiera, los totales de variables particulares pueden compararse con números publicados por separado que se consideran confiables. También pueden revisarse cantidades inusuales por encima o por debajo de umbrales predeterminados. Existen varios tipos de limpieza de datos que dependen del tipo de datos, como números de teléfono, direcciones de correo electrónico, empleadores, etc. Se pueden utilizar métodos de datos cuantitativos para la detección de valores atípicos para eliminar los datos probablemente ingresados ​​incorrectamente. Los correctores ortográficos de datos textuales se pueden usar para disminuir la cantidad de palabras mal escritas, pero es más difícil saber si las palabras son correctas.

Análisis exploratorio de datos

Una vez que se limpian los datos, se pueden analizar. Los analistas pueden aplicar una variedad de técnicas denominadas análisis de datos exploratorios para comenzar a comprender los mensajes contenidos en los datos. El proceso de exploración puede resultar en la limpieza de datos adicionales o solicitudes adicionales de datos, por lo que estas actividades pueden ser de naturaleza iterativa. Se pueden generar estadísticas descriptivas como el promedio o la mediana para ayudar a comprender los datos. La visualización de datos también se puede utilizar para examinar los datos en formato gráfico, para obtener información adicional sobre los mensajes dentro de los datos.

Modelado y algoritmos

Las fórmulas o modelos matemáticos llamados algoritmos pueden aplicarse a los datos para identificar relaciones entre las variables, como la correlación o la causalidad. En términos generales, los modelos se pueden desarrollar para evaluar una variable particular en los datos en función de otra (s) variable (s) en los datos, con algún error residual dependiendo de la precisión del modelo (es decir, Datos = Modelo + Error).

Fuente: este

  • Qué medir y cómo
    Si quieres ver si hay una relación entre la altura y el peso de los perros, puedes usar una báscula. ¿Qué pasaría si quisieras ver la relación entre la habilidad de un perro para aprender trucos y su edad? Tendría que idear un método.
  • Recolectando datos
    Realice una investigación para ver si ya existen datos o si tiene que recopilarlos usted mismo. Dependiendo de su método, querrá asegurarse de que está recopilando datos precisos, utilizando métodos de recolección adecuados, asegurando un muestreo adecuado.
  • Resumiendo y mostrando los datos
    Escribir los resultados de sus datos y todas las métricas importantes que lo acompañan. Más información sobre eso aquí: http://www.stat.ncsu.edu/people/
  • Analiza datos e interpreta resultados
    Uso de pruebas de hipótesis.

En resumen, a continuación se detallan los pasos básicos para analizar datos y resolver problemas.

  1. Definir objetivo analítico
  1. Como se dijo, definir su problema es el 50% de la solución, por lo que debe definir su problema y cuál es el alcance de su análisis
  • Extraer datos de entrada
    1. Según la descripción del problema, deberá seleccionar cuidadosamente los datos de entrada y extraerlos para su análisis.
  • Validar datos de entrada
    1. Verifique que los datos de entrada sean precisos y consistentes
  • Reparar datos de entrada
    1. Arregle lo que podría estar allí en datos como valores nulos
  • Transformar datos de entrada
    1. Aplique las transformaciones requeridas para cada campo si es necesario
  • Aplicar análisis
    1. Realice su análisis utilizando su herramienta y algoritmo preferidos
  • Generar método de implementación
    1. Cree el paquete de implementación para su modelo
  • Evaluar resultados
    1. Verifique validar su resultado para asegurarse de que sean precisos
  • Refinar objetivo analítico
    1. Refine su algoritmo o método de análisis si es necesario

    Hola,

    El análisis de datos, también conocido como análisis de datos o análisis de datos, es un proceso de inspección, limpieza, transformación y modelado de datos con el objetivo de descubrir información útil,

    Aprenda el entrenamiento de Hadoop en Hyderbad | Aula y formación en línea por expertos

    Hola,

    Verifíquelo en ¿Cuáles son los procesos de análisis de datos?

    Gracias