¿Qué es lo primero que haces al mirar un nuevo conjunto de datos?

Esto es lo que haría:

  1. Pico en las primeras filas
  2. Visualice la distribución de las características que me interesan (histogramas)
  3. Visualice la relación entre pares de características (diagramas de dispersión)

Descargué el conjunto de datos de abulón del repositorio de UCI Machine Learning aquí. Digamos que me importa cómo se puede usar la altura y el diámetro para predecir el peso total. Para completar, he incluido el paso de leer los datos del archivo.

  importar pandas como pd
 importar matplotlib.pyplot como plt
 importar seaborn como sns

 data = pd.read_csv ("abalone.data", header = False)
 data.columns = ["sexo", "longitud", "diámetro", "altura", 
                 "Whole_weight", "shucked_weight",
                 "viscera_weight", "shell_weight", "rings"]

Ahora podemos tomar un pico en las primeras filas:

  data.head ()

Ahora, sé que las variables que me interesan son valores de coma flotante y pueden tratarse como continuas. Quiero echar un vistazo para ver cómo se distribuyen estas tres variables:

 fig = plt.figure (figsize = (20,5)) plt.subplot (1, 3, 1) plt.hist (datos ['diámetro'], normalizado = True) plt.title ("Diámetro") plt.subplot (1, 3, 2) plt.hist (data ['height'], normed = True) plt.title ("Height") plt.subplot (1, 3, 3) plt.hist (data ['whole_weight'] , normalizado = True) plt.title ("Peso total") plt.show () 

¡Excelente! Ahora, sé que el diámetro y el peso total están sesgados hacia la izquierda y hacia la derecha (respectivamente). También sé que hay algunos valores atípicos en términos de altura (por lo que matplotlib me da espacio adicional a la derecha de la distribución). Finalmente, me gustaría ver si puedo encontrar algún patrón visual entre mis predictores y la variable de resultado. Yo uso un diagrama de dispersión para esto:

  plt.figure (figsize = (15,5))
 subtrama plt (1, 2, 1)
 plt.plot (datos ['diámetro'], datos ['todo_peso'], 'o')
 plt.title ("Diámetro vs. Peso total")
 plt.ylabel ("Peso total")
 plt.xlabel ("Diámetro")
 subtrama plt (1, 2, 2)
 plt.plot (datos ['altura'], datos ['todo_peso'], 'o')
 plt.title ("Altura vs. peso total")
 plt.ylabel ("Peso total")
 plt.xlabel ("Altura")
 plt.show ()

Aquí, veo que hay una relación no lineal entre el diámetro y el peso total y voy a tener que lidiar con mis valores atípicos de altura. ¡Ahora estoy listo para hacer un análisis!

¡El crédito va para el usuario Ben!

Este es mi enfoque, que puede usar no solo en Excel, sino también SQL, CSV y otros formatos:

1 – Tablas – Primero, miro todas las tablas / pestañas que están disponibles y descubro cuál es la más importante. ¿Tiene sentido mirarlos todos al principio o estás de acuerdo con la primera tabla solamente?

2 – Columnas: compruebo los nombres de las columnas y descubro cuáles son las más importantes.

3 – Calidad de los datos: compruebo la calidad de los datos en estas columnas: ¿faltan valores? ¿Debo volver a formatear los datos para que sean más viables, en este caso crear una copia de seguridad de la tabla original? Una buena idea es hacer tantos datos como sea posible numéricos.

4 – Selección de datos – Ahora echaría un primer vistazo a los datos en estas columnas. ¿Qué datos son interesantes, útiles o sorprendentes?

5 – Análisis de columnas: como señaló Fawn, ahora es un buen punto para analizar estos datos.

Para datos numéricos, puede hacer todo tipo de análisis básico. Los ejemplos son promedio, mediana, hacer un gráfico de la distribución o encontrar los valores más altos / más bajos.

Para los datos de idioma, puede analizar la cantidad de cada palabra en un gráfico.

6 – Análisis de tabla: para tener más sentido de las relaciones entre los datos de diferentes columnas, puede calcular las correlaciones entre columnas. Cuando tenga muchos datos numéricos, es posible que desee resumir las columnas que tienen una alta correlación. Para eso, puede usar un análisis de componentes principales. Puede hacer esto usando el software estadístico R.

Autentique la fuente de todas las variables presentes en el conjunto de datos. Si los datos no provienen de una fuente confiable, no tiene sentido seguir adelante con un análisis más detallado. Si está seguro de esto, haga lo siguiente

  • Cree un diccionario de datos para estar seguro del hecho de que comprende las variables lo suficientemente bien y de que todas las partes interesadas se retiren (asegúrese de que todas estén de acuerdo con las definiciones)
  • Hacer comprobaciones de calidad de datos –
  • comprobaciones de valor perdido,
  • controles de rango
  • verificaciones de integridad
  • controles de precisión
  • Calcular estadísticas de resumen : calcule la media, la mediana, la desviación estándar, min, max, cuartiles, etc.
  • Visualice : cree gráficos de barras, gráficos de líneas, gráficos de dispersión, ajuste de líneas de tendencia
  • Problemas con el marco : piense qué problemas puede resolver con el patrón inicial que puede ver en los gráficos
  • Crear modelos : puede crear modelos de regresión, clasificación, agrupación en clúster y pronóstico utilizando los datos según el problema que esté tratando de resolver
  • No haga nada si no está seguro de si la fuente de los datos es confiable y la calidad no es lo suficientemente buena

    Lo primero que hago cuando miro un conjunto de datos es mirar la cantidad de información que se me presenta. Como trabajo con una aplicación de recopilación de datos, Conseris, mi forma de acercarme a los datos es siempre con mi trabajo en mente. Por lo general, encuentro un conjunto de datos públicos, algunos de los mejores están en Your Home for Data Science, e interpreto qué es lo que los hace únicos.

    Analizo la cantidad de columnas, si el orden de los datos es lógico e intuitivo, si tiene suficiente información para que yo, como intérprete, pueda obtener algún tipo de información, etc.

    Una vez que he encontrado un conjunto de datos que coincide con todas las calificaciones que busco, quiero saber en qué formato está. A Conseris le gustan los archivos .csv mejor, así que intento descargarlo como tal.

    A partir de entonces, subo el archivo .csv a Conseris y, increíblemente, Conseris es capaz de detectar todos los patrones, tendencias y otras características identificables. De manera más impresionante, puede convertir todo en imágenes nítidas.

    Sin embargo, estoy seguro de que todos tienen una experiencia diferente.

    Si desea ver un ejemplo de hoja de datos diferente, haga clic en un enlace: imran_design: haré una entrada de datos grandes por $ 5 en http://www.fiverr.com

    1 – Tablas – Primero, miro todas las tablas / pestañas que están disponibles y descubro cuál es la más importante. ¿Tiene sentido mirarlos todos al principio o estás de acuerdo con la primera tabla solamente?

    2 – Columnas: compruebo los nombres de las columnas y descubro cuáles son las más importantes.

    3 – Calidad de los datos: compruebo la calidad de los datos en estas columnas: ¿faltan valores? ¿Debo volver a formatear los datos para que sean más viables, en este caso crear una copia de seguridad de la tabla original? Una buena idea es hacer tantos datos como sea posible numéricos.

    4 – Selección de datos – Ahora echaría un primer vistazo a los datos en estas columnas. ¿Qué datos son interesantes, útiles o sorprendentes?

    5 – Análisis de columnas: como señaló Fawn, ahora es un buen punto para analizar estos datos.

    Para datos numéricos, puede hacer todo tipo de análisis básico. Los ejemplos son promedio, mediana, hacer un gráfico de la distribución o encontrar los valores más altos / más bajos.

    Para los datos de idioma, puede analizar la cantidad de cada palabra en un gráfico.

    6 – Análisis de tabla: para tener más sentido de las relaciones entre los datos de diferentes columnas, puede calcular las correlaciones entre columnas. Cuando tenga muchos datos numéricos, es posible que desee resumir las columnas que tienen una alta correlación. Para eso, puede usar un análisis de componentes principales. Puede hacer esto usando el software estadístico R.

    7- Fórmula – Total = Suma (Celda1 + ceel2) Luego Entrada. Función media,

    Normalmente uso R para visualizar el conjunto de datos al principio y preprocesarlo. Tomo varios pasos típicos:

    • Busque valores perdidos usando: function (x) sum (is.na (x))
    • Número de características y muestras: se puede hacer manualmente o usando el resumen () en todo el conjunto de datos
    • Busque unidades de las características para normalizar las necesarias.
    • Columna sabia comprobando diferentes parámetros (media, mediana, cuartiles, max, min) usando la función summary ()
    • Si se trata de datos etiquetados, verifique las salidas / clases etiquetadas y el tipo de datos

    Todo esto lleva 2/3 minutos todos juntos y holísticamente mi primer paso con cualquier conjunto de datos nuevo.

    Depende del formato y tamaño. Si proviene de una base de datos, analizaré el DDL, sentiré la legibilidad humana de los nombres de campo. Veré las llaves y comprobaré la cardinalidad. Podría extraer unos cientos de filas y descargarlo en Excel.

    Como un aspecto más avanzado, tomaré un recuento de histograma de los campos clave y tendré una idea de cuán completo es el conjunto. Mire las marcas de tiempo de actualización para tener una idea de con qué frecuencia se actualiza, haga un recuento de registros por día, mes, año.

    Si tengo una PYME, pediría búsquedas en todos los códigos, sentiría los promedios de todos los hechos y ese tipo de cosas. Eso es realmente todo lo que me importa. Cualquier otra cosa debe estar en una especificación formal. Realmente se trata de lo que la gente necesita hacer con los datos. Con lo anterior puedo tener una buena idea de lo fácil o difícil que será discutir.

    Si no proviene de una base de datos, me imagino lo que se necesita para ponerlo en uno, suponiendo que quien me lo haya dado sepa lo que es.

    Al principio, siempre subo mi conjunto de datos en AnswerMiner o conecto la fuente a él.

    Lo que hago después:

    • Vea mi hoja de cálculo en la Vista de datos inteligentes, donde veo pequeños cuadros o histogramas en la parte superior de mis columnas. Si subo un archivo SPSS, la aplicación importará automáticamente los campos Etiqueta y Valor y los agregará a las descripciones de las columnas. También puedo fijar las columnas más importantes y compararlas fácilmente.

    • Haciendo gráficos en un segundo. Siempre verifico el aumento o disminución, veo la correlación entre los diversos datos.

    • Siempre trato de hacer una “predicción” basada en los datos anteriores.

    Por supuesto, depende del tipo de datos que tenga, pero para mí siempre es importante encontrar una correlación entre los factores. No tengo mucho tiempo para eso, por lo tanto, uso AnswerMiner. Funciona rápido, crea gráficos y árbol de decisiones automáticamente. Muy buen producto si desea explorar sus datos de forma rápida y sencilla.

    El registro gratuito está aquí.

    (Las imágenes son muestras de conjuntos de datos gratuitos)

    Lo primero que hago al mirar un conjunto de datos es actualizar mi comprensión del problema comercial que estoy tratando de resolver. Esa es mi guía sobre qué hacer (y qué no hacer) a continuación.

    More Interesting

    ¿Qué es mejor: una maestría en ciencia de datos en la UCL (Univ. College London) o una maestría en estadística en la Universidad de Boston?

    Acabo de obtener un trabajo de desarrollador QlikView, ¿puedo considerar que estoy en una carrera de ciencia de datos?

    Con experiencia en informática, ¿vale la pena aprender R y ciencia de datos?

    ¿Cuál puede ser un buen comienzo para una persona que no es de TI como yo en el campo de los datos?

    ¿Cómo se puede utilizar la realidad virtual para enseñar ciencia de datos de manera más eficiente?

    ¿Qué habilidades y conocimientos debo tener para poder responder a estas?

    ¿Cuál es el ciclo de vida de un proyecto de ciencia de datos o aprendizaje automático?

    Soy muy bueno en probabilidad, estadística y matemática aplicada, ¿cómo obtengo un trabajo de ciencia de datos de nivel de entrada?

    Cómo escanear un diccionario antiguo de manera que pueda indexar el contenido

    Ya no estoy dispuesto a ir a los Estados Unidos para obtener una maestría. ¿Dónde debería estudiar ciencia de datos y aprendizaje automático?

    ¿Cuál es la mejor manera de ingresar al campo de la carrera de ciencias de datos / análisis?

    ¿Debería haber siempre más datos de entrenamiento que datos de prueba? ¿Por qué?

    ¿Qué consejo le darías a un aspirante a científico de datos que haga en estas vacaciones?

    ¿Cuál es el mejor instituto de capacitación en Pune para ciencia de datos y cursos de big data?

    ¿Cuál es el mejor esquema de partición de disco para un Hadoop DataNode? ¿Es una pequeña partición RAID5 una mejor opción, o tal vez el sistema operativo debería coexistir en la primera partición DataNode, para evitar problemas de espacio en disco?