¿Qué es lo primero que haces al mirar un nuevo conjunto de datos?

Esto es lo que haría:

Pico en las primeras filas
Visualice la distribución de las características que me interesan (histogramas)
Visualice la relación entre pares de características (diagramas de dispersión)

Descargué el conjunto de datos de abulón del repositorio de UCI Machine Learning aquí. Digamos que me importa cómo se puede usar la altura y el diámetro para predecir el peso total. Para completar, he incluido el paso de leer los datos del archivo.

  importar pandas como pd
 importar matplotlib.pyplot como plt
 importar seaborn como sns

 data = pd.read_csv ("abalone.data", header = False)
 data.columns = ["sexo", "longitud", "diámetro", "altura", 
                 "Whole_weight", "shucked_weight",
                 "viscera_weight", "shell_weight", "rings"]

Ahora podemos tomar un pico en las primeras filas:

  data.head ()

Ahora, sé que las variables que me interesan son valores de coma flotante y pueden tratarse como continuas. Quiero echar un vistazo para ver cómo se distribuyen estas tres variables:

 fig = plt.figure (figsize = (20,5)) plt.subplot (1, 3, 1) plt.hist (datos ['diámetro'], normalizado = True) plt.title ("Diámetro") plt.subplot (1, 3, 2) plt.hist (data ['height'], normed = True) plt.title ("Height") plt.subplot (1, 3, 3) plt.hist (data ['whole_weight'] , normalizado = True) plt.title ("Peso total") plt.show ()

¡Excelente! Ahora, sé que el diámetro y el peso total están sesgados hacia la izquierda y hacia la derecha (respectivamente). También sé que hay algunos valores atípicos en términos de altura (por lo que matplotlib me da espacio adicional a la derecha de la distribución). Finalmente, me gustaría ver si puedo encontrar algún patrón visual entre mis predictores y la variable de resultado. Yo uso un diagrama de dispersión para esto:

  plt.figure (figsize = (15,5))
 subtrama plt (1, 2, 1)
 plt.plot (datos ['diámetro'], datos ['todo_peso'], 'o')
 plt.title ("Diámetro vs. Peso total")
 plt.ylabel ("Peso total")
 plt.xlabel ("Diámetro")
 subtrama plt (1, 2, 2)
 plt.plot (datos ['altura'], datos ['todo_peso'], 'o')
 plt.title ("Altura vs. peso total")
 plt.ylabel ("Peso total")
 plt.xlabel ("Altura")
 plt.show ()

Aquí, veo que hay una relación no lineal entre el diámetro y el peso total y voy a tener que lidiar con mis valores atípicos de altura. ¡Ahora estoy listo para hacer un análisis!

¡El crédito va para el usuario Ben!

Análisis deCiencia de datosConjuntos de datosdatos