Esto es lo que haría:
- Pico en las primeras filas
- Visualice la distribución de las características que me interesan (histogramas)
- Visualice la relación entre pares de características (diagramas de dispersión)
Descargué el conjunto de datos de abulón del repositorio de UCI Machine Learning aquí. Digamos que me importa cómo se puede usar la altura y el diámetro para predecir el peso total. Para completar, he incluido el paso de leer los datos del archivo.
importar pandas como pd importar matplotlib.pyplot como plt importar seaborn como sns data = pd.read_csv ("abalone.data", header = False) data.columns = ["sexo", "longitud", "diámetro", "altura", "Whole_weight", "shucked_weight", "viscera_weight", "shell_weight", "rings"]
Ahora podemos tomar un pico en las primeras filas:
- ¿Cómo puedo convertirme en ingeniero de big data en Google?
- Cómo obtener una lista de todos los bootcamps de ciencia de datos que se ejecutan en los EE. UU.
- ¿Por qué MSFT necesita un jefe de ciencia de datos cuando tiene todos los investigadores de aprendizaje automático en el mundo?
- ¿Cómo es una maestría en análisis de negocios y big data en IE School of Social and Behavioral Sciences?
- ¿Qué es la 'máquina virtual de ciencia de datos' de Microsoft? ¿Alguien puede explicar el precio de una manera intuitiva?
data.head ()
Ahora, sé que las variables que me interesan son valores de coma flotante y pueden tratarse como continuas. Quiero echar un vistazo para ver cómo se distribuyen estas tres variables:
fig = plt.figure (figsize = (20,5)) plt.subplot (1, 3, 1) plt.hist (datos ['diámetro'], normalizado = True) plt.title ("Diámetro") plt.subplot (1, 3, 2) plt.hist (data ['height'], normed = True) plt.title ("Height") plt.subplot (1, 3, 3) plt.hist (data ['whole_weight'] , normalizado = True) plt.title ("Peso total") plt.show ()
¡Excelente! Ahora, sé que el diámetro y el peso total están sesgados hacia la izquierda y hacia la derecha (respectivamente). También sé que hay algunos valores atípicos en términos de altura (por lo que matplotlib me da espacio adicional a la derecha de la distribución). Finalmente, me gustaría ver si puedo encontrar algún patrón visual entre mis predictores y la variable de resultado. Yo uso un diagrama de dispersión para esto:
plt.figure (figsize = (15,5)) subtrama plt (1, 2, 1) plt.plot (datos ['diámetro'], datos ['todo_peso'], 'o') plt.title ("Diámetro vs. Peso total") plt.ylabel ("Peso total") plt.xlabel ("Diámetro") subtrama plt (1, 2, 2) plt.plot (datos ['altura'], datos ['todo_peso'], 'o') plt.title ("Altura vs. peso total") plt.ylabel ("Peso total") plt.xlabel ("Altura") plt.show ()
Aquí, veo que hay una relación no lineal entre el diámetro y el peso total y voy a tener que lidiar con mis valores atípicos de altura. ¡Ahora estoy listo para hacer un análisis!
¡El crédito va para el usuario Ben!