Los valores atípicos primero. Seguro.
Tratar con valores atípicos no solo significa “eliminarlos” .
En absoluto, de ninguna manera.
- ¿Cuáles son las perspectivas laborales para un estudiante internacional después de una maestría en ciencia de datos o análisis de datos en los Estados Unidos?
- ¿Cuáles son los pros y los contras de una carrera en finanzas cuantitativas en comparación con una carrera en ciencia de datos para personas con antecedentes en física / matemáticas?
- ¿Tenemos entrenamiento para pruebas de big data en Chennai?
- ¿Qué tecnología sería la mejor entre el desarrollo (Big Data-Hadoop / Android Application), considerando el crecimiento futuro, la estabilidad y el pago?
- ¿Qué fascina a la gente sobre la ciencia de datos?
Tratar con valores atípicos significa:
- para entender su origen y el mensaje que transmiten primero. En el diagnóstico clínico de laboratorio, por ejemplo, los valores que se encuentran completamente dentro de un “rango de referencia” (y se ven completamente bien) pueden ser atípicos desde el punto de vista clínico. Y los puntos que se encuentran en un rango de referencia (y se ven realmente mal) pueden no ser atípicos en este contexto. Los algoritmos que los detectan son ciegos . Tú decides, no ellos.
- ¿son causados por un error?
- ¿Son causados por una violación de un procedimiento?
- son causados por un cambio en un procedimiento (como un cambio de equipo de diagnóstico durante el experimento)
- ¿Se deben a que las instrucciones no fueron claras?
- ¿son causados por un factor desconocido que, si se toma en consideración, formaría un grupo separado, en el que se ubican estos valores atípicos?
- ¿Son causados por un nuevo fenómeno que debe investigar por separado? Esto es similar al punto e): el fenómeno se describe mediante una (s) variable (s) latente (s) que no utilizó en el análisis
- ¿Son causados por un “factor del organismo humano”? ¡La reacción a una droga puede ser impredecible y realmente extraña!
- o tal vez están bien desde una perspectiva de conocimiento de dominio? (donde el gran valor de un parámetro clínico es el resultado de una enfermedad específica. Esto a menudo se vincula con el punto e) yf)
- luego, para decidir qué hacer a continuación. Debe eliminar solo aquellos valores atípicos, que son causados por errores obvios. ¡Esto transmite un mensaje muy importante! Se produjeron problemas de procedimiento. ¿Cómo puede estar seguro de que los datos restantes no se han visto afectados por ese problema, solo en menor medida?
Y nunca debes hacer esa eliminación automáticamente . Todas las demás observaciones sospechosas deben investigarse cuidadosamente. ¿Quizás hay otro factor que podría usar para separar un nuevo grupo al que pertenecen? ¿Quizás descubriste algo nuevo? ¿O tal vez su experimento fue mal diseñado ya que no lo previó?
- recuerde: cada vez que elimina un valor atípico, modifica la distribución (histograma) de los datos restantes. Otros puntos de datos pueden convertirse en valores atípicos después de la eliminación. ¿Qué vas a hacer si eso sucede?
Después de todo, comprenderá sus “valores atípicos”. Entonces puede usar conscientemente este conjunto de datos para tratar los valores faltantes.
De lo contrario, si comienza con valores perdidos primero, lo hará a ciegas . Utilizará observaciones que pueden contener tanto fallas como fenómenos completamente nuevos para predecir la observación faltante, sin siquiera saber lo que está sucediendo. Esto está mal desde el principio.
Para utilizar sus datos existentes para “adivinar” los que faltan (crea datos artificiales, incluso si es probable) debe conocer los datos existentes lo mejor posible.