Durante el análisis de datos con R, ¿qué debería importarnos primero: los valores atípicos o los valores faltantes?

Los valores atípicos primero. Seguro.

Tratar con valores atípicos no solo significa “eliminarlos” .

En absoluto, de ninguna manera.

Tratar con valores atípicos significa:

  1. para entender su origen y el mensaje que transmiten primero. En el diagnóstico clínico de laboratorio, por ejemplo, los valores que se encuentran completamente dentro de un “rango de referencia” (y se ven completamente bien) pueden ser atípicos desde el punto de vista clínico. Y los puntos que se encuentran en un rango de referencia (y se ven realmente mal) pueden no ser atípicos en este contexto. Los algoritmos que los detectan son ciegos . Tú decides, no ellos.
    1. ¿son causados ​​por un error?
    2. ¿Son causados ​​por una violación de un procedimiento?
    3. son causados ​​por un cambio en un procedimiento (como un cambio de equipo de diagnóstico durante el experimento)
    4. ¿Se deben a que las instrucciones no fueron claras?
    5. ¿son causados ​​por un factor desconocido que, si se toma en consideración, formaría un grupo separado, en el que se ubican estos valores atípicos?
    6. ¿Son causados ​​por un nuevo fenómeno que debe investigar por separado? Esto es similar al punto e): el fenómeno se describe mediante una (s) variable (s) latente (s) que no utilizó en el análisis
    7. ¿Son causados ​​por un “factor del organismo humano”? ¡La reacción a una droga puede ser impredecible y realmente extraña!
    8. o tal vez están bien desde una perspectiva de conocimiento de dominio? (donde el gran valor de un parámetro clínico es el resultado de una enfermedad específica. Esto a menudo se vincula con el punto e) yf)
  2. luego, para decidir qué hacer a continuación. Debe eliminar solo aquellos valores atípicos, que son causados ​​por errores obvios. ¡Esto transmite un mensaje muy importante! Se produjeron problemas de procedimiento. ¿Cómo puede estar seguro de que los datos restantes no se han visto afectados por ese problema, solo en menor medida?

    Y nunca debes hacer esa eliminación automáticamente . Todas las demás observaciones sospechosas deben investigarse cuidadosamente. ¿Quizás hay otro factor que podría usar para separar un nuevo grupo al que pertenecen? ¿Quizás descubriste algo nuevo? ¿O tal vez su experimento fue mal diseñado ya que no lo previó?

    1. recuerde: cada vez que elimina un valor atípico, modifica la distribución (histograma) de los datos restantes. Otros puntos de datos pueden convertirse en valores atípicos después de la eliminación. ¿Qué vas a hacer si eso sucede?

Después de todo, comprenderá sus “valores atípicos”. Entonces puede usar conscientemente este conjunto de datos para tratar los valores faltantes.

De lo contrario, si comienza con valores perdidos primero, lo hará a ciegas . Utilizará observaciones que pueden contener tanto fallas como fenómenos completamente nuevos para predecir la observación faltante, sin siquiera saber lo que está sucediendo. Esto está mal desde el principio.

Para utilizar sus datos existentes para “adivinar” los que faltan (crea datos artificiales, incluso si es probable) debe conocer los datos existentes lo mejor posible.

Pregunta interesante … ordenar las operaciones de limpieza de datos no es algo en lo que haya pensado mucho. En aras de la simplicidad, supongamos que los valores faltantes se imputan y los valores atípicos se reemplazan con media + 3sd. Tienes tres opciones:

  1. Resuelva los valores atípicos a pesar de tener un montón de valores perdidos, luego resuelva los valores perdidos sabiendo que los valores atípicos se resuelven.
  2. Resuelva los valores perdidos a pesar de tener valores atípicos, luego resuelva los valores atípicos sabiendo que se resuelven todos los valores faltantes.
  3. Algún tipo de algoritmo iterativo que selecciona los valores más fáciles de cada ciclo

Entonces … ¿los valores faltantes son importantes para el manejo atípico? ¿Importan los valores atípicos para el manejo del valor perdido? Si la respuesta a ambas es sí, entonces el algoritmo iterativo es el mejor. Si el valor faltante es un valor atípico, preferiríamos reemplazarlo con media + 3sd en lugar de su predicción. Ese es un punto claro a favor de hacer valores atípicos al final. Mi algoritmo favorito de valores perdidos consiste en construir iterativamente modelos de regresión simples, un enfoque que se ve ligeramente afectado por los valores atípicos.

Así que creo que el mejor enfoque son tres pasos:

  1. Haga una copia del conjunto de datos sin las filas atípicas, o con ellas de manera trivial para decir media + 3sd.
  2. Imputar todos los valores faltantes en este conjunto de datos, luego devolver los valores atípicos que sobrescribimos
  3. Realice la eliminación ‘real’ de valores atípicos.

Eso hace que la respuesta a tu pregunta sea un poco complicada. Terminé con ‘valores atípicos rápidamente, luego valores perdidos, luego valores atípicos correctamente’.

Valores atípicos, en general.

Los valores perdidos se manejan a través de la imputación, que depende de los datos existentes. Los valores atípicos influyen en los datos existentes y, por lo tanto, deben manejarse antes de imponer valores perdidos.

Manejar los valores atípicos es una cuestión de investigarlos y comprenderlos, hacer su mejor determinación de lo que los causó y lo que significan, y luego manejarlos adecuadamente. Algunos valores atípicos pueden ser válidos, otros deben eliminarse como resultado de un error, pero este debe ser un proceso cuidadoso y conservador porque la eliminación de los valores atípicos cambia la distribución de los datos.

Los valores atípicos es algo que comprenderá cuando trace el gráfico de los datos, que solo puede hacer si comprende sus datos. Para comprender sus datos, debe saber cómo los valores faltantes afectarán sus datos y su significado cuando los traza. Por lo tanto, primero debe aprender sobre los valores faltantes y cómo manejarlos.

Si va a imputar los valores faltantes, primero deberá tratar con los valores atípicos.