¿Cómo manejaría e investigaría típicamente los valores atípicos en un conjunto de datos?

Como ha realizado proyectos académicos, asumiré que está familiarizado con las técnicas básicas para localizar valores atípicos y / o transformar el conjunto de datos, y simplemente le daré una lista de las preocupaciones que uso para decidir cómo manejarlas.

Influencia. Dependiendo de la ubicación de un valor atípico, su influencia puede variar desde no muy influyente (en cuyo caso, es seguro excluirlo dado que tampoco es importante para el resto de las preocupaciones que voy a enumerar) hasta muy influyente (en cuyo caso, debe analizar el resto de las inquietudes con mucho cuidado y conservar sin razones suficientes para no hacerlo).

NOTA: Las siguientes son reglas generales muy generales. Se aplican excepciones y se supone que usted ha investigado la influencia y tiene motivos para considerar retener el valor atípico.

OTRA NOTA: Mi proceso, según me han dicho, es un poco extraño. Mis métodos profesionales siempre tuvieron reacciones extrañas al leer mis análisis. Recibí buenas calificaciones, pero siempre obtuve miradas extrañas después de la primera tarea. Siéntase libre de tomar esto con un salero entero.

1. Tamaño de la muestra / población. Como estoy seguro de que sabe, no siempre obtiene la cantidad de datos que desea. Si estoy tratando de decidir qué hacer o cómo interpretar el hecho de que tengo valores atípicos, miro el tamaño de la muestra para determinar qué tan ‘en serio’ tomar los valores atípicos.

No ignore los valores atípicos en muestras pequeñas. Pueden o no ser el resultado del tamaño de la muestra, pero la escasez de información que tiene debe hacer que conserve la mayor cantidad posible.

Si la población en la que ha extraído la muestra es pequeña, ese valor atípico es importante para la interpretación de los resultados porque es menos probable que la población se distribuya normalmente. Si cree / sabe que la población no está distribuida normalmente, la desviación en la muestra es muy importante para la extrapolación y también lo es el valor atípico. Algunos métodos para encontrar ese valor atípico dependen de la normalidad, por lo que también querrá verificar para asegurarse de que está utilizando un método apropiado.

Ejemplo: si estuviera encuestando a las empresas sobre su crecimiento durante el último año, pero solo obtuvo una tasa de respuesta del 5% para un total de 100 casos, mantendría los valores atípicos. La muestra es lo suficientemente pequeña como para requerir precaución en la interpretación, y es poco probable que sea representativa. No trataría los resultados o valores atípicos como representativos en mi interpretación. Sin embargo, buscaría similitudes en las subpoblaciones de las que obtuve información para ver si podía ‘reducir’ el alcance de la interpretación para que coincida con los datos que tenía. También buscaría datos adicionales para ayudar a especificar la información que falta. (Por ejemplo, podría contrastar las estadísticas oficiales del gobierno con la muestra que reuní para compensar el pequeño tamaño de la muestra).

2. Investigar la metodología. Si puede hacerlo fácilmente, desea descartar violaciones flagrantes de los métodos que causaron problemas en la recopilación de datos y potencialmente causaron los valores atípicos. Si sabe, por ejemplo, que los datos provienen de métodos deficientes y que el valor atípico es probable que sea el resultado de cómo se recopilaron los datos, es menos probable que conserve el valor atípico. En ese caso, por supuesto, usted sabe que los resultados no son terriblemente confiables en general, pero dependiendo de los datos, puede retener y complementar sus datos.

Ejemplo: los datos provienen de la codificación de conversaciones en un sitio web sobre algún producto. Técnicamente, este es un muestreo de conveniencia y los resultados no son terriblemente representativos del público en general (o incluso de los consumidores de ese producto). Sin embargo, felizmente ignoraría la respuesta sobre las mascotas de alguien, ya que no tiene nada que ver con el producto en cuestión. La respuesta sobre las mascotas es atípica (e inútil para el proyecto).

3. Mira el carácter de los datos. ¿Qué tipo de datos son? No es solo el tamaño de la muestra lo que depende en gran medida de cómo lidiar con los valores atípicos, es el tipo de datos que está viendo. Dependiendo de la … criticidad … de los datos, los valores atípicos son más o menos importantes. Los datos sobre temas no críticos, aunque interesantes, pueden manipularse más que los datos sobre temas no críticos; si los datos se refieren a fenómenos del mundo real que implican un riesgo para la vida, extremidades o toneladas de dinero, no descarte ni ignore los valores atípicos.

Otra regla general al observar el carácter de los datos es ver qué sentido tiene el valor atípico en el conjunto de datos. Flom menciona al hombre de 12 pies de estatura: si el valor atípico está tan lejos de lo normal para el conjunto de datos que es muy poco probable que vuelva a ocurrir, es probable que sea seguro descartarlo o ignorarlo.

Ejemplo: si, por ejemplo, los datos son respuestas de encuestas sobre el color favorito, los valores atípicos generalmente no son importantes para descubrir tendencias generales. Si los datos son las temperaturas a las que fallan los sellos del motor, mantenga los valores atípicos.

4. Observe el manejo previo de esos datos en ese contexto. Hay varias razones realmente buenas para prestar atención a las interpretaciones anteriores, pero la que estoy pensando aquí es que a veces es más fácil ver los problemas que surgen al manejar los datos si observa cómo alguien más los ha manejado y aprende de sus errores / errores / omisiones. Han construido algo, puedes aprender de ello.

Ejemplo: si, por ejemplo, está tratando con datos sobre el tiempo de falla para teléfonos celulares (probablemente para examinar las pólizas de seguro y el riesgo), puede encontrar fácilmente los análisis de otras personas sobre ese tiempo de falla. Al leerlos, puede ser que pueda localizar una fuente de riesgo que previamente se omitió de los análisis, lo que podría ayudar a que su análisis sea más preciso o esté completamente especificado.

Esas son mis reglas generales para mirar los valores atípicos. Si pienso en más, editaré para agregarlos. Espero que esto sea útil.

El primer paso es encontrarlos . En un sentido univariante, esto ya es un poco complicado, ya que puede haber problemas de enmascaramiento, donde la presencia de un extremo atípico enmascara a otros. También existe el problema de cuál es la distribución subyacente de la variable: por ejemplo, el ingreso es (en casi todos los países) muy sesgado; la altura está muy cerca de lo normal; un valor atípico en altura no es un valor atípico en ingresos en términos de desviaciones estándar.

Cuando comienzas a mirar bivariadamente, las posibilidades crecen, exponencialmente. Sin embargo, aún podría ser necesario mirar. En un censo de población, un niño de 12 años no es un caso atípico y una viuda no es un caso atípico, pero una viuda de 12 años sí lo es.

Con datos multivariados, las cosas son realmente difíciles: en cierto sentido, cada punto de datos en un espacio con muchas dimensiones es un valor atípico.

Entonces tienes que decidir qué hacer. No especifica qué métodos está utilizando (¿regresión? ¿Análisis factorial? Etc.), pero en general hay varias opciones:

1) Elimine el valor atípico del conjunto de datos: lo recomendaría solo cuando el punto de datos sea imposible y no pueda corregirse, por ejemplo, un hombre de 12 pies de altura. Sin embargo, esta puede ser una opción razonable en otros casos si desea mantener las estadísticas simples. Tenga en cuenta que dejar caer un valor atípico cuando es un punto posible (un hombre que mide 7 pies de estatura, una persona con un ingreso de $ 10,000,000) puede limitar la generalización.

2) Transformar los datos. Esto también puede servir para otros fines. Probablemente no debería usarse solo porque hay un valor atípico, pero puede ayudar a lidiar con los valores atípicos.

3) Use un método robusto. Por ejemplo, la regresión cuantil en lugar de la regresión “regular”.

Si bien estoy completamente de acuerdo con las excelentes respuestas anteriores, sugeriría un método más, que es la distancia de Mahanoblis.

Esta es una forma automatizada de detección de valores atípicos. Le sugiero que use esto, si tiene una información muy clara y completa sobre los datos que está manejando.

Entonces, ¿qué es esta distancia métrica y cómo se calcula? Escuchémoslo en Wikipedia:

La distancia de Mahalanobis es una estadística descriptiva que proporciona una medida relativa de la distancia (residual) de un punto de datos desde un punto común. Es una medida sin unidades introducida por PC Mahalanobis en 1936. [1] La distancia de Mahalanobis se utiliza para identificar y medir la similitud de un conjunto de muestras desconocido con uno conocido. Se diferencia de la distancia euclidiana en que tiene en cuenta las correlaciones del conjunto de datos y es invariante de escala.

Entonces, aquí hay un fragmento de código simple que da una mejor idea en la implementación de la métrica:

https://github.com/Dawny33/Data-…

Para encontrarlos, normalmente utilizo una combinación de pruebas / gráficos univariados (los gráficos de bigotes son buenos) y métodos capaces de encontrar valores atípicos multivariados (como métodos TDA, agrupación jerárquica y múltiples gráficos de reducción de dimensionalidad de aprendizaje). Estos me ayudan a identificarlos para poder explorar más a fondo. Si se trata de un error de entrada (personas con pesos negativos, por ejemplo), generalmente ignoro la observación, ya que se trata de datos corruptos. Si no es descaradamente incorrecto, supongo que es un valor verdadero y procedo con el análisis, observando la extraña medición en la redacción final y volviendo a ejecutar sin los valores atípicos si la situación lo amerita.

Comience simple. Ejecute un diagrama de dispersión en los datos e inspeccione visualmente.

Con modelos más complejos, como la regresión múltiple, puede establecer los niveles de confianza y el software (por ejemplo, SPSS) volverá a probar sus resultados e identificará conjuntos de datos que contienen violaciones (valores atípicos) de los parámetros.

El manejo de valores atípicos en una base de datos no es un problema difícil: si son el resultado de un error o una medición falsa, generalmente solo los elimina.

El problema es encontrarlos. El primer paso para encontrarlos es determinar qué distribución tiene su conjunto de datos. Luego verifica si los datos coinciden con la distribución mucho mejor si descuida el valor atípico. Si es así, de hecho es un caso atípico. Sin embargo, este es un método subjetivo y, por lo tanto, no realmente estricto.

Una mejor manera sería dibujar un diagrama de caja.