¿Cuál es la mejor manera de manejar los valores atípicos en Machine Learning?

Depende de los casos.

Simplemente puede eliminar valores atípicos y aplicar algoritmos de aprendizaje automático.

Pero a veces los valores atípicos hablan más. Pueden ser anomalías en el sistema.

  1. Puede descartar valores atípicos solo si es el resultado de la entrada de basura.
    Ejemplo. Altura del adulto = 50 pies. Esto no puede ser cierto. El valor verdadero puede ser de 5 pies. En tal caso, se pueden eliminar los valores atípicos.
  2. Si los valores atípicos no cambian el resultado pero cambian la suposición, se pueden descartar. Ejemplo: una línea de regresión en la que todos los resultados se agrupan entre 0 y 5 en ambos ejes pero hay un valor cerca (50, 50). Dichos valores se pueden eliminar ya que no afectan el resultado.
    Pero antes de dejar caer, debe verificar si crea algún impacto. Intente en ambos sentidos, con y sin valores atípicos y estudie el resultado.
  3. A veces, los valores atípicos crean asociaciones. Son la única razón para la asociación entre dos variables. En tal caso, es bueno descartar los valores atípicos.

Si no puede eliminar los valores atípicos, puede intentar lo siguiente:

  1. Prueba un modelo diferente. Los datos detectados como valores atípicos por modelo lineal pueden ajustarse por modelo no lineal. Así que asegúrese de elegir el modelo correcto.
  2. Intenta normalizar los datos. De esta manera, los datos más grandes se llevan a algún rango.
  3. O puede elegir los datos con 3 desviaciones estándar de la media e ignorar todos los datos fuera de la curva.
  4. Puede usar algoritmos que se vean menos afectados por los valores atípicos. P.ej. Bosque al azar.

Editar: corrígeme si estoy equivocado. Hay muchas formas de manejar los valores atípicos. El método que funciona para uno podría no funcionar para otro. Por lo tanto, no puedo estar tan seguro de todos los métodos mencionados en las respuestas. ¡No me he enfrentado a todo tipo de valores atípicos! Pero estas son las ideas generales.

A continuación se presentan algunas técnicas:

  • Utilizar técnicas de estandarización
  • Si está utilizando datos para la clasificación, use árboles de decisión (CART, Random Forest, XgBoost … etc.). Como los árboles de decisión se dividen por pureza para que no se vean afectados por valores atípicos como la mediana.
  • Eliminar los valores atípicos y aplicar el aprendizaje automático

Depende del problema, cuántos hay y cómo se ven. Normalmente los configuro en NA si el valor no tiene sentido (alturas negativas). De lo contrario, repito el análisis con ellos incluidos y excluidos para comparar resultados.

Puede utilizar técnicas descriptivas basadas en análisis para comenzar con

Para la visualización del diagrama de caja es un buen punto de partida para identificar valores atípicos

para problemas más complejos, el uso de métodos basados ​​en la densidad y la distancia ayuda a identificar valores atípicos: la idea básica es que los valores atípicos están más lejos que sus vecinos que otros puntos normales. basado en el mismo principio, puede utilizar técnicas de aprendizaje automático basadas en el vecino más cercano o también técnicas de agrupamiento.