Depende de los casos.
Simplemente puede eliminar valores atípicos y aplicar algoritmos de aprendizaje automático.
Pero a veces los valores atípicos hablan más. Pueden ser anomalías en el sistema.
- ¿Existen garantías teóricas o justificaciones para los métodos de ensacado en el aprendizaje automático?
- ¿El rendimiento de la regresión logística se ve afectado negativamente por características altamente correlacionadas?
- ¿Un descenso de gradiente funciona en Big Data?
- ¿Por qué querríamos intentar aprender una base demasiado completa en codificación dispersa?
- ¿Cómo 'Diagonal BiLSTM' calcula los estados diagonales a la vez y qué es diagonal?
- Puede descartar valores atípicos solo si es el resultado de la entrada de basura.
Ejemplo. Altura del adulto = 50 pies. Esto no puede ser cierto. El valor verdadero puede ser de 5 pies. En tal caso, se pueden eliminar los valores atípicos. - Si los valores atípicos no cambian el resultado pero cambian la suposición, se pueden descartar. Ejemplo: una línea de regresión en la que todos los resultados se agrupan entre 0 y 5 en ambos ejes pero hay un valor cerca (50, 50). Dichos valores se pueden eliminar ya que no afectan el resultado.
Pero antes de dejar caer, debe verificar si crea algún impacto. Intente en ambos sentidos, con y sin valores atípicos y estudie el resultado. - A veces, los valores atípicos crean asociaciones. Son la única razón para la asociación entre dos variables. En tal caso, es bueno descartar los valores atípicos.
Si no puede eliminar los valores atípicos, puede intentar lo siguiente:
- Prueba un modelo diferente. Los datos detectados como valores atípicos por modelo lineal pueden ajustarse por modelo no lineal. Así que asegúrese de elegir el modelo correcto.
- Intenta normalizar los datos. De esta manera, los datos más grandes se llevan a algún rango.
- O puede elegir los datos con 3 desviaciones estándar de la media e ignorar todos los datos fuera de la curva.
- Puede usar algoritmos que se vean menos afectados por los valores atípicos. P.ej. Bosque al azar.
Editar: corrígeme si estoy equivocado. Hay muchas formas de manejar los valores atípicos. El método que funciona para uno podría no funcionar para otro. Por lo tanto, no puedo estar tan seguro de todos los métodos mencionados en las respuestas. ¡No me he enfrentado a todo tipo de valores atípicos! Pero estas son las ideas generales.