Yo haría lo siguiente en su caso:
- dividir los datos según el tipo de tarjeta y luego:
- busque valores atípicos univariados o multivariados en los Momentos Hu dentro de cada grupo.
Vi que los Momentos Hu en sus datos están fuertemente interrelacionados (al menos en sus datos de entrenamiento). Las correlaciones son de tal magnitud ( es decir, cerca de 1) que no se necesitan técnicas de detección de valores atípicos multivariantes; simplemente podemos ver los valores atípicos en uno de estos momentos. Esto simplifica el problema considerablemente, ya que detectar valores atípicos multivariados es difícil.
Consulte el siguiente código R en sus datos:
- ¿Dónde puedo obtener un conjunto de datos de notas de suicidio para fines de aprendizaje automático?
- ¿Existe alguna técnica de aprendizaje automático que pueda transferir automáticamente una historia escrita en texto a un libro de dibujos animados?
- ¿Se puede usar una máquina de Boltzmann profunda para la clasificación de imágenes en una base de datos que tiene solo mil imágenes y tiene características de imagen de valor real como unidades de entrada (en lugar de unidades de píxeles binarios)?
- Para comenzar en los roles de la ciencia de datos, ¿los cursos de Jigsaw Academy o Coursera son lo suficientemente buenos?
- ¿Cómo se hacen análisis de datos, estadísticas y aprendizaje automático en big data?
# Borrar el entorno de trabajo R
rm (lista = ls (todo = VERDADERO))
# Ir al directorio de trabajo donde están los archivos
setwd (“../ 2016-11-01-QuoraR”)
# Cargar los datos
train <- read.csv ("train.csv", encabezado = F)
# Explore los datos; el redondeo se realiza para hacer la salida
# más fácil de leer.
redondo (cor (tren), 3)
# La salida muestra claramente fuertes correlaciones entre V2-V8:
# V1 V2 V3 V4 V5 V6 V7 V8
# V1 1.000 0.003 0.010 0.010 0.010 0.010 0.010 0.010
# V2 0.003 1.000 0.997 0.997 0.997 0.997 0.997 0.997
# V3 0.010 0.997 1.000 1.000 1.000 1.000 1.000 1.000
# V4 0.010 0.997 1.000 1.000 1.000 1.000 1.000 1.000
# V5 0.010 0.997 1.000 1.000 1.000 1.000 1.000 1.000
# V6 0.010 0.997 1.000 1.000 1.000 1.000 1.000 1.000
# V7 0.010 0.997 1.000 1.000 1.000 1.000 1.000 1.000
# V8 0.010 0.997 1.000 1.000 1.000 1.000 1.000 1.000
# Para fines prácticos, ignoro V3-V8; estas variables
# no contiene información adicional real.
# Hacer un diagrama de caja:
diagrama de caja (V2 ~ V1,
datos = tren,
nombres = c (“Clubes”, “Picas”, “Diamantes”, “Corazones”),
xlab = “Tipo”,
ylab = “Hu Momento 1”)
# Ver el resultado a continuación:
# El diagrama de caja mencionado anteriormente no contiene etiquetas.
# Podemos usar la función “Boxplot” para etiquetar valores atípicos.
# Esta función proviene de la biblioteca “car”.
biblioteca (“auto”)
# Use la función Boxplot para etiquetar valores atípicos.
Diagrama de caja (train $ V2 ~ train $ V1, id.method = “y”,
nombres = c (“Clubes”, “Picas”, “Diamantes”, “Corazones”),
xlab = “Type”, ylab = “Hu Moment 1”)
Convenientemente, la función Boxplot también imprime las ID de los valores atípicos:
# [1] “642” “1406” “558” “935” “938” “943” “946” “947”
# “1389” “1395” “186” “108” “99” “477” “21” “96”
# “98” “103” “105” “109”