Cómo usar la prueba T de Student para la selección de funciones

Suponiendo que se trata de un problema de clasificación binaria, donde cada muestra se puede clasificar en clase C1 o clase C2, t-Statistics nos ayuda a evaluar si los valores de una característica particular para la clase C1 son significativamente diferentes de los valores de la misma característica para clase C2. Si esto se cumple, entonces la función puede ayudarnos a diferenciar mejor nuestros datos.

Por ejemplo, ¿el salario de una persona afecta sus posibilidades de obtener un préstamo? Aquí calcularemos la media y la varianza de las siguientes observaciones por separado:

  • Salarios de personas cuando se aprobó el préstamo
  • Salarios de personas cuando el préstamo no fue aprobado

y luego usaremos t-stats para verificar si estas dos muestras son significativamente diferentes o no.

t- Las estadísticas se calculan usando:

donde [math] u_ {ij} [/ math] denota la media de la característica i-ésima [math] X_i [/ ​​math] para la clase [math] C_j [/ math] y [math] sigma_ {ij} [/ math] denota la desviación estándar de la función i-ésima [matemática] X_i [/ ​​matemática] para la clase [matemática] C_j [/ matemática]. El índice de clase se denota por j, es decir, j = 1 o j = 2.

Después de calcular los valores de t-Statistic para cada característica, clasificamos estos valores en orden descendente para seleccionar la característica importante.

Referencia: un enfoque eficiente de selección de características estadísticas para la clasificación de datos de expresión génica

More Interesting

Ciencias de la computación: ¿Cuáles son los pros y los contras de utilizar el modelado de procesos gaussianos para la regresión?

¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

¿Podría el aprendizaje automático erradicar el cáncer?

Dada una oración, quiero encontrar la emoción de la persona que la dijo. ¿Cómo puedo hacer esto?

¿Qué tan cerca estamos del punto donde los radiólogos serán reemplazados por software de reconocimiento de imágenes / redes neuronales / IA?

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

¿Cuál es la diferencia entre la taxonomía automática y la generación de clasificación?

¿Qué debo hacer si determino que los resultados de mi conjunto de datos de entrenamiento difieren mucho de los resultados de mi conjunto de datos de prueba?

¿Qué es el aprendizaje automático basado en modelos?

¿Cuán relevantes son las redes neuronales atractoras en la investigación actual del aprendizaje automático?

Si alguien sin experiencia en programación quisiera aprender algoritmos y aprendizaje automático, ¿cuáles serían las mejores fases de estudio e investigación? ¿Sería mejor comenzar con el aprendizaje de la codificación? ¿Con qué idioma es mejor comenzar?

¿Cómo nos beneficia exactamente el entrenamiento previo en los métodos de aprendizaje profundo?

¿Qué algoritmo de aprendizaje automático puede dar la mejor solución para la clasificación no lineal?

¿Qué datos puedo recopilar y hacer un procesamiento de Big Data para diagnosticar en mis sistemas?

¿Cuáles son algunos campos en los que las redes neuronales artificiales aún no se han utilizado?