Suponiendo que se trata de un problema de clasificación binaria, donde cada muestra se puede clasificar en clase C1 o clase C2, t-Statistics nos ayuda a evaluar si los valores de una característica particular para la clase C1 son significativamente diferentes de los valores de la misma característica para clase C2. Si esto se cumple, entonces la función puede ayudarnos a diferenciar mejor nuestros datos.
Por ejemplo, ¿el salario de una persona afecta sus posibilidades de obtener un préstamo? Aquí calcularemos la media y la varianza de las siguientes observaciones por separado:
- Salarios de personas cuando se aprobó el préstamo
- Salarios de personas cuando el préstamo no fue aprobado
y luego usaremos t-stats para verificar si estas dos muestras son significativamente diferentes o no.
- ¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?
- Si alguien está haciendo una maestría en OMS CS de Georgia Tech, ¿cuál es la mejor especialización en términos de perspectivas (suponiendo el mismo nivel de interés en cada una), bases de datos e ingeniería de software, aprendizaje automático o inteligencia interactiva?
- En TensorFlow, ¿qué es una capa 'densa' y una 'abandonada'?
- ¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.
- ¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?
t- Las estadísticas se calculan usando:
donde [math] u_ {ij} [/ math] denota la media de la característica i-ésima [math] X_i [/ math] para la clase [math] C_j [/ math] y [math] sigma_ {ij} [/ math] denota la desviación estándar de la función i-ésima [matemática] X_i [/ matemática] para la clase [matemática] C_j [/ matemática]. El índice de clase se denota por j, es decir, j = 1 o j = 2.
Después de calcular los valores de t-Statistic para cada característica, clasificamos estos valores en orden descendente para seleccionar la característica importante.
Referencia: un enfoque eficiente de selección de características estadísticas para la clasificación de datos de expresión génica