¿Cómo se calculan los intervalos de confianza en un conjunto de características?

Depende de dónde provienen las características:

1- Sus características provienen directamente de los datos. [Asumo que esto es lo que quisiste decir]
2- Su algoritmo de aprendizaje está “aprendiendo” sus características. Por ejemplo, a través de una capa oculta en una red neuronal multicapa (o red profunda), o mediante variables latentes en un algoritmo de aprendizaje de estilo LDA). [Si esto es lo que realmente quieres, agrega un comentario y editaré mi respuesta para responder también a esto]

1: Si sus características provienen directamente de los datos o son características extraídas diseñadas a mano. En otras palabras, determinista, permaneciendo fijo durante todo el proceso de entrenamiento, calculado o extraído solo una vez antes de que comience el entrenamiento.

La mayoría de los algoritmos de entrenamiento (por ejemplo, SVM, Regresiones lineales, Regresión logística, EM (modelo de mezcla gaussiana), …) calculan parámetros para cada una de sus características. Si una característica es realmente ruidosa, el algoritmo de entrenamiento asignará un peso minúsculo a la característica (casi cero), lo que efectivamente la cancela de la predicción. La predicción estará dominada por las características que estadísticamente afectan la predicción. En la mayoría de los casos, recomendaría dejar todas las funciones. Sin embargo, si sus datos tienen dimensiones muy altas (es decir, el tamaño de la función es más de 10 veces el de sus datos de entrenamiento. Por ejemplo, solo 100 ejemplos de entrenamiento y tamaño de función> 1000, es decir: su modelo está sobreajustando sus datos, entonces es posible que desee “proyectar” sus datos en dimensiones más bajas (por ejemplo, utilizando PCA o kmeans o mezclas guassianas).

No recomendaría eliminar funciones simplemente omitiéndolas. Incluso si hace algunas estadísticas y decide que alguna característica tiene una correlación cero con el valor objetivo y, por lo tanto, decide omitirla. Puede darse el caso de que una característica parezca “inútil”, pero cuando se combina con otras características comenzará a tener efecto sobre el valor objetivo. (Considere un ejemplo solo para ilustración: digamos que tiene características x1 y x2, y la etiqueta de clase y. Podría ser el caso de que y = 1 cuando x1 y x2 son positivas o ambas negativas. Pero y = 0 si x1 y x2 son signos diferentes, aunque tanto x1 como x2 pueden parecer estadísticamente no correlacionados con y, cuando se inspeccionan individualmente, pero juntos impactan en y). Hacer algo como calcular PCA en su matriz de datos o ajustar un modelo de mezcla gaussiana en sus características son algunas “formas matemáticamente correctas” para hacer la reducción de características.

2: Avísame si la segunda pregunta es lo que quieres. Editaré esta sección si es así.

Podrías hacer algo como esto …

Utilice validación cruzada y curvas ROC. Divida su conjunto de datos en un conjunto de prueba y un conjunto de entrenamiento al azar. Entrene a su clasificador en el conjunto de entrenamiento y pruebe la precisión en el conjunto de prueba, calculando un valor AROC. Realice esto muchas veces al azar en diferentes conjuntos de prueba / entrenamiento

Luego, puede usar los valores p + error estándar para configurar los intervalos de confianza para determinar si los modelos que construyó son mejores que los aleatorios (AROC = .5). La hipótesis nula es que su clasificador es de hecho aleatorio, con un pequeño valor p que indica que su clasificador no es aleatorio. Si el CI contiene .5, entonces la función no está ayudando y puede descartarse.

Una de las formas más fáciles (y más lentas) es la selección de funciones Greedy. Puede ser hacia adelante o hacia atrás. En la selección de funciones codiciosas hacia adelante, elige una función aleatoria y calcula la puntuación de validación cruzada utilizando solo esa función. Luego, pasa a la siguiente función, si mejora la precisión de CV, la mantiene y luego pasa a la siguiente y así sucesivamente.

En la búsqueda hacia atrás, seleccione todas las funciones y luego elimine de la misma manera.

More Interesting

¿Cuándo usan los combatientes la ametralladora / cañón y cuándo usan misiles en el combate aire-aire?

¿Qué es exactamente el sobreajuste? ¿Por que sucede? ¿Cómo afecta a mi modelo?

Cómo interpretar la trama de ACF

¿Qué cursos debería tomar para especializarse en aprendizaje automático, ciencia de datos e IA como estudiante de MS CS en USC?

¿Existe algún hardware especializado para algoritmos de aprendizaje profundo?

En TensorFlow, ¿qué es una capa 'densa' y una 'abandonada'?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?

¿Podemos obtener un intervalo de confianza para la salida de un clasificador en el aprendizaje supervisado?

¿Cuál es la relación entre el análisis sentimental y el aprendizaje automático?

¿Existen algoritmos que hacen lo contrario de la detección de anomalías, por ejemplo, señalan ocurrencias regulares en datos ruidosos?

¿Qué algoritmo de aprendizaje automático debo usar cuando tengo 5-6 valores categóricos independientes y 1 variable continua dependiente?

Cómo tratar las variables categóricas al analizar los datos de la encuesta para crear una clasificación

¿Dónde está el mejor lugar para encontrar startups emergentes de aprendizaje automático y PNL?

¿Cuáles son las herramientas / software más utilizados para el aprendizaje automático / big data?

¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?