¿Cómo se calculan los intervalos de confianza en un conjunto de características?

Depende de dónde provienen las características:

1- Sus características provienen directamente de los datos. [Asumo que esto es lo que quisiste decir]
2- Su algoritmo de aprendizaje está “aprendiendo” sus características. Por ejemplo, a través de una capa oculta en una red neuronal multicapa (o red profunda), o mediante variables latentes en un algoritmo de aprendizaje de estilo LDA). [Si esto es lo que realmente quieres, agrega un comentario y editaré mi respuesta para responder también a esto]

1: Si sus características provienen directamente de los datos o son características extraídas diseñadas a mano. En otras palabras, determinista, permaneciendo fijo durante todo el proceso de entrenamiento, calculado o extraído solo una vez antes de que comience el entrenamiento.

La mayoría de los algoritmos de entrenamiento (por ejemplo, SVM, Regresiones lineales, Regresión logística, EM (modelo de mezcla gaussiana), …) calculan parámetros para cada una de sus características. Si una característica es realmente ruidosa, el algoritmo de entrenamiento asignará un peso minúsculo a la característica (casi cero), lo que efectivamente la cancela de la predicción. La predicción estará dominada por las características que estadísticamente afectan la predicción. En la mayoría de los casos, recomendaría dejar todas las funciones. Sin embargo, si sus datos tienen dimensiones muy altas (es decir, el tamaño de la función es más de 10 veces el de sus datos de entrenamiento. Por ejemplo, solo 100 ejemplos de entrenamiento y tamaño de función> 1000, es decir: su modelo está sobreajustando sus datos, entonces es posible que desee “proyectar” sus datos en dimensiones más bajas (por ejemplo, utilizando PCA o kmeans o mezclas guassianas).

No recomendaría eliminar funciones simplemente omitiéndolas. Incluso si hace algunas estadísticas y decide que alguna característica tiene una correlación cero con el valor objetivo y, por lo tanto, decide omitirla. Puede darse el caso de que una característica parezca “inútil”, pero cuando se combina con otras características comenzará a tener efecto sobre el valor objetivo. (Considere un ejemplo solo para ilustración: digamos que tiene características x1 y x2, y la etiqueta de clase y. Podría ser el caso de que y = 1 cuando x1 y x2 son positivas o ambas negativas. Pero y = 0 si x1 y x2 son signos diferentes, aunque tanto x1 como x2 pueden parecer estadísticamente no correlacionados con y, cuando se inspeccionan individualmente, pero juntos impactan en y). Hacer algo como calcular PCA en su matriz de datos o ajustar un modelo de mezcla gaussiana en sus características son algunas “formas matemáticamente correctas” para hacer la reducción de características.

2: Avísame si la segunda pregunta es lo que quieres. Editaré esta sección si es así.

Aprendizaje automáticoautomático