¿Puedo confiar en un modelo de clasificación con validación cruzada y precisión de prueba decentes incluso si el número de observaciones es menor que el de las características?

En general si.

Existen muchas técnicas que permiten modelos de entrenamiento en las entradas donde el número de características es mucho mayor que el número de ejemplos de entrenamiento.

En general, siempre que crea que su separación entre el tren y la prueba durante el proceso de validación cruzada asegura que no haya “fugas” de entropía del tren a la prueba, y siempre que los resultados de la validación cruzada sean positivos, el modelo es confiable.

Si aún no confía en él, ejecute una prueba de regresión “justa”: entrene los datos obtenidos antes de alguna marca de tiempo (quizás “hasta ahora”) y pruébelo en los datos que llegaron después (quizás “la próxima semana”) . Siempre y cuando el modelo funcione bien (importante: en la cola larga, en los tipos de entradas que no ha visto antes también, no solo en la “cabeza pesada” donde no es realmente una prueba de que el modelo generalice), eres bueno para ir.

No, si no hay una suposición implícita de que hay confusión entre las características, pero si lo hace a la manera bayesiana, con un buen previo de cómo se distribuyen las características, esto siempre es posible. O, con algún conocimiento de lo anterior, puede ser aconsejable si un agrupamiento preliminar o reducción de dimensionalidad tiene sentido.

More Interesting

¿Cuáles fueron los algoritmos utilizados para los chatbots antes de que surgiera el aprendizaje profundo?

¿Cómo se puede usar el aprendizaje profundo para la detección de eventos anormales en los videos?

¿La correlación entre dos variables cuenta como evidencia débil de un vínculo causal entre ellas?

¿Cuáles son las diferencias, similitudes, pros, contras, aplicaciones y descripciones de Keras, TensorFlow, Theano?

¿Cuáles son las mejores prácticas para garantizar que los datos adquiridos de la investigación que implica el análisis de Big Data resulten precisos y útiles?

¿Cree en los resultados producidos por el análisis de control metabólico (modelado matemático utilizando parámetros cinéticos)?

¿El procesamiento del lenguaje natural reemplaza la búsqueda elástica?

¿Qué es un modelo oculto de Markov - Red neuronal artificial (HMM-ANN)?

¿Cuáles son algunas de las herramientas de procesamiento de lenguaje natural más comunes utilizadas por las grandes corporaciones minoristas?

¿Qué preguntas se pueden hacer en una entrevista sobre el proyecto de Análisis de sentimientos de Twitter?

¿Puede un desarrollador de aprendizaje profundo atrapar criminales que abusan de niños?

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

Si, en el futuro, los robots / IA se vuelven comunes en los hogares, ¿cuál es el lenguaje de programación más probable en el que se escribirán?

¿Es importante aprender Python para el aprendizaje automático? He aprendido R. ¿Cómo puedo aprender el aprendizaje automático en R?

¿Cómo funcionan las redes interbancarias?