¿Existe alguna medida estadística que demuestre que un clasificador Neural Net con una precisión del 96% en un conjunto de datos de N ejemplos proporcionará una precisión similar en el mundo real?

Ninguno que yo sepa. De hecho, para muchos clasificadores, ni siquiera tenemos la garantía de que los parámetros que obtenemos sean los parámetros reales, todo lo que sabemos es que lo más probable es que se les dé el conjunto de datos de entrenamiento y nuestra estimación. Por lo general, se aproxima a P (y / x, w) en la mayoría de las funciones de pérdida de clasificadores y no a P (w / x, y), lo que se debe hacer. Si tiene un conjunto de datos genérico, puede pensar que las cosas podrían funcionar en el mundo real, pero siempre hay “incógnitas desconocidas” como dice Nate Silver que no se pueden encontrar, incluso si pudiera encontrar P (w / x, y)

Una buena manera es tener un gran conjunto de datos y crear aleatoriamente un conjunto de prueba. Algunas personas incluso continúan con la validación cruzada doble, entrenando n diferentes modelos de algoritmos y probándolos en diferentes conjuntos de pruebas, pero eso es más o menos lo que hacen la mayoría de los científicos de datos.

More Interesting

¿Cuál sería un buen enfoque de aprendizaje automático para un bot de comercio de criptomonedas con aproximadamente media docena de parámetros de entrada de estrategia de comercio numérico y una salida numérica (porcentaje de ganancia diaria)? Todos los días el modelo probaría nuevos parámetros.

¿Se pueden usar datos generados por simulación por computadora para algoritmos de aprendizaje automático?

¿Qué tan útil es el aprendizaje automático?

¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?

¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

¿Cómo ha sido su experiencia en Quora con Computer Vision y la comunidad relacionada?

Hay muchas críticas positivas para Pytorch. Actualmente uso Keras y TensorFlow. ¿Recomienda hacer un cambio o apegarse a Tensorflow y dominarlo?

¿Cómo deberíamos acelerar el procesamiento de datos del lenguaje R?

¿Cuál es la diferencia entre el paralelismo del modelo y el paralelismo de datos?

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?

¿Cómo responden las redes neuronales profundas para la clasificación de imágenes a las variaciones típicas de la imagen, como la iluminación, la distancia focal, etc.?

¿Hay algún kit de herramientas LSTM disponible en MATLAB?

¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

¿Cuándo debo usar la similitud de coseno? ¿Se puede usar para agrupar?

¿Cómo se usan las estadísticas en Machine Learning?