Cómo elegir el conjunto de validación para poder representar mejor el conjunto de prueba

Hola

En primer lugar, ¿es correcto el propósito? es decir, ¿necesita su modelo para generalizar o ajustarse a sucesos específicos? Además, ¿te refieres a representar mejor el conjunto de datos, en lugar del conjunto de prueba? Espero que esto esté interpretando su enfoque correctamente.

Además, ¿series temporales o no? Estas consideraciones serían importantes al elegir, por ejemplo, los períodos de tiempo y ordenar si tiene que ver con datos financieros tales como el estado de los mercados / volatilidad, etc. Uno no puede simplemente cortar la serie temporal cuando una recesión está en marcha.

Esto nuevamente difiere si tiene que ver con el ajuste para el concepto de canasta de bienes (generalizo aquí, sin juego de palabras). Un ejemplo es la cadena de supermercados que intenta identificar qué productos se combinan mejor con otros como parte de sus promociones, o qué colocar junto a otros productos, ya que generalmente los compran los clientes (cerveza y pañales, hmm). En este caso, tener un conjunto de validación más generalizado puede adaptarse mejor a su propósito.

El uso de la relación información / ganancia puede ayudar aquí, suponiendo que use una parte del conjunto de prueba para validar. Con no series de tiempo, puede hacer la aleatorización a través de la siembra aleatoria y tener una permutación de registros de tipo. Bastante fácil al hacer train-test-split y darle a la función una proporción de 80:20, depende de usted. Con la serie de tiempo, esto es un poco más complicado: necesita saber qué período comienza / termina, y esto significa que introduce algún tipo de sesgo desde el principio. Por otra parte, eso es lo que hace que el proceso sea interesante.

Si aún no ha construido el modelo (saltando algunos pasos), debe ver si la distribución de datos es representativa de todo el conjunto de datos: es donde se definirán las propiedades de su modelo (precisión, recuperación), por lo que trazar una distribución y ver si coincide con su conjunto de datos sería una buena idea.

Aprendizaje automáticoAprendizaje profundoMinería de datosRedes neuronales artificialesValidación

Related Content

¿Por qué es tan lento TensorFlow?

¿Qué es mejor para el aprendizaje profundo: TensorFlow o Chainer?

¿Cómo manejan las empresas en Silicon Valley sus datos de flujo de red?

¿Cuál sería un ejemplo de una función simple no convexa?

Como estudiante de informática, estoy muy interesado en extraer datos de los mercados bursátiles. ¿Cómo puede ayudarme el aprendizaje automático / minería de datos?

¿Qué cámara réflex digital es la mejor para la familia y otras funciones, no para la fotografía profesional?

Cómo evitar que mi CPU se sobrecaliente

Si tiene un conjunto de datos grande que se SHUFFLED, a menudo está bien dividir el conjunto de datos a través de una división 80/20 en el conjunto de datos de entrenamiento y prueba.

Si el conjunto de datos es pequeño, es posible que desee utilizar la validación cruzada de k-pliegues, lo que significa que divide el conjunto de datos en k conjuntos e itera a través del conjunto de datos k veces, siendo el conjunto de validación uno de los k conjuntos y tomando el promedio

Thomas Thio

La validación cruzada de K fold le permitirá hacer eso. Recorrerás todos tus datos k veces, cada vez que selecciones una nueva muestra de validación.

Eso no le dice qué conjunto es mejor para la validación, pero permitirá un modelo más robusto.

No hay una bala mágica para identificar el mejor conjunto, los conjuntos de entrenamiento y validación son ambos. Se supone que son representativos de la realidad, por lo tanto, su conocimiento de lo que está tratando de modelar sería la mejor manera de saberlo.

Thomas Thio

More Interesting

¿Cuáles son los requisitos previos para aprender Oracle Apps Technical?

¿Cuál es una explicación intuitiva de las expectativas de la correlación Radamacher?

¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

¿Cómo almacena un sistema de aprendizaje automático su memoria aprendida?

Cómo construir una aplicación de Android orientada al aprendizaje automático

¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?

Cómo lidiar con la oclusión, deformación o distorsión de perspectiva para la detección de objetos

¿Cuál es la diferencia entre el análisis de opinión y el análisis de tonalidad?

¿Cuál es la segunda generación de redes neuronales?

¿Cuál es el proceso de modelado?

¿Por qué las personas incrustan / envuelven código python en C / C ++?

Si la tasa de predicción de un algoritmo de aprendizaje automático mantiene porcentajes bajos (50% a 60%) en un conjunto de datos, ¿cómo puedo mejorar?

¿Qué método aparte del análisis de sentimientos puedo usar para obtener el puntaje de una oración?

Cómo pasar del desarrollo de pila completa al aprendizaje automático en el trabajo independiente

¿Es Kafka la mejor solución para crear una aplicación de visión por computadora?

Web Analytics