Es difícil decir algo sobre una red neuronal artificial sin saber:
- Cuál es la estructura de su red neuronal (por ejemplo, retroalimentación regular, recurrente, convolucional)
- Cómo se entrena su red (por ejemplo, algoritmos evolutivos, propagación inversa) y cómo se define la función de costo
- Cómo son los datos de entrenamiento que estás alimentando la red neuronal
- Muchos otros factores que dependen más o menos de los tres anteriores
Solo para reiterar, nos ha dicho que lo que supongo es que su conjunto de verificación tiene 5000 ejemplos. De estos ejemplos, 476 eran falsos negativos, 24 eran verdaderos positivos, 333 eran falsos positivos y 4167 eran verdaderos negativos. Eso significa que 500 ejemplos se clasifican positivamente y 4500 se clasifican negativamente, lo que es muy probable que sea demasiado sesgado.
Cuando un conjunto de datos utilizado para entrenar un modelo está sesgado, proporciona un entorno donde se puede obtener una alta precisión utilizando una regla simple: siempre suponga que la entrada actual es negativa (o positiva, si está sesgada).
- ¿Cuáles son los cursos necesarios para aprender la recuperación de información y el aprendizaje automático?
- Cómo probar y depurar código, código de optimización numérica y / o modelos de aprendizaje automático
- ¿Qué algoritmo utiliza AutoDraw de Google para asociar nuestro dibujo con uno existente?
- ¿Cómo aprende IBM Watson de los libros y documentos médicos?
- ¿Cuáles son algunas de las estadísticas más importantes y más engañosas en la predicción de partidos de fútbol?
Una solución a este problema podría ser sobremuestrear los ejemplos positivos para que la distribución de ejemplos positivos y negativos utilizados para entrenar el modelo sea más o menos uniforme. Si es posible, también podría mejorar su modelo para hacer una ingeniería de características más extensa para que la entrada sea un poco menos ruidosa.