¿Debería evaluarse un modelo de red neuronal en función del porcentaje de pronósticos que hacen una predicción correcta, en lugar de medidas basadas en términos de error?

Tomemos una situación. Construí un sistema capaz de escribir texto. Está funcionando bien, así que decido usarlo como escritor profesional. Me pregunto entre dos modelos de negocio:

  1. No quiero verificar y corregir los textos antes de enviarlo.
  2. Quiero enviarlo de todos modos.

Digamos que le pedí a mi robot 100 textos. En general, 10 palabras son errores.

De nuevo hay dos casos:

  1. Los errores son escasos : no más de 1 error por texto
  2. Los errores están agrupados : el texto generalmente contiene cero o muchos errores.

¿Puedes ver que esos dos casos de error tienen implicaciones muy diferentes dependiendo de mi situación?

  • Comprobaré: entonces, de hecho, el tiempo que pasaré dependerá de cuántas palabras sean erróneas. Ser escaso o agrupado no cambia mucho. Quiero minimizar la métrica ” Errores generales = 10
  • No comprobaré: entonces me gustaría deshacerme de los textos erróneos y vender directamente uno bueno. En este caso no quiero evitar tener errores dispersos. Si tengo 10 errores generales, 1 en 10 textos diferentes, tengo que tirar 10 textos a la basura. Si se producen los 10 errores en el mismo texto, solo arrojo 1. Por lo tanto, quiero minimizar el ” Número de texto erróneo “, reduciendo así la falta de error.

Ambas situaciones son habituales en ML, debe saber si quiere “Perfecto o nada” o, en su lugar, “Lo mejor posible en general”.

Tanto su sugerencia tendría sentido. Para ser más precisos, intuitivamente, el% de pronóstico tiene más sentido para un escenario discreto. Para datos continuos, la pérdida debe estar relacionada con la distancia entre predicción y verdad, por lo tanto, no lejos de ser el% de predicción correcta.


Como consejo, diría que vale la pena (y probablemente subestimado) pasar tiempo entendiendo las métricas. Usted puede preguntar qué se calcula realmente?

  • ¿Es una probabilidad? y tipo de tasa ? Una puntuación ?
  • ¿Es la métrica lineal? ¿Iniciar sesión? ¿Exp?
  • ¿está limitada la métrica? [0, 1], [0, + inf [,] -inf, 0]
  • ¿logras tener una intuición de tu métrica? por ejemplo, si obtiene un puntaje de 75, ¿significa que su modelo tiene un 75% de tiempo verdadero? ¿incorrecto? ¿Significa que duda entre 75 opciones?

Espero eso ayude

Creo que depende de lo que quieras que haga la arquitectura neuronal. Hay muchas formas de evaluar un modelo de aprendizaje estadístico, incluso a través de su propia función de pérdida (es decir, para los modelos de lenguaje, calculamos la perplejidad en función de la probabilidad de registro negativa del modelo, que es el objetivo que está capacitado para minimizar). A veces, cuando hay etiquetas discretas involucradas, algunas calculan la precisión o el error de predicción. A veces esto tiene sentido, a veces no: el modelado del lenguaje es un ejemplo en el que la precisión de medición no tiene tanto sentido (ya que requeriría tomar una arg-max de la distribución posterior y compararla con la verdad básica, pero eso solo da una imagen de grano grueso de lo que el modelo podría estar aprendiendo, en el mejor de los casos).

Si está haciendo modelos de series de tiempo y le importa cuán bueno es el modelo para predecir lo que viene después (es decir, examinar su horizonte de predicción), entonces debe evaluar en función de las métricas generalmente utilizadas en el pronóstico. Con respecto a la literatura sobre series de tiempo, puede desenterrar la mayoría de los trabajos en series de tiempo / pronósticos y extraer qué métricas / medidas usan para comparar modelos predictivos =)

Depende de qué tipo de predicción estés haciendo

More Interesting

¿Cuáles son algunos temas comunes que deben enseñarse en un curso de inteligencia artificial, pero que se omiten en la mayoría de los cursos de IA?

¿Cuán realista es un apocalipsis inducido por IA / robótica?

¿Cómo se comparan las arquitecturas de aprendizaje profundo?

¿Cuál es la función de paso de unidad en la red neuronal artificial?

¿Qué es exactamente el encaje neural y cómo traerá una nueva era en tecnología?

¿Cuáles son algunos algoritmos de aprendizaje automático de los que siempre debe tener una sólida comprensión y por qué?

¿Cuáles son los algoritmos clásicos de aprendizaje automático similares a los modelos de secuencia a secuencia?

Cómo comenzar a construir robots con la plataforma Adruino

¿Por qué las personas encuentran la neurociencia computacional tan interesante?

¿Se pueden incorporar la programación genética, la metaprogramación y el aprendizaje profundo en el mismo programa?

¿Las redes neuronales solo son buenas para la clasificación, les va bien en problemas de regresión / agrupamiento?

¿Por qué todos los robots de inteligencia artificial como Siri, Google Now y la mayoría de los sistemas GPS utilizan voces femeninas? ¿Por qué no voces en off masculinas? ¿Tiene que ver con la psicología humana?

¿Cuál es la mejor manera de hacer una red neuronal capaz de aprender sin supervisión, y cuáles son sus usos?

¿Cuáles son las diferencias entre 'inteligencia computacional' y 'aprendizaje automático'?

¿Se puede usar una IA súper inteligente para hacer posible el viaje en el tiempo?