Cuando tiene dos secuencias de elementos, puede calcular la distancia de edición entre ellos. Esto es básicamente un número mínimo de inserciones, eliminaciones y sustituciones necesarias para convertir una cadena en otra.
Por ejemplo para convertir la secuencia
ABCABD
- Si quiero comenzar con el aprendizaje profundo, ¿debería comprar una GPU de gama baja o aprovechar una solución en la nube? ¿Cuál es más barato / mejor?
- ¿Cuál es una buena manera de aprender aprendizaje profundo para que un estudiante graduado se una a un grupo de aprendizaje profundo de buena reputación?
- ¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?
- ¿A qué áreas de investigación y aplicaciones se aplica con éxito el aprendizaje automático bayesiano?
- ¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?
a
ABCBBDC
Necesita una sustitución A->B
y una inserción de C
al final. Entonces, la distancia de edición sería 2. La distancia de edición se puede calcular efectivamente con el algoritmo de Levenshtein.
Ahora, si tiene una distancia de edición entre la secuencia de referencia y la hipótesis, puede calcular la tasa de error como
Error_rate_in_percent = 100 * Number_of_edits / Number_of_elements_reference
Esta es una propiedad que caracteriza qué tan bien pronosticó la secuencia objetivo. Para la mejor predicción, la tasa de error sería 0%. La tasa de error podría ser superior al 100% si tiene demasiadas inserciones en la hipótesis.
Si tiene muchas secuencias, puede sumar ediciones en cada una de ellas y sumar el recuento total en cada una de ellas y calcular la tasa de error general.
Ahora, dependiendo de los elementos de la secuencia, puede asignar nombres a la tasa de error. Si los elementos de la secuencia son palabras, tiene una tasa de error de palabras o WER. Si los elementos son teléfonos, tiene una tasa de error de teléfono o PER. Si los elementos son letras, tiene una tasa de error de letras.