Cada teléfono puede durar unos pocos fotogramas. Por ejemplo, supongamos que su grabación contiene la secuencia del teléfono “/ it /” (“comer”), y el cuadro inicial y el cuadro final para esos teléfonos son (1,5) y (6,10), respectivamente. Entonces los marcos se etiquetarían así:
marco 1: i
marco 2: i
marco 3: i
marco 4: i
marco 5: i
marco 6: t
marco 7: t
marco 8: t
marco 9: t
marco 10: t
Supongamos que entrena una red neuronal para mirar un cuadro y predecir qué era el teléfono durante ese cuadro. Podría darte este resultado:
- Cómo obtener la distribución de probabilidad de clases con píxeles que son 0 o 255
- ¿Cuál es la mejor manera de personalizar los artículos para un usuario en función de su historial de lectura?
- Cómo dar un peso diferente a los conjuntos de características mientras se entrena un clasificador con Scikit
- Cómo hacer ingeniería de características para la regresión no lineal correcta
- ¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?
marco 1: i
marco 2: i
marco 3: i
marco 4: i
marco 5: i
marco 6: p (incorrecto)
marco 7: t
marco 8: t
marco 9: t
marco 10: t
En este caso, la tasa de error de cuadro sería del 10%, ya que uno de cada diez cuadros estaba mal etiquetado. La siguiente parte del sistema podría analizar estas salidas y decidir que la secuencia de teléfono más probable era / it /, en cuyo caso la tasa de error del teléfono sería del 0%, ya que tiene 0/2 teléfonos equivocados.