¿Hay alguna manera de probar el límite de precisión teórica para clasificar un conjunto de datos en particular? O, ¿hay alguna forma de confirmar que la calidad de los datos es insuficiente para un problema?

En general, no, no es posible saber con certeza que no haya una regla que asigne sus entradas a las salidas deseadas. Entonces, el hecho de que haya probado un montón de técnicas de aprendizaje automático y no hayan encontrado ningún buen mapeo no significa que no haya un mapeo perfecto entre sus muestras de entrada y su salida de destino.

Aquí hay un ejemplo. Podría hacer un conjunto de datos de clasificación binaria donde cada muestra fuera una cadena aleatoria de 1 MB seguida de la palabra “verdadero” o “falso”. Luego podría encriptar cada uno individualmente y pedirle que intente calcular la asignación de cada muestra a “verdadero” o “falso”. Invariablemente fallarías, pero sabemos que tengo un software que puede realizar el mapeo a “verdadero” o “falso” perfectamente, ya que puedo descifrar cualquiera de las muestras y encontrar la etiqueta.

Tal vez piensas que es un ejemplo artificial. Pero mi punto es que, en ausencia de algún tipo de conocimiento de dominio, no se puede decir nada sobre la previsibilidad. Entonces, si desea saber si la predicción es realmente posible, entonces debe apelar a algún tipo de ley física o algún otro principio establecido. Aquí hay unos ejemplos:

  • Quiero predecir el color de la pintura en una pared usando solo la salida de una cámara en blanco y negro. es posible? No, una cámara en blanco y negro simplemente no mide el color.
  • Quiero predecir cuánta pintura hay en una lata en función de su peso. es posible? Sí, sabemos que cada unidad de pintura tiene un cierto peso.
  • Quiero predecir si dos imágenes de huellas digitales provienen del mismo dedo donde las crestas de fricción son claramente visibles, ¿es esto posible? Sí, durante más de 100 años la policía ha estado haciendo esto con alta confiabilidad.
  • Quiero predecir si una imagen de 1 megapíxel es una foto de un perro o de una mesa. ¿es posible? Sí. Sabemos que es posible porque los humanos pueden hacerlo.

En la práctica, una buena prueba para “¿es posible predecir y dada x?” es para ver si los humanos pueden hacerlo. Si no hay humanos que hayan podido hacer esa predicción, entonces hay una buena posibilidad de que sea imposible o tan difícil que no lo descubras en un período de tiempo razonable. Piénselo de esta manera, la gente gana premios Nobel por ser el primer ser humano en hacer nuevas predicciones o descubrir nuevas reglas predictivas.

En su caso, tiene datos biométricos. No sé lo que tiene, pero ciertamente hay tipos de datos biométricos que pueden usarse para predecir la identidad. Huellas digitales o una buena foto clara de la cara de alguien, por ejemplo. Hay otras cosas que no pueden. Como la camisa de color que tenían ayer. Aquí, un poco de sentido común será de gran ayuda para descubrir si es posible.

La siguiente pregunta es si podrá hacerlo. En cuanto a eso, no tengo idea. Existen buenos métodos para la identificación automática de huellas dactilares y, a partir de este año, hay varios grupos que hacen afirmaciones plausibles de tener sistemas de reconocimiento de rostros que son tan precisos como un humano para identificar a las personas que reciben fotos frontales claras de sus rostros. Entonces esas cosas son posibles.

Si su problema es un problema de visión por computadora, también vale la pena tener en cuenta que el sistema de visión humana es extremadamente bueno. Entonces, si está tratando de reconocer algo basado en una imagen y no puede hacerlo con sus propios ojos, entonces probablemente no sea posible. O requiere una agudeza visual sobrehumana , que probablemente no sea algo en lo que deba apostar a su empresa, ya que, en términos generales, la visión por computadora no es tan buena como la visión humana normal.

¿Ha determinado si el problema es con un alto sesgo (falta de ajuste) o una alta varianza (exceso de ajuste)?

Si encuentra que su error de entrenamiento y error de prueba son altos, esto indicaría un problema de alto sesgo. Esto podría significar que los datos no contienen la información suficiente para hacer buenas predicciones o que el modelo no es lo suficientemente complejo (por ejemplo, tratando de ajustar una línea recta a una función polinómica). Si aún no ha probado la regresión polinómica, la SVM o las redes neuronales, valdría la pena intentarlo, si todavía no llega a ninguna parte con modelos complejos, entonces probablemente tenga razón en que las características no contienen los datos necesarios para buenas predicciones.

Si tiene un error de entrenamiento bajo pero un error de prueba alto, esto indicaría una variación alta. Suponiendo que ha probado los controles más obvios, como la regularización y los modelos simplificados para reducir el sobreajuste, es posible que necesite más ejemplos de capacitación para poder adaptarse a un buen modelo.

Piense en el ruido en sus datos; por ejemplo, en los problemas de firma manual, no hay dos muestras iguales. Esto se debe al control motor humano y otros aspectos fisiológicos. ¿Se puede modelar de alguna manera el ruido en su sistema? En caso afirmativo, intente crear muestras sintéticas con mucho menos ruido (pero asegúrese de utilizar las mismas características / distribución de los datos originales).

Si su modelo puede predecir la etiqueta en estos, entonces probablemente esté en el camino correcto y solo tenga que encontrar una manera de manejar el ruido. Si no, entonces su modelo no se adapta al problema o su tarea es imposible de realizar.

La forma teórica de hacer esto es medir el límite de generalización dependiente de la distribución (o, mejor aún, el límite transductivo), generalmente realizado en estos días utilizando la complejidad de Rademacher

La forma práctica de hacer esto:

Construir un modelo basado en los datos.
Probar el modelo en datos conocidos pero donde aleatorizó las etiquetas
Mida la precisión de validación en estos datos falsos.

Esto le permite estimar el límite superior en la precisión de generalización

Repita con todos los núcleos y / o características que pueda imaginar

Eso es lo mejor que realmente puedes hacer

Si hay interés, puedo describir esto con más detalle en mi blog.

A veces, los algoritmos de aprendizaje automático altamente sofisticados pueden actuar como generadores de números aleatorios muy caros. Esto puede suceder si no hay forma de predecir los datos de la prueba en función del conocimiento de los datos de entrenamiento. Para una detección o verificación, la curva ROC para salida aleatoria es una línea recta con un EER del 50%. Entonces, podría mostrar a sus colegas que los algoritmos no funcionan mejor que las conjeturas aleatorias.

Las curvas ROC pueden decirle bastante sobre este tipo de problema si aún no las ha mirado.

Me gusta la respuesta de Davis King: cómo extraer características de sus datos es fundamental y puede requerir un conocimiento íntimo del dominio.

Hola, mencionaste que habías probado varios algoritmos de aprendizaje automático y descubriste que no hay resultados deseados. ¿Quiere decir que había entrenado un modelo en un conjunto de entrenamiento y probado el modelo en un conjunto de prueba?

Si eligió buenos hiperparámetros y obtuvo un mal resultado, ¡significa que el modelo no es correcto!

Bueno, que un modelo no funcione bien significa muchas cosas.

  1. Es posible que exista una gran cantidad de ruido en sus datos y sus modelos elegidos son sensibles a los datos ruidosos en qué condición puede necesitar preprocesar sus datos.
  2. Su modelo no es adecuado para sus datos. Tal vez sus modelos elegidos son modelos lineales, sin embargo, sus datos no son linealmente separables.
  3. La propiedad de sus datos es difícil de abordar. Los datos pueden ser de alta dimensionalidad o dispersos. Por lo tanto, es posible que deba agregar un término de regularización u otros métodos de limitación complejos del modelo a su modelo.

More Interesting

¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?

¿Cuáles son los mejores solucionadores de programas cuadráticos?

En los Estados Unidos, ¿es ilegal entrenar redes neuronales usando imágenes con derechos de autor?

Soy doctora en ingeniería informática con experiencia en aprendizaje automático y optimización bayesiana. Me encantaría evolucionar mi investigación hacia la mecánica estadística y la biofísica. ¿Cómo podría lograr eso? ¿Qué colaboraciones vale la pena buscar?

¿Puedo usar el concepto de aprendizaje automático para predecir cuánta cantidad de comida cocinar por día en un restaurante?

¿Cuáles son algunos ejemplos de aprendizaje automático en operaciones de computación en la nube?

¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?

¿Quién es el mejor científico de aprendizaje automático del mundo?

¿Cuál es la diferencia entre un conjunto de entrenamiento y un conjunto de prueba?

¿El éxito de un algoritmo particular causa una lentitud de progreso en el desarrollo de mejores algoritmos?

¿Qué es un buen texto introductorio de aprendizaje automático?

¿Qué es el aprendizaje automático en términos simples?

En weka, ¿qué significan las cuatro opciones de prueba y cuándo las usa?

¿Debo usar la validación cruzada k-fold para un clasificador de bosque aleatorio?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo después de los 30 años?