¿La mayoría de las aplicaciones públicas de aprendizaje automático se utilizan de manera efectiva con una precisión del 100%?

Yo diría: No. Por ejemplo, si bien las herramientas basadas en ML de Google / Apple / Facebook (etc.) funcionan bastante bien, como usuario, sabría que no son 100% “precisas”. Supongamos que realiza una búsqueda de imágenes en Google: estoy seguro de que encontrará resultados que contienen contenido que no está directamente relacionado con su consulta. Lo mismo es cierto para Google Translate; Si bien funciona la mayor parte del tiempo y ha mejorado mucho (especialmente el año pasado), notará que está lejos de ser perfecto si lo usa regularmente. Siguiente: asistentes de voz como Siri, Alexa, el asistente de voz de Android (¿tiene un nombre por cierto?): Como usuario, es posible que haya encontrado que no analizaron su pregunta / comando correctamente en más de una ocasión.

Esto también destaca otro punto: el 100% de precisión de la prueba es clara, e incluso bajo el supuesto de que es una muestra representativa de la población, encontrará muchas muestras nuevas durante la aplicación real que no estaban en el conjunto de prueba y no lo haría. sepa cómo funcionan sus modelos de antemano (también, vea todos estos documentos de redes neuronales “engañosos” relacionados con la seguridad que se han publicado este año).

Otra evidencia de que es poco probable que tenga una precisión de prueba del 100% antes de la implementación es que incluso los algoritmos y modelos más recientes y mejores en trabajos de investigación no logran una precisión de prueba del 100%, no en conjuntos de datos de problemas específicos y dominios de aplicaciones, y no incluso en conjuntos de datos de referencia simples.

Trataré de responder esto desde una perspectiva más teórica. En Machine Learning, es bastante difícil obtener una precisión del 100% (un modelo con perfección absoluta) y por muy buenas razones. Por ejemplo, suponiendo que el mundo es determinista (ignore las operaciones de nivel cuántico), esto implica que X es literalmente todo. Entonces, para modelar f (X) = y, necesitamos toda la información contenida en nuestro universo (o más grande).

Una aplicación pública de Machine Learning es la predicción del clima. Para predecir el clima, los datos se recopilan de una multitud de fuentes: tierra, aire, mar, colectores de lluvia, sensores de temperatura (en satélites, barcos y tierra), las diferencias de presión de aire y cómo forman el viento, el efecto del calor del sol en la Tierra. superficie, el efecto de los cambios en la fase del agua en el flujo de energía, la rotación de la Tierra en el espacio, etc. Los meteorólogos introducen millones de estos puntos de datos en modelos ejecutados en supercomputadoras. Existen limitaciones en la eficiencia computacional, la capacidad del modelo y la cantidad de datos relevantes. También tenemos que lidiar con la corrección de datos. Los datos pueden ser incorrectos debido a errores de medición (desplazamientos, falta de precisión), imprecisiones numéricas (desbordamientos / desbordamientos) y ruido.

En otras situaciones, preguntar si tenemos una precisión del 100% es la pregunta incorrecta. Por ejemplo, tal vez intente diseñar títulos de cebo de clic para maximizar las vistas de página para un blog o sitio web. Hay tantos datos que realmente no puedes tocar. Seguro que puede diseñar perfiles de usuario que realicen un seguimiento de las preferencias para crear mejores títulos de cebo de clic. Algunos dicen que Google lee tu mente. Pero a partir de ahora no podemos leer la mente de una persona con suficiente precisión para garantizar el 100% de éxito.

Dios no, el punto es mejorar el status quo. Es una herramienta terrible si su objetivo es alcanzar la perfección.

Machine Learning funciona creando un modelo simple y luego eligiendo algunos parámetros que minimizan el error. Si desea una precisión perfecta, debe hacer que su modelo coincida con la realidad. Eso no es para lo que sirve el aprendizaje automático.

Entonces responderé la pregunta que creo que está haciendo:

¿Se implementan la mayoría de las aplicaciones industriales de aprendizaje automático con una precisión del 100% en los datos de prueba?

La respuesta es no. Muchos algoritmos de aprendizaje automático del mundo real se combinan con otras técnicas y a menudo incluyen intervenciones de empleados humanos en algunos dominios. Dicho esto, hay dominios en los que se puede esperar que los algoritmos de aprendizaje automático se generalicen extremadamente bien y funcionen con una precisión superior al 95% (diría que la precisión es a menudo una métrica bastante indeseable en algunas aplicaciones de ML, lo que encontrará más comúnmente es métricas más inclinadas estadísticamente como puntajes F).

En última instancia, es bastante difícil responder a esta pregunta, ya que las aplicaciones de ML son bastante diversas y, en muchos casos, ML no se utiliza de forma independiente. Además, vale la pena señalar que en muchos dominios podemos usar ML porque requiere menos ingeniería de características (esta es una razón por la que hemos visto el advenimiento del aprendizaje profundo) donde el aprendizaje automático y las redes neuronales profundas se realizan ligeramente por debajo del estado de -the-art (y esto está cambiando rápidamente / ha cambiado en muchos dominios) y el tiempo ahorrado vale la pérdida marginal de precisión. Del mismo modo, hay razones por las que no podemos usar ML incluso si tenemos una ganancia marginal en la precisión (costo de entrenamiento computacional / espacial, etc.)

No, ya que pocos problemas tienen métodos existentes que alcanzan el 100% de precisión. Para muchos problemas, el 95% es alcanzable (algunos más como el 99,9%, otros más como el 90%). Mejorar el status quo (sea lo que sea) es un objetivo principal al construir estos clasificadores.