¿Cuál es la diferencia entre inferencia y aprendizaje?

Gracias por el A2A.

El uso del término aprendizaje e inferencia depende del campo de estudio. La confusión generalmente surge cuando las palabras se usan casualmente sin referencia a un campo en particular.

En el nivel más general, la palabra “inferencia” es algo con lo que todos estamos familiarizados. Observamos algunos datos y queremos aprender algo de ellos. El proceso de observar datos y decir algo bien informado a partir de ellos es una definición intuitiva de inferencia.

Cuando los estadísticos hablan de inferencia, generalmente hablan de inferencia estadística . En inferencia estadística, observamos algunos datos y nos gustaría decir algo bien informado sobre el proceso que generó esos datos. Por lo tanto, las predicciones, las barras de error de estimación, la prueba de hipótesis y la estimación de parámetros serían parte de la inferencia estadística. Observe cómo la estimación de parámetros también se incluye bajo inferencia estadística.

Por otro lado, a los investigadores tradicionales de aprendizaje automático de una tradición informática les gusta hacer una distinción entre aprendizaje e inferencia. El aprendizaje está asociado con la estimación de parámetros y no se considera explícitamente como un problema de inferencia. Por lo tanto, la conceptualización del término “inferencia” es más estrecha que la de un estadístico. Usualmente se considera que la inferencia hace algún tipo de predicción. Por ejemplo, en la regresión lineal, dadas algunas características y algunos parámetros aprendidos, queremos predecir alguna variable con valor real. O, en un problema de procesamiento de imágenes, dada una imagen con muchos valores de píxeles faltantes, es posible que queramos completar los valores más probables para los píxeles faltantes de nuestra distribución conjunta aprendida. Ambas predicciones se llamarían inferencias. Una ventaja de hacer una distinción entre aprendizaje e inferencia es que naturalmente separa los algoritmos de aprendizaje de los algoritmos de inferencia. Aunque para algunos problemas los parámetros pueden estimarse analíticamente, la mayoría de los problemas requieren un algoritmo de aprendizaje , como un algoritmo de tipo de descenso de gradiente. De manera similar, en algunos problemas de inferencia, como el ejemplo de procesamiento de imágenes anterior, la predicción generalmente no es un complemento y requiere un algoritmo de inferencia , como un algoritmo de muestreo, para calcular la predicción. Las cosas se vuelven aún más interesantes en modelos con variables latentes, donde a menudo un algoritmo de inferencia está anidado dentro de un algoritmo de aprendizaje como se ve en los algoritmos MCMC EM.

Para resumir, la diferencia entre inferencia y aprendizaje depende del ojo del modelador. Si piensa como un estadístico, entonces el aprendizaje / estimación de parámetros es un tipo de inferencia. Si piensa como un investigador tradicional de aprendizaje automático, el aprendizaje suele ser la estimación de parámetros y la inferencia suele ser la predicción. Diferentes perspectivas son útiles en diferentes situaciones.

Respuesta corta : es más fácil entender esta diferencia aparentemente arbitraria en el contexto de un modelo gráfico probabilístico de variable latente: aprender los valores de las variables latentes para un ejemplo específico es inferencia . Aprender los “hiperparámetros” del modelo para todos los ejemplos es aprender .

Déjame elaborar más:

  1. Cuando aprende los parámetros del modelo gráfico, encuentra un conjunto universal de valores para todos sus puntos de datos. Puede ver esto como “aprendizaje” de la topología o la variedad donde viven sus datos (dentro de las restricciones impuestas por el modelo). Está respondiendo la pregunta “¿Qué configuración del modelo explica mejor todos los puntos de datos?”
  2. Cuando infiere los parámetros ocultos o latentes, está encontrando instancias de variables ocultas o latentes, específicas de un punto de datos. Comprender estas variables ocultas puede ayudar a hacer predicciones con los datos. Está respondiendo la pregunta “¿Qué valores de las variables ocultas explican este punto de datos?”

Otro ejemplo: Al pensar más en esta distinción, puede ver cómo esto se extendería más allá de los modelos gráficos probabilísticos. En Redes Neuronales Artificiales, el aprendizaje de los pesos (aprendizaje de parámetros) es universal para los puntos de datos y puede verse como un aprendizaje de una buena integración no lineal de los datos. Encontrar los valores de las neuronas de la capa oculta para un punto de datos específico es un problema de inferencia.

Resumen: el problema de “ajustar” el modelo es aprender: por lo general, implica equilibrar delicadamente alguna función de ajuste del modelo y algún tipo de regularización para la generalización. A menudo, usaría un conjunto de datos de validación para este ajuste además de las muestras de entrenamiento. El problema de “explicar” el modelo para una instancia específica es la inferencia. Esto a menudo es necesario para hacer predicciones de su modelo.

Un comentario interesante: ¡ estos problemas están relacionados! La inferencia requiere aprendizaje: para un conjunto fijo de parámetros aprendidos, puede resolver el problema de inferencia, por ejemplo, utilizando la estimación máxima a priorii. El aprendizaje puede requerir inferencia: la tarea de encontrar el mejor conjunto de parámetros depende de su capacidad para caracterizar qué tan bien el modelo para un conjunto fijo de parámetros explica los datos. Esto podría requerir inferencia.

Advertencia : Finalmente, debo señalar que esta terminología no es universal.

Simplificando un poco aquí: son ambos tipos de ajuste del modelo. El aprendizaje simplemente se ajusta a un modelo predictivo por cualquier medio, mientras que la inferencia se ajusta a un modelo predictivo al estimar los parámetros de algún modelo probabilístico. Por lo tanto, el resultado de ajustar una regresión lineal puede verse como inferencia, pero el resultado de ajustar una máquina de vectores de soporte es solo aprender.

La inferencia estadística es un procedimiento que le permite sacar conclusiones sobre los datos y el proceso que los genera a la mano. Después de haber realizado el procedimiento de inferencia, puede hacer preguntas como ‘¿Qué hacer a continuación?’ Por ejemplo, si supuso que los datos son generados por un proceso complejo, puede ajustar un modelo complejo a los datos y luego aplicar controles para asegurarse de que los datos realmente son producidos por un proceso complejo y una descripción más simple del modelo no hacer. Puede implementar pruebas estadísticas para verificar esto para aceptar o rechazar esta hipótesis con cierto grado de confianza.

Como otro ejemplo, puede modelar los datos dados de dos maneras diferentes (no necesariamente un modelo complejo que incluya el más simple) y luego decidir qué modelo ofrece la mejor descripción del proceso que genera los datos. Por lo tanto, puede aplicar cualquiera de las técnicas de selección de modelos para elegir uno de los dos modelos.

Simplificando aquí: dado un modelo estadístico y datos, la inferencia le permite “inferir” generalización útil (hipótesis). La inferencia probabilística generalmente significa calcular la distribución posterior dados los datos. Por ejemplo, la presencia de telaraña (datos / evidencia) puede aumentar la probabilidad de que nadie haya usado esa puerta durante algún tiempo (hipótesis).

Aprender, por otro lado, implica aprender la conexión entre la evidencia y la hipótesis. Por ejemplo, en un modelo estadístico, el aprendizaje puede ser parámetros / pesos de aprendizaje del modelo que minimizan los errores en las observaciones.

Finalmente, en un entorno bayesiano, los parámetros en sí mismos son variables aleatorias y, por lo tanto, también se pueden inferir. El aprendizaje bayesiano es una instancia de inferencia.

More Interesting

¿Puede AI controlar un grupo de ataque de portaaviones de la Marina de los EE. UU.?

Sospecho que uno de mis compañeros de trabajo puede no ser un ser sensible, ¿cuál es un buen conjunto de preguntas de prueba que puedo usar para determinar esto?

¿Se puede deshacer selectivamente el entrenamiento en redes neuronales?

¿Qué pueden aprender los investigadores que trabajan en "conciencia de máquina" de la arquitectura del cerebro humano?

¿Elegirías el procesamiento de señales digitales o la inteligencia artificial como una opción en la universidad?

¿Terminará este 'boom' de programación algún día? ¿La programación algún día será automática?

¿Será posible realizar ingeniería inversa en el cerebro humano y eventualmente construir un cerebro consciente?

¿Qué puede usarse la inteligencia artificial o el aprendizaje profundo en el análisis financiero y la inversión?

¿La IA se volverá más inteligente que los humanos y eventualmente invadirá todo?

¿Es posible construir una inteligencia artificial que aumente su inteligencia, como la máquina Zeno?

¿Es posible ingresar al Aprendizaje Automático profesionalmente sin un título de posgrado en CS, Matemáticas o Estadística?

¿Cómo funciona Siri?

¿Cómo son relevantes los proyectos como Apache Spark para la inteligencia artificial?

¿Podríamos crear robots inteligentes artificiales con órganos impresos en 3D artificiales, que sean súper atractivos y puedan reproducirse con humanos?

¿Cuáles son las mejores escuelas para estudiar visión artificial?