¿Qué hace que un modelo sea interpretable?

La interpretabilidad es realmente una pregunta súper complicada. Y tiene muchos matices. Estoy completamente de acuerdo en que tiene que comenzar con una función que sea significativa. Asumiendo que se cumpla esa condición, echemos un vistazo a los modelos.

En primer lugar, casi por definición, uno realmente no puede entender un buen modelo. Eso suena bastante deprimente, pero aquí está el argumento: si nuestra capacidad mental humana fuera equivalente a la de un buen modelo de aprendizaje automático, podríamos entenderlo. Pero, casi por definición, un modelo que es mejor para la predicción que los humanos (y podemos argumentar si hablo del humano promedio o el que se espera aquí …) no puede ser realmente entendido por un humano (nuevamente elija experto o promedio).

¿Alguna vez ha hablado con un matemático sobre matemáticas o en general con una persona que es mucho más inteligente (me pasa todo el tiempo)? Algunos pueden ser mejores para explicar algo que otros, pero en última instancia, no puedes entender lo que ellos entienden. Y si creo que sí, la explicación seguramente será una simplificación “no del todo cierta”. Lo mismo se aplica en principio a los modelos (para bien o para mal).

Pero eso es absoluto. En el pariente podríamos ser capaces de entender / interpretar algo sobre lo que está sucediendo …

Y aquí es donde llegamos a algunos de los matices: ¿quieres entender el modelo o la predicción? Hay una diferencia notable. Comprender un modelo puede proporcionar algunas ideas sobre el proceso subyacente que está modelando; en el mejor de los casos, incluso puede identificar las causas de ciertos efectos. Pero esto es diferente de tener que explicar una predicción específica. Eso tiende a importar si quieres que un practicante ACTÚE con la predicción única.

A menudo he intercambiado explícitamente el rendimiento y (mi) comprensión. Al trabajar con profesionales de muchos dominios, he elegido en numerosas ocasiones uno de los PEORES modelos posibles: kNN básicamente nunca funciona bien. No puede porque no aprende … No puede decir que una dimensión / característica es más importante que otra (a menos que usted lo diga, por supuesto). Ese es el componente fundamental del aprendizaje: descubrir lo que realmente importa y lo que no. kNN no ‘aprende’, pero es muy fácil de explicar cuando se trata de predicciones: DEBE gustarle “Mrs Congeniality” porque bueno, aquí, vea a todas aquellas personas a las que les gustaron las mismas películas que le gustaron. Y adivina qué, ¡a todos les ENCANTÓ! No puedes discutir hechos … (bueno, podrías preguntar si demonios significa ‘me gustan las mismas películas que a ti’). Pero al menos en la superficie, funciona muy bien con nuestra mente. Así es como aprendemos: he visto una situación similar en el pasado y sé lo que sucedió después. Voila, puedo predecir que cuando toque una llama me lastimaré.

Buena suerte en comparación explicando que te debe gustar esa película porque bueno, la regresión logística te dio un puntaje de probabilidad de 0,9237, que de hecho es una transformación logarítmica de una combinación lineal de un grupo de variables indicadoras para tu gusto por las diferentes películas … Tenga en cuenta que puedes ‘entender’ perfectamente la respuesta con un poco de álgebra de nivel secundario; simplemente no significa nada. Y se pierde la pregunta obvia: ¿por qué en esa ecuación fue -0.348 veces mi calificación para ‘Alien’?

Pero aunque las predicciones de kNN son fáciles de comunicar, la ausencia de un modelo limita, por otro lado, la capacidad de aprender algo fundamental sobre el problema. Sin embargo, hay mucho que aprender y comprender de la regresión logística. Si de hecho estuvieras viendo indicadores binarios de películas que anteriormente le gustaban a una persona, los parámetros podrían ser buenos para identificar esas películas que en general son indicativas de que una persona está interesada en “Mrs. Congenialidad”.

Sin embargo, para este propósito, tiendo a preferir ser mucho más simple: Naive Bayes o alguna de sus variantes. Formalmente, las probabilidades de registro en los modelos logísticos pueden ser confusas, por decir lo menos. Hay colinealidad a considerar que arruinará las cosas y los signos pueden terminar siendo muy engañosos. De hecho, gustarle “Terminator I” puede tener un impacto negativo en la probabilidad de que le guste “Terminator III” dado “Terminator II” incluso si sin “Terminator II” en la mezcla hay una relación positiva. Si bien este matiz ayuda a la regresión logística a hacer mejores predicciones que Naive Bayes, los parámetros a menudo son contra-intuitivos. Entonces, a menudo prefiero calcular las razones entre las probabilidades condicionales para interpretar.

Una última palabra sobre los árboles de decisión. Se proclama que son interpretables. Bueno, tal vez algunos árboles lo son. Pero una vez que tiene suficientes datos, los árboles de mejor rendimiento (incluso podados) tienden a ser tan grandes que ni siquiera puede visualizarlos fácilmente, y mucho menos interpretar lo que está sucediendo. E incluso en un árbol más pequeño: Ciertamente, puede escribir la predicción como regla: debe gustarle la película porque tiene más de 23 años, le gusta un poco de drama, es mujer, etc. Pero como con la logística, realmente no ha explicado nada, no tienes idea de por qué el árbol se ve como se ve. De hecho, los árboles tienen el molesto hábito de cambiar con pequeños cambios de muestra, sin mencionar que debido a la naturaleza heurística del algoritmo, hay muchos árboles diferentes que crean exactamente la misma partición en el espacio.

¿Dónde nos deja esto? En primer lugar, debemos preguntar para qué queremos exactamente la interpretación. Para algunos es un problema de confianza, pero aquí prefiero ir con una evaluación sólida. Nuestro cerebro evolucionado puede ser fácilmente engañado para “entender” un modelo que de hecho está completamente equivocado. Para otros, se trata de una cuestión de transparencia: mi sensación es que para eso podría ser más útil simplemente pinchar el modelo como un cuadro negro variando las entradas para tener una idea de la sensibilidad. Digamos que le pregunto al modelo qué habría predicho si yo fuera 10 años mayor de lo que realmente soy. Esto no es exactamente consistente con las teorías de muestreo IID adecuadas, pero en mi opinión es una prueba justa.

En el último santo grial de usar un modelo para comprender un dominio, si no incluso las relaciones causales entre diferentes variables, se han desarrollado muchos enfoques específicos, pero la mayoría de ellos implican reglas mucho más estrictas sobre la generación de datos, la variabilidad y la observabilidad de todos los aspectos relevantes. información de lo que suele ser el caso de todos modos. De hecho, el campo de los métodos de observación (es decir, TMLE y otros estimadores robustos dobles) para estimar el impacto causal realmente no se preocupan mucho por la interpretabilidad de un modelo, porque la interpretación causal se deriva de las predicciones del modelo, no de su estructura.

Modelos más interpretables …

  1. Tener una historia
  2. Usa pocos predictores
  3. Usa transformaciones interpretables
  4. El público objetivo puede explicar el modelo a otros *
  5. Ven con bonitas visualizaciones
  6. Incluir interpretaciones de los efectos relativos de cada predictor

PROS: lo ayuda a comprender lo que realmente está sucediendo y le da más intuición sobre el tema. Mejor para persuadir o presentar. Menos posibilidades de error humano.

Modelos menos interpretables …

  1. No tengo historia
  2. Usa muchos predictores
  3. Usa transformaciones complejas
  4. El público objetivo no puede explicar el modelo a otros.
  5. Son realmente difíciles de hacer visualizaciones para
  6. Son de naturaleza predictiva sin preocuparse por los efectos relativos de cada predictor

PROS: puede dar las mejores predicciones posibles

Ejemplo

Un modelo de recomendación interpretable de “Personas que quizás conozcas” se clasificaría según:

  1. Amigos en común
  2. Redes mutuas

Quizás basado en una fórmula simple como # de amigos mutuos + 10 * # de redes mutuas. Este modelo es muy simple y fácil de explicar, y probablemente le vaya bien.

Un modelo de recomendación “Personas que quizás conozcas” menos interpretable utilizaría un conjunto de métodos de aprendizaje automático de caja negra sobre las características de los usuarios y modelos avanzados de teoría de redes en el gráfico del usuario.

Ese modelo tal vez haría las mejores recomendaciones posibles, pero es más difícil de entender qué es exactamente lo que impulsa una recomendación, ya que hay tantas cosas en marcha.

Fantástica pregunta

Aquí hay algunos puntos adicionales:

  • Utilice predictores y resultados bien estudiados
  • Utilice predictores y resultados que se correspondan estrechamente con las entidades teóricas que está tratando de estudiar.
  • Utilice medidas de resultado que sean confiables, sensibles y específicas.
  • Use un modelo para el cual las distribuciones estén disponibles para las estimaciones de parámetros
  • Utilice un modelo que se comporte bien cuando las entradas o los parámetros ajustados se alteren ligeramente

“Aumentar {Ejercicio} en cualquier cantidad adicional seguirá mejorando la {Salud} para siempre”.

Elija funciones básicas razonables y utilice el modelo lineal disperso. Eso a menudo funciona.

A menudo ignoramos lo primero, usamos la base lineal predeterminada para terminar con interpretaciones poco realistas como las citadas anteriormente.

Entre las funciones básicas menos utilizadas, las encuentro útiles en mis trabajos:

  • Base logística / tanh (para modelar relaciones de saturación / retorno decrecientes)
  • Base radial definida en latitud-longitud (frente a un nombre de país / ciudad codificado en caliente) para aprender nociones continuas como las regiones de “Asia sudoriental” o “Europa central”
  • Base lineal por partes como max (0, xc), min (0, xc)
  • Uno puede crear cualquier función de base que sea sensible para la hipótesis y la capacidad de interpretación. Lo bueno es que las funciones básicas son cualquier función y ni siquiera necesitan ser continuas. Entonces uno realmente puede pensar en voz alta.

EN MODELOS LINEALES ESPARCIDOS:

  1. Los modelos dispersos también tienen * alguna * garantía teórica de recuperar correctamente las características importantes. Consulte las pruebas y condiciones para esto en el Capítulo 11 de este libro de Hastie, Tibshirani & Wainright https://web.stanford.edu/~hastie
  2. Los modelos dispersos (p. Ej., Regularización L1, Spike-n-slab antes) aseguran que el modelo sea lo suficientemente pequeño. Los modelos lineales producen interpretabilidad global.

Además, ¿quizás valga la pena tener claro por qué necesitamos que un modelo en particular sea interpretable?

  • para explicar (por ejemplo, recomendaciones a los clientes)
  • dibujar interpretaciones causales (muy complicado / arriesgado)
  • para mejorar nuestra propia confianza (más allá de la validación fuera de línea, cuando la validación en línea no es posible)

Tira las cosas correctas.

Cualquier modelo será más simple que la realidad. En estadística, comenzamos con datos. A menudo, muchos datos. Si tiene más de unas pocas líneas de datos o unas pocas variables, los datos en sí no se pueden interpretar. Entonces, tiramos un poco.

¡Incluso con una sola variable! Supongamos que tiene, digamos, la altura de cada persona en los Estados Unidos. 300,000,000 de alturas. Ininterpretable Tenemos que tirar algo de información. ¿Cual? Bueno, una forma es tirar casi toda la información y decir:

La altura se distribuye más o menos normalmente con una media de [math] \ mu [/ math] y un sd de [math] \ sigma [/ math].

Eso es un modelo.

Ahora, para modelos más complejos:

  1. Transforme las variables solo por razones sustantivas, no estadísticas.
  2. Utilice modelos apropiados (posiblemente no sea regresión lineal)
  3. Haga gráficos apropiados, ¡esto lleva tiempo!
  4. Aplique los criterios MAGIC y descarte las variables que fallan; mirar
  1. Magnitud
  2. Articulación
  3. Generalidad
  4. Interés
  5. Credibilidad

Un modelo en sus términos más simples, es una representación de la realidad.

Interpretar significa proporcionar el significado de; explique…

Entonces su modelo o simulación es su salida. Cuanto más pueda aislar el efecto de una variable sobre el impacto general, lo llevará al análisis matemático, que es donde todo revela.

Bien revelado basado en sus suposiciones de todos modos.

ps Recuerde siempre, todos los modelos están equivocados … Algunos son utiles. G. Box

More Interesting

Cómo visualizar características de alto nivel en una red neuronal convolucional profunda

¿Cuáles son las formas en que el científico de datos indio que actualmente trabaja en una empresa de aprendizaje automático con sede en India inmigra a los Estados Unidos?

¿Cuál es el punto de usar el problema dual cuando se ajusta SVM?

Cómo evaluar mi modelo cada época en TensorFlow

¿Cómo implemento un análisis de sentimiento a nivel de documento?

Visión por computadora: ¿cómo sé qué vector de características en un vector combinado es más confiable?

¿Cuál es el significado de los recientes anuncios de aprendizaje automático de código abierto?

Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.

¿Por qué necesitamos barajar entradas para el descenso de gradiente estocástico?

¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.

¿Cuál es la relación entre covarianza cero e independencia? ¿Cuáles son ejemplos en la ciencia de variables que no son independientes pero tienen cero covarianza?

Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?

¿Es cierto que incluso si podemos modelar a partir de la distribución del modelo [matemática] p (x) [/ matemática], el muestreo de importancia óptima no es [matemática] p (x) [/ matemática]?

¿Qué significa 'estimación ML o MAP no captura la incertidumbre de los parámetros'?

¿Cómo determina Quora a quién poner en mi sección "mejorar su alimentación"?