Cómo elegir un modelo ML cuando el objetivo es tanto una predicción razonable como una inferencia

Soy el autor de la pregunta, pero no puedo resolver cómo agregar más detalles a mi pregunta, por eso agrego la pregunta en este comentario:

Soy relativamente nuevo en el aprendizaje automático. Me he encontrado con la declaración “ML es para predicción, no para inferencia“, pero esto realmente no se asimiló hasta mi proyecto actual, un problema de modelado de marketing mix.

En un contexto de marketing, estoy tratando de predecir los éxitos (pedidos) que ocurrirán dentro de los próximos 28 días en función de la actividad de marketing realizada hoy. He experimentado con varias configuraciones (algoritmos diferentes, conjuntos de características diferentes) de las cuales un buen puñado proporciona una precisión media / mediana razonable y bastante similar en la validación cruzada.

Sin embargo, para nosotros como empresa, probablemente aún más importante que la precisión es obtener una lectura razonable de la contribución de cada canal de marketing al resultado. Me acerqué a esto usando un análisis de sensibilidad donde configuré todas las características relacionadas con el canal a 0 y mido la diferencia en el resultado previsto

contribución del canal = predicciones donde el canal X está presente – predicciones donde el canal x está ausente

Aunque muchas configuraciones tienen una precisión bastante similar (definitivamente no idéntica), la contribución del canal varía enormemente.

Vea a continuación las predicciones y contribuciones hechas sobre datos realmente invisibles.

Notas:

púrpuras = árboles reforzados

verdes = bosque al azar

El resto es una mezcla de Lasso / ElasticNet / Ridge.

No se incluyen características polinómicas.

Todos entrenados con exactamente los mismos datos: una semilla garantiza que se usen las mismas observaciones de entrenamiento en cada configuración.

Los conjuntos de características se eligieron cuidadosamente utilizando el conocimiento del dominio (es decir, no he tirado el fregadero de la cocina).

Predicciones generales hechas por una variedad de modelos (diferentes algoritmos / combinaciones de conjuntos de características). He incluido todo en esta captura de pantalla para mostrar la varianza.

La línea negra representa los datos reales realizados.

https://www.evernote.com/l/AJI1c…

Contribución del canal X según lo determinado a través del análisis de sensibilidad. Puede ver cuán salvajemente puede variar a veces entre configuraciones.

https://www.evernote.com/l/AJLw2…

Como no hay una verdad fundamental sobre la contribución de cada canal para calibrar, ¿hay alguna guía / mejores prácticas que ayuden a elegir un modelo cuando el objetivo sea una predicción general razonable y una lectura realista sobre la contribución de cada canal ? Me doy cuenta de que esto puede ser una gran pregunta y vuelvo al mantra de “predicción, no de inferencia”, pero para apoyar iniciativas y decisiones en el mundo real de los negocios (no “el ordenador dice que no” tipos de decisiones sino “cambiar X para influir en el resultado” Y “), no veo otra manera de que ML agregue valor, sino cuantificar razonablemente la influencia de X. Y si diferentes modelos tienen puntos de vista tan diferentes del problema y cómo cada característica contribuye a él, no está muy claro cómo usar ML para este tipo de problemas empresariales del mundo real.

Como nota al margen, no veo esto como un problema puramente de ML, ya que esto también podría suceder razonablemente con la regresión lineal a menos que esté equivocado (3 de los 5 algoritmos utilizados son modelos lineales generalizados).

Actualmente me estoy inclinando entre:

– elegir el modelo con la puntuación de validación cruzada más baja en la predicción general. Una regla tan dura se rompe cuando la contribución del canal resultante es muy diferente de lo que los interesados ​​en el negocio consideran razonable y lo que indican otras fuentes de información (en este caso, la atribución multitáctil).

– elegir el modelo que proporciona una puntuación baja de validación cruzada (pero quizás no la más baja) pero utiliza el conjunto de características que los interesados ​​empresariales con conocimiento de dominio experto son el más razonable (por lo que la elección del modelo se utiliza sin ver la contribución del canal por adelantado )

Agradecería algunas reflexiones sobre:

– ¿Mi enfoque es erróneo de alguna manera? Si es así, ¿dónde? ¿Cómo puedo corregirlo? ¿Qué me estoy perdiendo / no obtengo?

– Si mi enfoque es razonable, ¿qué opciones hay para validar y elegir un modelo en el que la precisión de predicción razonable y la contribución de características sean importantes para la toma de decisiones?

Por favor, sé amable, todavía estoy aprendiendo.

Cualquier idea / pregunta es bienvenida!