¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?

En Riskified usamos PMML para nuestro modelo predictivo principalmente porque queremos explorar y experimentar en R pero queremos ejecutar el entorno en tiempo real con una pila más adecuada como Java.
PMML demostró ser excelente para ese requisito, y nos permite ser muy rápidos en la investigación pero muy robustos en el entorno en vivo.
Los modelos que utilizamos en PMML son “bosque aleatorio” que funcionan muy bien tanto en R’s Rattle como en Java y están haciendo un gran trabajo para nuestro tipo de problema, es decir, detección de fraude.
Para concluir, si el tipo de modelo que desea ejecutar ya está implementado en la suite PMML y los lenguajes compatibles (R, Java y Python) son parte de sus armas de elección, creo que es una gran solución para la gestión del ciclo de vida de los modelos, ya que así como una excelente manera de tender un puente entre la investigación y la implementación en vivo.

  1. En BigML, creemos que es lo suficientemente flexible como para representar la mayoría de los modelos del mundo real.
  2. Puede encontrar una lista de herramientas y servicios que admiten PMML aquí: Data Mining Group – PMML Powered.
  3. Weka y Knime que son de código abierto son compatibles con PMML.
  4. En BigML creamos modelos predictivos para nuestros clientes utilizando Clojure y utilizamos JSON PML (una versión ligera de PMML) para almacenarlos. Luego, pusimos los modelos a disposición en varios lenguajes de programación (Python, Ruby, R, etc.) y también en PMML. Básicamente, puedes construirlos una vez y ejecutarlos en cualquier lugar. Presione el modelo accionable de descarga de este modelo. Consulte este modelo predictivo “Resultados del proyecto Kickstarter” para tener una idea.
  5. Solo vemos ventajas produciéndolo o consumiéndolo. Sin embargo, está claro que cuantos más productores PMML y más consumidores PMML existan, mayor será el valor real.

En teoría, un formato de intercambio de modelos de estilo PMML puede ser una gran ayuda para unir la ciencia de datos (construcción de modelos) y la ingeniería de datos (usarlo en una tubería de predicción). En la práctica, al menos en mi experimentación específica con PMML como un puente entre scikit-learn y decir MLLib, tiene mucho camino por recorrer.

En el extremo de la exportación, las exportaciones de PMML tienden a tener agujeros en su implementación (por ejemplo, Generar PMML a partir de modelos sklearn con GridSearch en Python). Además, los complementos de PMML en muchas plataformas son asimétricos (es decir, exportan PMML, pero no lo importan). Dicho todo esto, me gustaría mucho ver un único formato de intercambio ML como PMML.

Los estándares juegan un papel central en la creación de un ecosistema que respalde las necesidades actuales y futuras para el uso amplio y en tiempo real de análisis predictivos en una era de Big Data. Hace solo unos años, era común desarrollar un modelo analítico predictivo utilizando una única herramienta patentada contra una muestra de datos estructurados. Esto se aplicaría en lote, almacenando puntajes para uso futuro en una base de datos o almacén de datos. Recientemente este modelo ha sido interrumpido. Hay un movimiento hacia la puntuación en tiempo real, calculando el valor de los modelos analíticos predictivos cuando se necesitan en lugar de buscarlos en una base de datos. Al mismo tiempo, la variedad de plataformas de ejecución de modelos se ha expandido con la ejecución en la base de datos, columnas y bases de datos de memoria, así como MapReduce-base

Hoy, Predictive Analytics se está volviendo cada vez más convencional con la mayoría de las empresas, la mayoría de las organizaciones, lo que lo hace parte de su estrategia general. Ya sea que se centre en mejorar el compromiso del cliente, gestionar el riesgo, reducir el fraude u optimizar la cadena de suministro, el análisis predictivo está convirtiendo los datos de las organizaciones en información útil y procesable. Los resultados de una encuesta reciente (Taylor, 2013) se muestran en la Figura 1. Dos tercios de los encuestados han visto un impacto real y positivo de la analítica predictiva, mientras que el 43% de los encuestados informan un impacto significativo o transformador.

Encontré un buen artículo de agosto de 2011 que evalúa los esfuerzos para lograr la conformidad con el estándar PMML: http://users.cis.fiu.edu/~lzhen0