Por lo general, ¿cuánto tiempo le toma a un científico de datos crear un modelo de análisis predictivo?

En mi experiencia, construir modelos predictivos sólidos lleva más tiempo del que la empresa quisiera, siempre. La lucha es que la mayoría de la gente piensa que la ciencia de datos es básicamente magia moderna. Contratas a un par de científicos de datos (o Analistas / Modeladores de Riesgo de Crédito, como los llamamos en finanzas) y agitan sus varitas mágicas sobre un montón de datos por un rato y viola, un modelo altamente predictivo. Nada mas lejos de la verdad. En nuestro espacio, con los datos que tenemos disponibles, construir un modelo decente parece requerir al menos 4 meses. E incluso ese tiempo significa que no podemos considerar algunas opciones, probar algunas cosas, optimizar algunas cosas, etc. Solo se puede hacer mucho para obtener mejores resultados, pero a menudo las partes interesadas le dirán que preferirían tener un modelo menos predictivo más rápido, que un modelo más predictivo más lento.

Estoy de acuerdo con los otros respondedores que indican que el tiempo para construir un modelo puede variar ampliamente, debido a la habilidad de quienes construyen los modelos, a la cantidad y calidad de los datos disponibles, a la industria, etc. Por lo tanto, decir que lleva 4 meses donde trabajo y en la industria donde trabajo, probablemente no signifique mucho para otras empresas e industrias. En otros lugares puede encontrar que construir modelos (debido a diferentes desafíos, limitaciones y expectativas) lleva mucho más tiempo (¿años?) O mucho más corto (pero aún definitivamente del orden de los meses).

La única forma de acelerar el desarrollo del modelo es tener un conocimiento excepcional del dominio comercial y los datos involucrados, tener datos limpios y bien entendidos, y conocer bien sus herramientas y teoría. En mi experiencia hay complicaciones frecuentes: muy pocos datos, demasiados datos, demasiados datos sucios, datos poco entendidos, muy poca experiencia con herramientas, muy poca experiencia con teoría relevante, poco conocimiento del dominio empresarial …

He estado construyendo un modelo de valor de por vida para mi empresa. Voy a delinear mis pasos.

  1. Proceso y canalización de datos: hice trampa un poco al fijarme en nuestras métricas actuales en lugar de construir todo yo mismo desde cero. Esto redujo la ingeniería por mucho tiempo, pero no la eliminó. El inconveniente era que los datos no eran exactamente como quería, por lo que tenía que ser flexible en mi elección de modelado.
  2. Preprocesamiento: en mi industria, tenemos una visión muy centrada en la cohorte del universo, porque la generalización de los ingresos depende en gran medida de la edad de una persona. Esto informa el modelado. Con frecuencia giro mi cerebro en un montón porque simultáneamente estoy considerando el tiempo real y el tiempo del jugador.
  3. Modelado: comencé con un modelo de serie temporal de ciertos grupos de datos de alto nivel. No hice ningún modelo de series de tiempo sofisticado ya que soy bastante débil allí, y también porque por razones específicas de dominio, habría tenido que ajustar mi modelo considerablemente para tener en cuenta la heterocedasticidad.
  4. Validación: la ruina de mi existencia, porque me resulta increíblemente lento construir un sistema de validación para datos de series temporales y al mismo tiempo mantener todo limpio. Mi solución general es mantener limpio el proceso primario mientras tolero la fealdad en el código de validación. 🙁
  5. Quería reducir mis estimaciones a subconjuntos más granulares de la población, por lo que básicamente hice mi propia versión (mierda) de contracción bayesiana, usando una formulación centrada en el dominio (cohorte).
  6. Proceso mis datos localmente mientras estoy en el prototipo, pero tengo que alojar mi script en algún lugar para cronometrarlo. Este paso no es tan malo.
  7. Después de procesar los datos donde sea, deben volver a colocarse en un lugar accesible para todos. Este será un script sql.
  8. Diseñar algún tipo de interfaz para que las personas realmente vean los datos. Utilizamos spotfire, por lo que no hay mucha codificación para hacer aquí. Pero el diseño es algo en lo que trato de pensar mucho.

He pasado alrededor de 2 meses haciendo esto, y la mayoría está hecho, pero todavía estoy solucionando errores y validando la parte de contracción de mi modelo, para que me sienta cómodo ajustando esta parte. La validación es la peor parte absoluta y me lleva más tiempo con esta complicada serie de datos.

Para el registro, trabajo en una empresa de juegos gratuitos, y esto hace que la generación de ingresos sea extremadamente ruidosa. El error relativo varía del 10-30 (eek) por ciento, para el modelo tal como está actualmente. La mayor parte de esto es ruido inherente, o eso me digo. Al mismo tiempo, el error relativo es un poco engañoso ya que cuanto más agregue sus datos, menor será su error.

No hay un período de tiempo establecido para desarrollar un modelo predictivo. El período de tiempo está determinado por la tasa de adquisición de datos y la naturaleza de los datos que se miden. Por ejemplo, LTV para un modelo de precios basado en suscripción evolucionará a medida que los suscriptores salgan de la alta rotación de los primeros meses. Es posible que tenga un modelo razonable de rotación y retención después de solo unos meses, aunque con el tiempo será más preciso. Las empresas con ventas recurrentes anuales obviamente no tendrán datos de confirmación durante uno o dos años, y la precisión del modelo dependerá del tamaño del conjunto de datos y la variabilidad de los datos.

Dicho esto, como ejemplo de precisión, creamos un modelo basado en datos de un año que predijeron un valor de venta ascendente de 12-24 meses a partir de un programa de marketing basado en correo electrónico con una matriz de fuentes de marketing iniciales y grupos de interés en el datos. Pudimos predecir ingresos de +/- 5% en comparación con los datos reales medidos en los siguientes dos años. Eso no significa que siempre funcione de esa manera, pero lo hizo en ese caso.

Este gráfico muestra el tiempo que toma diferentes aspectos de la creación de un modelo:

Como puede observar, solo el 16% del tiempo se usa para construir conjuntos de entrenamiento, extraer datos para patrones y algoritmos de refinación. Aproximadamente el 80% del tiempo se dedica a recopilar, limpiar y hacer que el conjunto de datos sea adecuado para crear modelos predictivos.

Fuente de la imagen: Forbes

Como otros han dicho, no hay un marco de tiempo típico. He construido prototipos en horas y modelos completos en semanas. No creo que haya usado más de un mes para el modelado predictivo, pero uno de mis analistas ha estado modificando y mejorando un modelo durante meses. Incluso si no hay un marco de tiempo establecido, hay variables que hacen que ese marco de tiempo sea más grande o más pequeño.

La primera y más obvia es si conoce bien el modelo. Esto significa tener conocimiento de los datos, los algoritmos de la tarea en particular en cuestión, la pregunta e incluso el negocio. Soy muy bueno con el análisis de juegos, por ejemplo, lo que significa LTV, retención, abandono, etc.

El segundo es el contexto de aplicación del modelo. Como ejemplo, no tengo que preocuparme por las canalizaciones de datos. Tengo el conocimiento y puedo interactuar fácilmente con los ingenieros de datos, pero sinceramente, hacen que mi trabajo sea mucho más fácil con solo tener una infraestructura bien construida y mantenida en la que pueda trabajar. Sin embargo, la forma “más pura” de científicos de datos es lo que yo llamo científicos de datos de extremo a extremo. Es perfectamente normal para ellos construir canalizaciones de datos desde el producto bruto hasta el producto final. Si piensas que mi caso está en el medio, hay casos opuestos de los científicos de datos de extremo a extremo que en su mayor parte solo construyen prototipos locales, dejando la implementación de producción para otros equipos.

Por último, pero no menos importante, la optimización. Algunas veces tiene que optimizar para adaptarse, otras para predecir, otras por alguna razón comercial y sea cual sea la razón, se encontrará tratando de no reducir la calidad y la solidez del modelo. Lo que importa es que este proceso de optimización del modelo es mucho más que predecir “bien” y predecir “bien” es en sí mismo algo muy confuso que cambia de un problema a otro.

Estoy seguro de que hay muchas otras cosas, pero mi experiencia tiene un gran impacto.

Crear una herramienta de análisis predictivo puede llevar mucho tiempo y puede no ser el método más eficiente. De hecho, la construcción puede ser valiosa, pero existen muchas ventajas de comprar para obtener más precisión y eficiencia. Estaba planeando construir, pero las ventajas de comprar superaron las desventajas. Esta publicación de blog fue la razón por la que cambié de opinión, ilustra el dilema de construir frente a comprar. Resultado para tu búsqueda – CoolaData

Según mi período de tiempo de vista requerido para diseñar un modelo analítico, no es una preocupación importante. Su efectividad es ciertamente una preocupación importante. No soy analista, pero compré un modelo analítico predictivo de Aureus Analytics: página en aureusanalytics.com para mi negocio y me ayudó mucho debido a las profundas ideas.