¿Por qué Two Sigma diseñó su concurso de Kaggle para eliminar cualquier beneficio del conocimiento del dominio?

La mayoría de la gente piensa que los patrocinadores crean una competencia con el objetivo de resolver un problema de negocios. Eso es a menudo una mala suposición. La mayoría de las empresas diseñan concursos de ML por dos razones:

  • un truco de relaciones públicas relativamente barato
    Muchas empresas quieren estar asociadas a DS y ML hoy en día. Sin embargo, la mayoría de las empresas no tienen científicos de datos capaces de realizar modelos avanzados. ¿Entonces, Qué haces? Usted patrocina una competencia en Kaggle. Luego afirma que hace un “montón de cosas en DS y ML” (incluyendo “participar activamente en la comunidad de ML”, también conocido como patrocinador de una competencia de Kaggle) y comienza a cosechar los beneficios de ser visto como una empresa con buenos fundamentos de DS. Obviamente, eso no siempre es cierto, ya que patrocinar una competencia no equivale a tener una base en DS en sí misma. Pero el mundo está lleno de personas que no pueden notar la diferencia, incluidos inversores o socios potenciales. Ahora, para responder a su pregunta, el último error que puede cometer en un truco de relaciones públicas es cuando las cosas salen mal y el truco de relaciones públicas se convierte en una pesadilla de relaciones públicas. Eso sucede con más frecuencia de lo que imaginas en Kaggle. Una proporción vergonzosamente alta de competiciones tiene algún tipo de problema, la filtración es peor. Ahora, la fuga es más difícil de detectar cuando todos los datos han sido anonimizados solo porque se pierde el contexto de dónde buscar errores. Por lo tanto, la mayoría de las empresas de hoy difieren de los conjuntos de datos anónimos. Todavía obtienen el truco de relaciones públicas, pero reducen el riesgo de que se encuentren errores.
  • mejorar el modelado en un conjunto de datos existente
    Verá, muchas empresas están contentas con su posición en la curva de madurez de DS y ML. Han logrado un buen ROI en el conjunto de habilidades que poseen y no pueden / no quieren invertir más para adquirir habilidades más avanzadas / diversas sobre una base FTE. Imagínese si tuviera que pagar $ 150k a un FTE porque sus científicos de datos actuales no pueden hacer modelado / ensamblaje loco como la mayoría de los Kagglers. ¿No es mejor pagar una fracción de ese costo por única vez y hacer el trabajo? Ahora, todo buen científico de datos sabe que LA porción más importante de un proyecto de ML es la ingeniería de características. El ingeniero de Featur propiamente dicho, por lo general, implica transformar los datos transaccionales en algo digerible por un algoritmo de ML. Ahí es donde entra en juego el conocimiento del dominio. A falta de compartir todos sus datos transaccionales con Kaggle, es muy poco lo que una competencia de ML puede hacer para agregar realmente valor a un ejercicio de ML a través de la ingeniería de características. El tipo de ingeniería realizada en Kaggle (múltiple, relación, suma, diferencia, transformación de columnas) generalmente proporciona un valor mínimo. Entonces, una vez más, si sabe que el mayor valor que obtendrá es el modelado de formularios, ¿por qué arriesgarse a exponer más información de la que necesita a una comunidad grande?

Como puede ver, la mayoría de las empresas tienen muy pocos incentivos para compartir datos reales con Kagglers. Por lo general, puede obtener el 90% del beneficio previsto simplemente compartiendo un conjunto de datos anónimo.

Quieren que uses una técnica de modelado puro para mejorar su modelo.