Tengo que admitir que nunca había oído hablar del concepto de “combinación de datos” antes de leer la referencia. Después de investigar un poco, estoy contemplando si es simplemente un argumento de venta para alguna ‘nueva’ capacidad de una solución de Big Data o un intento algo general para cubrir una amplia clase de construcción de características y ‘anotación’ que se basan en alguna forma de ‘unión difusa’ donde no tiene el lujo de una clave compartida. Dando a esto el beneficio de la duda, iré con el segundo. Hay algunas maneras de considerar la necesidad de agregar datos (difusos o no):
1) En el nivel más abstracto, es una forma de construcción de características. Según mi experiencia, las características a menudo triunfan sobre el algoritmo, por lo que soy un gran fanático de la construcción de características. Y si está haciendo el modelado predictivo correctamente, el modelo le dirá si su combinación funcionó o no. Por lo tanto, realmente tiene poco que perder y puede probar todo tipo de mezclas incluso con la misma información. Esto tiende a ser la parte más lenta (y también divertida en mi caso) del modelado, por lo que tener algunas herramientas que simplifiquen esto y, en particular, permitan coincidencias difusas y agregación automática sería genial …
2) Permítanme ponerme el sombrero de mi filósofo: todo lo que hacen con la mezcla es navegar por el equilibrio de sesgo-varianza en el contexto de las limitaciones de la expresividad de su modelo actual. Muy a menudo, la necesidad de combinar surge alrededor de identificadores de eventos / entidades. Digamos que tiene un campo que es el código postal (o nombre). Es posible que desee combinar algunas características reales de los códigos postales en un momento determinado, por lo que en realidad solo está tratando con cierta identidad de una combinación de tiempo y espacio. Puede agregar algunos datos del censo basados en ZIP y fecha y esperar que esto mejore su modelo. Pero en cierto sentido teórico de la información, de hecho no agregó ningún dato. El ZIP y la fecha contienen implícitamente todo lo que necesita saber (piense en ello como un factor). En un mundo de datos infinitos, no es necesario que traiga esas otras cosas porque un aproximador de función universal puede aprender todo lo que puede traer directamente de la combinación de fecha ZIP.
- ¿Cuáles son los problemas con big data?
- ¿Cómo es IIT Ropar para el aprendizaje automático o la ciencia de datos?
- ¿Cómo es la práctica en Facebook como científico de datos?
- ¿Existe un papel significativo para el big data en la economía?
- ¿Cómo se ve el currículum de análisis de datos experimentados con 3 años?
Por supuesto, esto solo funciona en teoría. En la práctica, es importante la frecuencia con la que el ZIP y la fecha aparecen en su conjunto de entrenamiento y si su modelo puede manejar naturalmente los efectos de interacción, que por ejemplo los modelos lineales no pueden, a menos que los agregue. Para aprender algo de él, tiene que aparecer varias veces. Si no es así, la combinación de información de facto reemplaza el espacio identificador de súper alta dimensión (combinación de fecha y fecha) con un espacio común mucho más bajo de digamos n características (ingreso promedio, etc.). Entonces, en términos de variación de sesgo, solo logró una gran reducción de variación, pero también puede haber perdido toda la información relevante (gran aumento de sesgo): digamos alguna característica oculta como la ocurrencia de una catástrofe natural que no estaba disponible en la mezcla pero ese ZIP y fecha como una combinación fue un buen proxy para …
En términos de experiencia relacionada, de hecho, pasé unos buenos 3 años (mi disertación) en algo muy relacionado. No se trataba tanto de la parte ‘difusa’ sino más bien de la cuestión práctica de cómo crear automáticamente características en bases de datos multirrelacionales. Supuse que se sabía que la estructura de enlace (claves) se unía entre tablas. Publicamos este trabajo y algunas reflexiones conceptuales sobre el papel de los identificadores en el Machine Learning Journal: agregación basada en la distribución para el aprendizaje relacional con atributos identificadores
Y luego pasé unos buenos 3 años en IBM discutiendo el problema de anotación de datos para nombres de compañías. Tuvimos que construir un modelo de propensión para las cuentas de ventas de IBM. Si bien todo tipo de información interna estaba disponible para una cuenta, no teníamos un conjunto externo de características. Cada cuenta estaba vinculada de alguna manera a una empresa real. Sin embargo, ese partido fue borroso en el mejor de los casos. Lo que necesitábamos para un modelo era información sobre la industria, el tamaño, los ingresos, etc. Por lo tanto, en este caso, cada “identificador” es único en mi conjunto de datos y esa buena teoría no me da nada. La coincidencia entre las cuentas y las entidades Dun & Bradstreet fue una especie de coincidencia de cadenas n-m. Durante un tiempo utilizamos su solución de coincidencia y finalmente la reemplazamos por la nuestra (nos llevó unos buenos 2 años).
Al final nos equivocamos acerca de la coincidencia para aproximadamente el 15% de las cuentas. Sin embargo, el proyecto ganó una buena cantidad de premios internos y externos (Introducción). También publicamos gran parte de la metodología en el lado del modelado, pero, por supuesto, la parte de coincidencia difícil no era lo suficientemente científica …