¿Cómo difiere la clasificación de la clasificación? ¿Cómo son similares? La tecnología cambia la vida futura

La clasificación se refiere a cómo se agrupan y subagrupan los datos antes de realizar un análisis. Muy a menudo, esto se hace “a mano” en el sentido de que los datos se organizan de acuerdo con algún criterio (a menudo ad hoc). Por ejemplo, uno podría agrupar a los clientes por edad, suponiendo que el comportamiento puede diferir según la edad. Un ejemplo más moderno podría relacionarse con la forma en que construimos un filtro de correo electrónico no deseado: inicialmente podríamos usar cierto criterio (por ejemplo, el nombre del titular de una cuenta mal escrito) para clasificar nuestro caché de correo existente en correo no deseado. (Las estadísticas clásicas nos dicen que esto podría sesgar nuestros resultados finales, en la medida en que creamos un conjunto de datos de entrenamiento que no muestree al azar tal colación. Por lo tanto, ¡será mejor que recordemos hacer eso! Pero de todos modos …)

La clasificación, por otro lado, se ocupa de cómo asignamos una NUEVA observación (no los datos históricos utilizados para desarrollar el modelo) sobre la base de ese conjunto de datos de entrenamiento. Si recibimos un nuevo correo electrónico de un amigo borracho (que escribe mal nuestro nombre), es probable que lo veamos en la carpeta de correo no deseado si así lo indica nuestra recopilación. Luego, desearíamos que el conjunto de datos de capacitación (en aprendizaje supervisado), el que informa el modelo basado en los datos, no en nuestras conjeturas, ex ante, agregue algunas dimensiones adicionales que reducen la posibilidad de que esto suceda (se convierta en spam, por ejemplo, una nueva clasificación de un correo electrónico debe escribir mal el nombre y no utilizar el lenguaje “tipo amigo” que se ve en otros correos electrónicos de amigos.) Ese es el desafío de clasificación: debe conciliar, utilizando datos reales y técnicas estadísticas, por ej. post, qué cotejo puede haberse agrupado descuidadamente ex ante.

Una advertencia para esto es que algunos investigadores están considerando cómo clasificar y clasificar al mismo tiempo. La lógica aquí es que la recopilación a menudo se realiza sobre la base de información limitada (por naturaleza, no vemos el futuro y, para un ejercicio dado, es posible que no tengamos mucho pasado, es decir, el historial de datos). En el caso de realizar ambas cosas al mismo tiempo, la clasificación y la clasificación convergerían de forma iterativa: la validación de clasificación ex post finalmente informaría la clasificación en un algoritmo que podría aburrirse. (Porque sabe a dónde conducirá si se ejecuta el tiempo suficiente).

Además de hacer trampa 🙂 esto podría conducir al problema típico que tenemos entre las personas nuevas en la ciencia de datos pero que aman, con todo su corazón, el Big Data: un ajuste excesivo. ¡Nuestro modelo hace muy bien al predecir que el correo electrónico de un amigo borracho no es spam, pero coloca todos nuestros correos electrónicos en idiomas que no son de amigos de familiares que nos llaman apodos, en correo no deseado! Por lo tanto, estos novatos en el arte olvidan que todos los datos del mundo siguen siendo, por definición, representativos del pasado una vez que los observamos. Para superar eso, necesitamos algo mucho más sofisticado que nuestro aprendizaje basado en máquinas: el cerebro humano.

¿Hueles lo que estoy cocinando? Una de las bellezas de la ciencia de datos descansa en esa fase inicial de cotejo donde el observador o científico busca patrones con su propio cerebro y luego emprende el análisis para probarlos. De lo contrario, no somos héroes!