¿Cómo difiere la clasificación de la clasificación? ¿Cómo son similares?

La clasificación se refiere a cómo se agrupan y subagrupan los datos antes de realizar un análisis. Muy a menudo, esto se hace “a mano” en el sentido de que los datos se organizan de acuerdo con algún criterio (a menudo ad hoc). Por ejemplo, uno podría agrupar a los clientes por edad, suponiendo que el comportamiento puede diferir según la edad. Un ejemplo más moderno podría relacionarse con la forma en que construimos un filtro de correo electrónico no deseado: inicialmente podríamos usar cierto criterio (por ejemplo, el nombre del titular de una cuenta mal escrito) para clasificar nuestro caché de correo existente en correo no deseado. (Las estadísticas clásicas nos dicen que esto podría sesgar nuestros resultados finales, en la medida en que creamos un conjunto de datos de entrenamiento que no muestree al azar tal colación. Por lo tanto, ¡será mejor que recordemos hacer eso! Pero de todos modos …)

La clasificación, por otro lado, se ocupa de cómo asignamos una NUEVA observación (no los datos históricos utilizados para desarrollar el modelo) sobre la base de ese conjunto de datos de entrenamiento. Si recibimos un nuevo correo electrónico de un amigo borracho (que escribe mal nuestro nombre), es probable que lo veamos en la carpeta de correo no deseado si así lo indica nuestra recopilación. Luego, desearíamos que el conjunto de datos de capacitación (en aprendizaje supervisado), el que informa el modelo basado en los datos, no en nuestras conjeturas, ex ante, agregue algunas dimensiones adicionales que reducen la posibilidad de que esto suceda (se convierta en spam, por ejemplo, una nueva clasificación de un correo electrónico debe escribir mal el nombre y no utilizar el lenguaje “tipo amigo” que se ve en otros correos electrónicos de amigos.) Ese es el desafío de clasificación: debe conciliar, utilizando datos reales y técnicas estadísticas, por ej. post, qué cotejo puede haberse agrupado descuidadamente ex ante.

Una advertencia para esto es que algunos investigadores están considerando cómo clasificar y clasificar al mismo tiempo. La lógica aquí es que la recopilación a menudo se realiza sobre la base de información limitada (por naturaleza, no vemos el futuro y, para un ejercicio dado, es posible que no tengamos mucho pasado, es decir, el historial de datos). En el caso de realizar ambas cosas al mismo tiempo, la clasificación y la clasificación convergerían de forma iterativa: la validación de clasificación ex post finalmente informaría la clasificación en un algoritmo que podría aburrirse. (Porque sabe a dónde conducirá si se ejecuta el tiempo suficiente).

Además de hacer trampa 🙂 esto podría conducir al problema típico que tenemos entre las personas nuevas en la ciencia de datos pero que aman, con todo su corazón, el Big Data: un ajuste excesivo. ¡Nuestro modelo hace muy bien al predecir que el correo electrónico de un amigo borracho no es spam, pero coloca todos nuestros correos electrónicos en idiomas que no son de amigos de familiares que nos llaman apodos, en correo no deseado! Por lo tanto, estos novatos en el arte olvidan que todos los datos del mundo siguen siendo, por definición, representativos del pasado una vez que los observamos. Para superar eso, necesitamos algo mucho más sofisticado que nuestro aprendizaje basado en máquinas: el cerebro humano.

¿Hueles lo que estoy cocinando? Una de las bellezas de la ciencia de datos descansa en esa fase inicial de cotejo donde el observador o científico busca patrones con su propio cerebro y luego emprende el análisis para probarlos. De lo contrario, no somos héroes!

More Interesting

Cómo implementar clustering basado en densidad

¿Qué es la programación probabilística?

¿Por qué las computadoras no pueden superar de manera confiable a los humanos en reconocimiento facial?

Cómo usar un árbol de decisión para clasificar un conjunto de datos no balanceado

¿Por qué la resolución de las imágenes de entrada en la red convolucional debe tener la misma dimensión (ancho y alto)?

¿Qué sucederá si divido mis datos en 50:50 para capacitación y pruebas?

¿Cuál es un buen lugar para comenzar a trabajar en el uso del aprendizaje automático para el modelado de riesgo de crédito?

¿Cuál es la diferencia entre el análisis de opinión y el análisis de tonalidad?

Cómo obtener todos los problemas de investigación en el aprendizaje por refuerzo

¿Qué cursos debería tomar para especializarse en aprendizaje automático, ciencia de datos e IA como estudiante de MS CS en USC?

Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

¿Será el futuro cercano de la visión por computadora el aprendizaje profundo pesado?

¿Qué profesores / grupos / laboratorios están trabajando en el aprendizaje profundo en el MIT?

¿Cuántas imágenes de entrenamiento deberían usarse para una buena tarea de reconocimiento de género en OpenCV? ¿Hay algún conjunto de datos disponible para esta tarea?