Cómo preprocesar el conjunto de datos de correo electrónico de Enron

Este documento revisa la mayoría de los detalles de lo que necesitaría hacer:

Zhou, Yingjie y col. “Estrategias para limpiar los correos electrónicos de la organización con una aplicación para el conjunto de datos de correo electrónico de Enron”. 5th Conf. de la Asociación Norteamericana de Ciencias Computacionales, Sociales y Organizacionales . 2007. http://www.cs.rpi.edu/~goldberg/…

En resumen, no existe una respuesta simple y automática. La distancia de edición mínima (distancia de Levenshtein) se puede usar para agrupar direcciones similares. Los autores también discuten el uso de reglas personalizadas y anotaciones manuales. Los encabezados X a menudo contienen los nombres de las personas correspondientes a las direcciones de correo electrónico, pero necesitaría hacer alguna coincidencia de patrón (subcadena) para encontrar las direcciones de correo electrónico y los alias correspondientes.

¡Esto parece un problema clásico de clasificación por correo electrónico!

Tendrá que anotar manualmente N correos electrónicos con sus etiquetas (interesante / poco interesante; interno / externo; etc.). en este caso, N será una función de su tolerancia a los falsos positivos / falsos negativos, el número de etiquetas y el tamaño total del conjunto de datos.

luego entrenará a un ingenuo clasificador de bayes (la regresión logística también podría funcionar bien) una vez que haya seleccionado un corpus etiquetado de tamaño suficiente. A continuación, puede clasificar los correos electrónicos restantes.

More Interesting

¿Cómo podría agrupar usuarios similares en el conjunto de datos MovieLens?

¿Cuál es una buena manera de entender la maldición de la alta dimensión en el aprendizaje automático?

¿Cuáles son los beneficios de usar el Descenso de gradiente de mini lotes?

¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?

¿Cuál es el objetivo de la detección de fraude con tarjeta de crédito?

¿Puede la generación de características de fuerza bruta vencer a la ingeniería de características clásica?

Cómo identificar entidades en una consulta de búsqueda en lenguaje natural

¿Cuáles son algunos chatbots de IA de código abierto que usan aprendizaje automático?

¿Cuáles son los pros y los contras comparativos de usar Python, MATLAB / Octave y R para el análisis de datos y el aprendizaje automático?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?

¿Cómo funcionan los bots de chat desde una perspectiva de Machine Learning?

¿Qué métodos de aprendizaje automático simples e intuitivos ofrecen el mayor valor?

¿Qué puedo hacer si soy un experto en aprendizaje automático supervisado?

¿Cómo se utiliza el aprendizaje automático en el análisis de sentimientos?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo si tienes un trabajo diario?