Inferencia bayesiana: si tuviera que trazar un millar de correos electrónicos basados ​​en “spaminess” utilizando un algoritmo simple de Naive Bayes para establecer la probabilidad de “spaminess” para el eje x, ¿cuál debería ser mi eje y?

Aquí, Naïve Bayes es un algoritmo de clasificación. Está tratando de predecir un valor (probabilidad de ser spam) en términos de otros valores: longitud, hora del día, presencia de algunas palabras clave, etc. El modelo aquí dice que 1 valor (probabilidad de spam) depende de N otros valores.

Por lo tanto, trazar estos correos electrónicos realmente significa trazar puntos en un gráfico dimensional N + 1. ¡Para N> 2 eso es bastante difícil! Aquí parece que quieres trabajar en 2D. Por lo tanto, debe elegir 1 de las características en su modelo de clasificador para representar gráficamente frente a la probabilidad de spam. ¿Cuál elegir? bueno, depende de tu modelo. ¿Cuales son las opciones? Idealmente, elige la característica más explicativa.

¿Está preguntando qué características pueden explicar el correo electrónico no deseado?

Convencionalmente, el eje x es la variable independiente y el eje y es la variable dependiente. La probabilidad de spam debe estar en el eje y.

Bayes ingenuos:

El eje y sería la opción binaria: spam o no spam (0 o 1).
Los n ejes x (plural) serían igualmente binarios (0 o 1) para la presencia o ausencia de cada palabra en un mensaje.

Posibles características que podría considerar:

  • Longitud del mensaje
  • N-gramos
  • Remitente
  • Receptor
  • Día / hora
  • Puntuación

Aquí hay un conjunto de datos de muestra para que juegues:
Conjunto de datos de Spambase

Si desea obtener más información sobre el filtrado de spam en general, aquí hay un informe que yo y mis colegas preparamos para la escuela:
Filtrado de spam móvil – Google Drive

¿Qué estás tratando de decir? ¿Qué encontraste en tu análisis de datos? ¿Cuáles son tus ideas? ¿Hubo algo relevante para tu audiencia? Estas son las preguntas que debe hacer, no (en sus palabras) qué puede hacer para “hacer que el gráfico se vea un poco más interesante”.

Al final, el interés proviene de la historia que estás contando con los datos, no de lo bonita que es la tabla. Un gráfico feo puede restar valor a su mensaje, pero un gráfico bonito no puede compensar la falta de un mensaje.

Por lo tanto, recomendaría centrarse en su análisis y dejar que eso le diga cuáles son los correlatos interesantes con el “spaminess”. Puede ser tan simple como agrupar los datos y mostrar un histograma. Podría ser más complicado mirar el país de origen, el servidor de Internet, la hora del día, etc. Pero no permita que la cola mueva al perro. Primero desarrolle el conocimiento y luego preocúpese sobre cómo trazarlo.

Exploraría categorizar los correos electrónicos por tipo de remitente o alguna otra categoría: longitud, con o sin imágenes, número de enlaces incrustados, etc. Eso lo haría más interesante y más útil 🙂

La hora del día enviada por el usuario o la zona horaria. Puede dar una idea de cuándo los spammers están activos y desde dónde operan.

More Interesting

Cómo ejecutar una sesión de tensorflow en un solo proceso y núcleo

He implementado con éxito el Descenso de gradiente estocástico y el Descenso de gradiente más pronunciado en C ++. ¿Qué puedo hacer a continuación?

¿Cuáles son algunas de las ventajas del aprendizaje por diferencia temporal y cómo se puede mejorar?

¿Cuáles son las implicaciones de privacidad del reconocimiento facial DeepFace de Facebook?

¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?

¿Debería considerarse un experto en aprendizaje automático después de completar la clase de ML del profesor Andrew en Coursera?

¿Cuándo debo usar la similitud de coseno? ¿Se puede usar para agrupar?

Cómo explicar las diferencias entre IBM Watson y Google DeepMind a personas no técnicas

Cómo saber que un modelo de similitud de documentos puede lograr un alto rendimiento / mejor calidad que los otros modelos

Cómo iniciar el aprendizaje automático desde PHP

¿Auto-sklearn es realmente mejor que un clasificador único optimizado por hiperparámetro? ¿Tienes experiencia con esto?

Cómo modelar la siguiente situación probabilística

Quiero comprar una PC de segunda mano decente para comenzar con el aprendizaje profundo comprando una GeForce GTX 1070, ¿qué características me deberían interesar?

¿Cuál es el potencial empresarial del aprendizaje automático / inteligencia artificial?

Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?