¿Cuáles son los mejores clasificadores de código abierto para detectar spam, basura y blasfemias en el contenido generado por el usuario, como los tweets?

Desafortunadamente, el desafío para identificar spam, basura y blasfemias no está tanto en el clasificador como en los datos y la configuración sobre la que actúa.

Por ejemplo, SpamAssassin, mencionado anteriormente, es un motor de reglas muy poderoso para el filtrado de correo electrónico, pero está optimizado en gran medida para el correo electrónico, y ajustarlo para manejar tweets requeriría una ingeniería exhaustiva de características específicas del dominio (por ejemplo, qué es el mapeo entre un SMTP encabezado y un tweet? ¿Cuál de los feeds de datos que utiliza SpamAssassin pertenecen al contenido basado en la web?)

También etiquetó la pregunta con Machine Learning. Aquí, nuevamente, el desafío es menos en los algoritmos de clasificación dentro de la máquina, y más en los datos de entrenamiento proporcionados a la máquina. Construir corpus de entrenamiento exhaustivo para el antispam puede ser … agotador … y es una tarea a la que debe volver continuamente (como “Viagra” se transforma en “V1agra” se transforma en “V.1.agra”, su máquina debe ser continuamente reentrenada.

(Divulgación: soy el fundador de www.impermium.com, una empresa que ofrece servicios antispam para la Web social para que no tenga que luchar con los motores de reglas de código abierto 🙂

Esto no parece un problema de clasificación, ya que parece que no tiene un conjunto de datos etiquetado de spam y no spam en el contenido generado por el usuario.

Está buscando un proceso de limpieza de datos que pueda eliminar las publicaciones con correo no deseado, basura o blasfemias. Tal técnica usaría principalmente un

La clasificación consiste en aprender de un conjunto de datos etiquetado y luego poder clasificar nuevos datos. Un ejemplo de clasificación en un contexto similar es cómo los proveedores de correo electrónico aprenden de los usuarios que clasifican los puntos de datos como spam. Y luego, cuando tienen un gran conjunto de correos electrónicos marcados como spam y no spam, tienen una buena precisión al marcar cualquier correo nuevo como spam.

http://spamassassin.apache.org/ es un código abierto de filtrado de spam apache