¿Cuáles son los mejores clasificadores de código abierto para detectar spam, basura y blasfemias en el contenido generado por el usuario, como los tweets?

Desafortunadamente, el desafío para identificar spam, basura y blasfemias no está tanto en el clasificador como en los datos y la configuración sobre la que actúa.

Por ejemplo, SpamAssassin, mencionado anteriormente, es un motor de reglas muy poderoso para el filtrado de correo electrónico, pero está optimizado en gran medida para el correo electrónico, y ajustarlo para manejar tweets requeriría una ingeniería exhaustiva de características específicas del dominio (por ejemplo, qué es el mapeo entre un SMTP encabezado y un tweet? ¿Cuál de los feeds de datos que utiliza SpamAssassin pertenecen al contenido basado en la web?)

También etiquetó la pregunta con Machine Learning. Aquí, nuevamente, el desafío es menos en los algoritmos de clasificación dentro de la máquina, y más en los datos de entrenamiento proporcionados a la máquina. Construir corpus de entrenamiento exhaustivo para el antispam puede ser … agotador … y es una tarea a la que debe volver continuamente (como “Viagra” se transforma en “V1agra” se transforma en “V.1.agra”, su máquina debe ser continuamente reentrenada.

(Divulgación: soy el fundador de www.impermium.com, una empresa que ofrece servicios antispam para la Web social para que no tenga que luchar con los motores de reglas de código abierto 🙂

Aprendizaje automáticoClasificación (aprendizaje automático)

Related Content

¿Cuál es la relación entre el análisis de sentimientos, el procesamiento del lenguaje natural y el aprendizaje automático?

¿Se puede utilizar la investigación en aprendizaje automático para complementar la epistemología?

¿Cómo se almacenan la mayoría de los conjuntos de datos para el aprendizaje automático a gran escala?

¿Cómo funcionan los aceleradores de procesador?

¿Por qué ha sido tan efectivo OpenAI?

¿Cuáles son las lecciones del desafío del Premio Netflix?

¿Cuáles son los trabajos de Google Research más interesantes?

Esto no parece un problema de clasificación, ya que parece que no tiene un conjunto de datos etiquetado de spam y no spam en el contenido generado por el usuario.

Está buscando un proceso de limpieza de datos que pueda eliminar las publicaciones con correo no deseado, basura o blasfemias. Tal técnica usaría principalmente un

La clasificación consiste en aprender de un conjunto de datos etiquetado y luego poder clasificar nuevos datos. Un ejemplo de clasificación en un contexto similar es cómo los proveedores de correo electrónico aprenden de los usuarios que clasifican los puntos de datos como spam. Y luego, cuando tienen un gran conjunto de correos electrónicos marcados como spam y no spam, tienen una buena precisión al marcar cualquier correo nuevo como spam.

Mark Risher

http://spamassassin.apache.org/ es un código abierto de filtrado de spam apache

Mark Risher

More Interesting

Cómo comparar el rendimiento de mis modelos de Deep Learning con puntos de referencia estándar cuando se utiliza el aumento de conjunto de datos

¿El filtrado colaborativo se considera aprendizaje automático?

¿Qué áreas específicas de las matemáticas son útiles en neurociencia?

Cómo implementar SVM yo mismo

¿Cómo puede ser útil el aprendizaje automático para el diseño de juegos?

¿Qué temas y partes del libro 'Inteligencia artificial: un enfoque moderno', debo leer para aprender el aprendizaje automático y la PNL? ¿Necesito leer todo el libro?

¿Cuáles son las principales empresas que trabajan en Deep Reinforcement Learning aparte de DeepMind y OpenAI?

¿Qué paradigma / algoritmo de aprendizaje automático puedo usar para seleccionar de un grupo de posibles opciones?

¿Cuál es el mejor algoritmo para la extracción de características en imágenes?

¿Cuál es la explicación de la fórmula de compensación de Bias Variance?

¿Cuál es la diferencia entre tagger, chunker y NER?

¿Es malo tener una gran cantidad de funciones en Machine Learning?

¿El teorema de no almuerzo gratis no es una contradicción al descubrimiento del algoritmo maestro?

¿Cuáles son los pasos necesarios para el análisis de sentimientos de las redes sociales?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

Web Analytics