Desafortunadamente, el desafío para identificar spam, basura y blasfemias no está tanto en el clasificador como en los datos y la configuración sobre la que actúa.
Por ejemplo, SpamAssassin, mencionado anteriormente, es un motor de reglas muy poderoso para el filtrado de correo electrónico, pero está optimizado en gran medida para el correo electrónico, y ajustarlo para manejar tweets requeriría una ingeniería exhaustiva de características específicas del dominio (por ejemplo, qué es el mapeo entre un SMTP encabezado y un tweet? ¿Cuál de los feeds de datos que utiliza SpamAssassin pertenecen al contenido basado en la web?)
También etiquetó la pregunta con Machine Learning. Aquí, nuevamente, el desafío es menos en los algoritmos de clasificación dentro de la máquina, y más en los datos de entrenamiento proporcionados a la máquina. Construir corpus de entrenamiento exhaustivo para el antispam puede ser … agotador … y es una tarea a la que debe volver continuamente (como “Viagra” se transforma en “V1agra” se transforma en “V.1.agra”, su máquina debe ser continuamente reentrenada.
- ¿Cuáles son los algoritmos estándar para la inferencia en redes bayesianas?
- ¿Cuáles son las lecciones del desafío del Premio Netflix?
- Cómo construir un modelo de propensión a comprar para el marketing de bases de datos utilizando el aprendizaje automático en un entorno financiero
- ¿Qué debo hacer cuando tengo una cita con las características NULL?
- ¿Debería estudiar aprendizaje automático, aprendizaje profundo o aprendizaje de refuerzo?
(Divulgación: soy el fundador de www.impermium.com, una empresa que ofrece servicios antispam para la Web social para que no tenga que luchar con los motores de reglas de código abierto 🙂