¿Cuáles son algunos buenos temas de investigación en minería de datos?

Como esta pregunta se hace tantas veces, déjenme discutir en detalle.

Según mi opinión, la minería de datos es un campo que se aplica en todos los dominios hoy en día.

  • Procesamiento de la señal
  • Análisis de redes sociales
  • Ciencia médica
  • Dominio del gobierno
  • Análisis financiero (predicción de stock, predicción de comportamiento del cliente, etc.)

en todos los dominios, las personas usan la minería de datos según sus requisitos. Entonces, según el requisito de dominio, puede haber diferentes temas de investigación.

  1. Resumen de texto: a medida que aumenta el problema de la sobrecarga de información y aumenta la cantidad de datos, también aumenta el interés en el resumen automático. Muchas aplicaciones orientadas a las noticias dependen del resumen de texto. Este es un buen documento para ello Página en stanford.edu
  2. Recomendación de título, modelado de temas : para predecir el título de artículos, sitios web, etc. Necesita crear un sistema basado en el aprendizaje utilizando algoritmos de clasificación. En el aprendizaje automático y el procesamiento del lenguaje natural, un modelo de tema es un tipo de modelo estadístico para descubrir los “temas” abstractos que ocurren en una colección de documentos.
  3. Sistema de corrección semántica : poco complejo pero interesante. El texto generalmente reintentado se enfrenta a un error semántico, por lo tanto, conduce a un resultado incorrecto. Aplicar esto como preprocesamiento conduce a mejores resultados.
  4. Sistema de corrección sintáctica : muy necesario hoy en día. Los que no hablan inglés crean mucho error sintáctico. También se puede usar como trabajo de preprocesamiento en muchos proyectos. Por lo tanto, su algoritmo debería detectar automáticamente dichos errores y sugerir una gramática correcta.
  5. Motor de búsqueda de Wikipedia : datos de Wikipedia disponibles como archivo de volcado. Verifique dbpedia para referencia. Aplique técnicas de indexación y cree un pequeño SE para páginas wiki. Como wikipedia ya proporciona esta funcionalidad, pero puede trabajar en una mejor experiencia de usuario, optimización de resultados.
  6. Clasificador de tweets de Twitter : bastante fácil e interesante también. Creación de un sistema de aprendizaje para varias categorías Deportes, entretenimiento, negocios, política, hollywood, etc. Capacite al clasificador (ingenuo bayes, SVM) y prediga la categoría para los tweets entrantes.
  7. Análisis de sentimientos para twitter, revisión, conversaciones : hay pocos paquetes disponibles en R que pueden ayudar a realizar este trabajo. Es necesario agregar algunas características adicionales además de eso para que sea más intuitivo. Nltk, Stanford, word2vect son algo buenas herramientas de código abierto para lo mismo.
  8. Detección de correo no deseado : nuevamente aprendizaje del sistema de clasificación basado. Capacite al clasificador utilizando el correo no deseado preseleccionado por los usuarios que podría clasificar los nuevos correos próximos. Si los usos marcan el correo nuevo como correo no deseado, vuelva a entrenar (puede ser otra opción mejor).
  9. Detección de sarcasmos : puede ser muy interesante. En el análisis de sentimientos identificamos el sentimiento de los usuarios con respecto a algunas cosas, aquí identificamos el sarcasmo expresado por los usuarios. Consulte la página en psu.edu – Detección de sarcasmo en twitter
  10. Clasificación de usuarios falsos, clasificación de publicaciones no sinceras: los proveedores de servicios de correo como Gmail, Yahoo, etc. trabajan mucho para mantener a sus usuarios alejados del correo no deseado y los usuarios de correo no deseado. También en los foros de discusión en línea, el administrador está muy dispuesto a eliminar automáticamente las publicaciones irrelevantes y falsas.
  11. Detección de fraude: algunos usuarios en las redes sociales crean intencionalmente exageraciones sobre productos particulares, existencias para dejar que funcionen. Identificar a estos usuarios y actividades fraudulentas también es una de las tareas desafiantes.
  12. Análisis de mercado: CocaCola contrata continuamente a compañías de terceros para procesar datos relacionados con ellas desde Twitter y Facebook. Lanzan campañas creativas y quieren monitorear constantemente si la audiencia está aceptando la campaña. Muchas compañías intentan comprender las fallas en sus procesos tratando de entender lo que sus usuarios / clientes dicen sobre sus productos o servicios. Los analistas están automatizando su trabajo mediante la creación de herramientas que leen las noticias y tratan de predecir las situaciones del mercado para el día siguiente. El Análisis de sentimientos sigue siendo una de las aplicaciones más populares (y la suya realmente se ha dedicado a la investigación sobre el Análisis de sentimientos durante dos años). Puede leer sobre Análisis de riesgos y Análisis predictivo para conocer las últimas concentraciones y avances en estas áreas.
  13. Robótica: los robots ya no son simplemente juguetes preprogramados. Tratan de aprender cómo hacer su trabajo a partir de sus experiencias anteriores. Algoritmos genéticos para el aprendizaje por refuerzo, hay muchas áreas de la informática que intentan resolver estos problemas desde múltiples perspectivas. Nos encantaría sentarnos en el automóvil que conduce solo si demuestra que puede pensar sobre la marcha. Queremos que los misiles lleguen al objetivo a pesar de estar en una tierra desconocida con un clima totalmente diferente y velocidades de viento inesperadamente altas.
  14. Fabricación, automoción, aviación: la concentración se centra en mejorar los procesos de fabricación para optimizar el tiempo y el material, y garantizar una producción de alta calidad en la línea de montaje. Esto se extiende más allá de la fábrica y en la carretera cuando los sistemas de frenado modernos saben cuánta presión se debe aplicar en cada neumático para detener su automóvil de la manera más cómoda. La industria del aire y el espacio está trabajando en el desarrollo de modelos de rendimiento de aeronaves.

Los temas 10 a 14 están influenciados por Aditya Joshi y su respuesta ¿Qué tipo de proyectos realizan los científicos de datos?

Sugeriría el análisis de redes sociales en general y el análisis de sentimientos en particular como grandes temas de investigación. Desde el advenimiento de las redes sociales, las corporaciones han estado tratando de enfocarse mejor en su base de clientes potenciales con anuncios dirigidos. El éxito de una empresa de marketing en línea ya no se mide solo en términos de tasas de clics, sino que está respaldado por datos de tendencias y sentimientos de las redes sociales. Desde esta perspectiva de marketing, hay mucho esfuerzo, financiación y apoyo en esta área de investigación.


El Análisis de sentimientos en las redes sociales, a veces llamado Análisis de opinión social, se ha investigado lo suficientemente bien como para que pueda comenzar bien. Sin embargo, el campo aún no está maduro y los algoritmos prácticos aún no se han implementado por completo. El único algoritmo que creo que funciona satisfactoriamente para la mayoría de los casos es el Stanford NLP Deeply Moving: Deep Learning for Sentiment Analysis. Si desea una discusión interesante sobre las implicaciones de un algoritmo de análisis de sentimientos. Echa un vistazo a la sección de comentarios en el enlace de arriba.

Como alguien más ya ha sugerido, eche un vistazo a las actas de conferencias de las principales conferencias para conocer el estado del arte. También es posible que desee echar un vistazo a una combinación de minería de datos y otro campo de interés como:

  • Patrones de análisis de datos para ingeniería de software
  • Minería de datos para procesamiento de señales
  • Ingeniería de datos para la nube.

¡Todo lo mejor!

A2A. No estoy tan familiarizado con la investigación actual en minería de datos, pero sé que la gran conferencia se lleva a cabo a través de SIGKDD. Mirar las actas de la conferencia de los últimos años es una excelente manera de ver cuáles son los temas actuales y quién publica sobre ellos. Luego puede comenzar a mirar las citas y otros documentos de las mismas personas.