¿Cuáles son algunos buenos temas de investigación en minería de datos? La tecnología cambia la vida futura

Como esta pregunta se hace tantas veces, déjenme discutir en detalle.

Según mi opinión, la minería de datos es un campo que se aplica en todos los dominios hoy en día.

Procesamiento de la señal
Análisis de redes sociales
Ciencia médica
Dominio del gobierno
Análisis financiero (predicción de stock, predicción de comportamiento del cliente, etc.)

en todos los dominios, las personas usan la minería de datos según sus requisitos. Entonces, según el requisito de dominio, puede haber diferentes temas de investigación.

Resumen de texto: a medida que aumenta el problema de la sobrecarga de información y aumenta la cantidad de datos, también aumenta el interés en el resumen automático. Muchas aplicaciones orientadas a las noticias dependen del resumen de texto. Este es un buen documento para ello Página en stanford.edu
Recomendación de título, modelado de temas : para predecir el título de artículos, sitios web, etc. Necesita crear un sistema basado en el aprendizaje utilizando algoritmos de clasificación. En el aprendizaje automático y el procesamiento del lenguaje natural, un modelo de tema es un tipo de modelo estadístico para descubrir los “temas” abstractos que ocurren en una colección de documentos.
Sistema de corrección semántica : poco complejo pero interesante. El texto generalmente reintentado se enfrenta a un error semántico, por lo tanto, conduce a un resultado incorrecto. Aplicar esto como preprocesamiento conduce a mejores resultados.
Sistema de corrección sintáctica : muy necesario hoy en día. Los que no hablan inglés crean mucho error sintáctico. También se puede usar como trabajo de preprocesamiento en muchos proyectos. Por lo tanto, su algoritmo debería detectar automáticamente dichos errores y sugerir una gramática correcta.
Motor de búsqueda de Wikipedia : datos de Wikipedia disponibles como archivo de volcado. Verifique dbpedia para referencia. Aplique técnicas de indexación y cree un pequeño SE para páginas wiki. Como wikipedia ya proporciona esta funcionalidad, pero puede trabajar en una mejor experiencia de usuario, optimización de resultados.
Clasificador de tweets de Twitter : bastante fácil e interesante también. Creación de un sistema de aprendizaje para varias categorías Deportes, entretenimiento, negocios, política, hollywood, etc. Capacite al clasificador (ingenuo bayes, SVM) y prediga la categoría para los tweets entrantes.
Análisis de sentimientos para twitter, revisión, conversaciones : hay pocos paquetes disponibles en R que pueden ayudar a realizar este trabajo. Es necesario agregar algunas características adicionales además de eso para que sea más intuitivo. Nltk, Stanford, word2vect son algo buenas herramientas de código abierto para lo mismo.
Detección de correo no deseado : nuevamente aprendizaje del sistema de clasificación basado. Capacite al clasificador utilizando el correo no deseado preseleccionado por los usuarios que podría clasificar los nuevos correos próximos. Si los usos marcan el correo nuevo como correo no deseado, vuelva a entrenar (puede ser otra opción mejor).
Detección de sarcasmos : puede ser muy interesante. En el análisis de sentimientos identificamos el sentimiento de los usuarios con respecto a algunas cosas, aquí identificamos el sarcasmo expresado por los usuarios. Consulte la página en psu.edu – Detección de sarcasmo en twitter
Clasificación de usuarios falsos, clasificación de publicaciones no sinceras: los proveedores de servicios de correo como Gmail, Yahoo, etc. trabajan mucho para mantener a sus usuarios alejados del correo no deseado y los usuarios de correo no deseado. También en los foros de discusión en línea, el administrador está muy dispuesto a eliminar automáticamente las publicaciones irrelevantes y falsas.
Detección de fraude: algunos usuarios en las redes sociales crean intencionalmente exageraciones sobre productos particulares, existencias para dejar que funcionen. Identificar a estos usuarios y actividades fraudulentas también es una de las tareas desafiantes.
Análisis de mercado: CocaCola contrata continuamente a compañías de terceros para procesar datos relacionados con ellas desde Twitter y Facebook. Lanzan campañas creativas y quieren monitorear constantemente si la audiencia está aceptando la campaña. Muchas compañías intentan comprender las fallas en sus procesos tratando de entender lo que sus usuarios / clientes dicen sobre sus productos o servicios. Los analistas están automatizando su trabajo mediante la creación de herramientas que leen las noticias y tratan de predecir las situaciones del mercado para el día siguiente. El Análisis de sentimientos sigue siendo una de las aplicaciones más populares (y la suya realmente se ha dedicado a la investigación sobre el Análisis de sentimientos durante dos años). Puede leer sobre Análisis de riesgos y Análisis predictivo para conocer las últimas concentraciones y avances en estas áreas.
Robótica: los robots ya no son simplemente juguetes preprogramados. Tratan de aprender cómo hacer su trabajo a partir de sus experiencias anteriores. Algoritmos genéticos para el aprendizaje por refuerzo, hay muchas áreas de la informática que intentan resolver estos problemas desde múltiples perspectivas. Nos encantaría sentarnos en el automóvil que conduce solo si demuestra que puede pensar sobre la marcha. Queremos que los misiles lleguen al objetivo a pesar de estar en una tierra desconocida con un clima totalmente diferente y velocidades de viento inesperadamente altas.
Fabricación, automoción, aviación: la concentración se centra en mejorar los procesos de fabricación para optimizar el tiempo y el material, y garantizar una producción de alta calidad en la línea de montaje. Esto se extiende más allá de la fábrica y en la carretera cuando los sistemas de frenado modernos saben cuánta presión se debe aplicar en cada neumático para detener su automóvil de la manera más cómoda. La industria del aire y el espacio está trabajando en el desarrollo de modelos de rendimiento de aeronaves.

Los temas 10 a 14 están influenciados por Aditya Joshi y su respuesta ¿Qué tipo de proyectos realizan los científicos de datos?

Aprendizaje automáticoBig DatainformáticaInteligencia ArtificialInvestigaciónInvestigación académicainvestigación en informáticaLista de preguntasMinería de datosRecuperación de información