¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?

Sugeriré tres áreas, un área de investigación de actualidad, un área donde dos dominios se están fusionando fructíferamente, y un área avanzada y de vanguardia que solo está comenzando a salir a la luz.

I. Sería fácil sugerir métodos de conjunto, en particular incorporando técnicas bayesianas, por ejemplo, el aprendizaje de conjunto bayesiano habilitado por big data. Creo que esto es bastante conocido como una tendencia prometedora y está siendo investigado fructíferamente en la literatura de investigación.

II Otra área que siento que está surgiendo es la hibridación de enfoques econométricos y de aprendizaje automático. Básicamente, el aprendizaje automático es bastante bueno para derivar predicciones de un análisis avanzado de correlación entre muchos factores utilizando algoritmos sofisticados. Sin embargo, este no es el mejor enfoque en todos los casos, y en algunas circunstancias incluso puede ser peligrosamente engañoso. Para una historia moral, vea ‘La parábola de la gripe de Google: trampas en el análisis de Big Data’: La parábola de la gripe de Google: trampas en el análisis de Big Data

Esto llega a lo que yo veo como un cisma artificial entre las estadísticas y el aprendizaje automático perpetuado por algunos expertos en cada lado de la valla metodológica respectiva. Existe una necesidad creciente, y una gran promesa, de sintetizar los dos campos, especialmente la econometría (en particular en el análisis causal) y el aprendizaje automático (en particular, para aprovechar el poder de inferencia de la correlación, especialmente en el análisis de grandes datos correctamente organizado). Me refiero a la selección de variables bien fundamentadas, reducción y binning).

Para enmarcar el desafío y la promesa de hibridar la econometría y las técnicas de aprendizaje automático, me refiero a la sabiduría de Hal Varian, economista jefe de Google:

> Presentación: https: //pdfs.semanticscholar.org…

> Documento: http: //people.ischool.berkeley.e…

III. Un área menos publicitada que creo que es muy prometedora: hibridación de la ingeniería semántica (web semántica / ingeniería ontológica a través de RDF, OWL) con análisis.

Big data está llevando a una crisis en la capacidad de gestionar y contextualizar datos. Las ontologías y los mecanismos de big data para almacenar y recuperar datos a través de ontologías son muy prometedores para una serie de dominios activos: IoT, ciberseguridad, robótica, sistemas expertos e IA en general (especialmente en la toma de decisiones médicas y legales semiautomatizadas).

Bajo la superficie, el núcleo de Watson se basa en la capacidad de capacitar y aprovechar ontologías especializadas para automatizar el valor creando decisiones de expertos a partir del análisis de datos y el aprendizaje automático. Me he entrenado en Watson de IBM, y estaba bastante insatisfecho con las herramientas y enfoques para la ingeniería ontológica que estaban disponibles en la plataforma. Se puede y se debe hacer más en esta área, particularmente en la adopción de verdaderos estándares web semánticos, como permitir el almacenamiento y la recuperación de RDF de big data.

Esta área no es para los débiles de corazón: construir ontologías requiere mucho trabajo. Sin embargo, cada vez hay más ontologías disponibles públicamente en muchos dominios que pueden comenzar uno. Además, las tecnologías de big data (soporte Hadoop) para almacenar y recuperar triples compatibles con RDF se están desarrollando activamente.

La capacidad de aprovechar big data a través de ontologías impulsadas por estándares web semánticos conducirá a un multiplicador de fuerza en análisis: la capacidad de realizar sistemas dinámicos de análisis de big data capaces de tomar decisiones expertas semiautónomas en dominios enfocados. Apostaría a que esta área es la próxima área caliente, que sale del jardín izquierdo …

Mi opinión: las “áreas de crecimiento” más importantes para la ciencia de datos y el aprendizaje automático (que son algo ortogonales, por cierto) en 2017 serán el objetivo de hacer / implementar cualquier cosa sin tener un científico de datos o un modelo de aprendizaje automático dentro del edificio .

La reciente aparición de servicios ML gestionados nativos de la nube, que seguramente se multiplicarán rápidamente en los próximos años, significa que los programadores convencionales tendrán cada vez más la capacidad de incorporar la funcionalidad de aprendizaje automático en sus aplicaciones de una manera de baja fricción (p. Ej. , a través de las API REST). Entonces, para el 80% (o más) de los casos de uso, no será necesario contratar unicornios científicos de datos para construir y entrenar modelos exóticos.

Yo argumentaría en base a la cantidad de artículos publicados y conferencias emergentes que el aprendizaje profundo, los métodos de conjunto y el análisis de datos topológicos están ganando terreno en estos días. Tienden a funcionar bien en problemas desordenados, y los conjuntos / TDA funcionan bien tanto en datos pequeños como en datos grandes (no es el caso del aprendizaje profundo).