¿Cómo resuelven los problemas los científicos de datos? ¿Cuál es el marco del proceso de pensamiento para enmarcar un problema y trabajar en la solución?

No hay problema / solución per se en un entorno empresarial, al menos. No se trata de una serie de problemas -> soluciones, más bien es un “proceso” que se ejecuta a tiempo junto con este negocio. Por lo tanto, este proceso continuará mientras el negocio lo haga. La mayor parte del trabajo girará en torno a objetivos comerciales, métricas, restricciones, etc.

Existen reglas o conocidas como lógica de negocios que se aplican en todos los pasos del proceso. Algunos de ellos pueden ser:
1. Propósito: toda la ciencia de datos que realiza la empresa tiene el propósito de generar ingresos directa o indirectamente (excepto organizaciones sin fines de lucro). En otras palabras, el problema es el propósito de la empresa. Entonces, para un comerciante de comercio electrónico, el problema podría ser “¿Cómo vender más productos?”

2. Requisitos / especificaciones: el negocio a menudo definirá el alcance de toda la actividad de ciencia de datos. Puede ser cualquier cosa, desde restricciones presupuestarias hasta rangos de precisión / exactitud para entregables. Los entregables pueden ser desde un modelo hasta una idea.

El tipo de análisis puede ser uno de:

  1. Análisis predictivo: gira en torno a hacer predicciones de acción probabilística / consecuencia.
  2. Análisis prescriptivo: es una rama del análisis predictivo donde prescribe una acción. Como disminuir la tasa de rebote para aumentar las conversiones.
  3. Análisis descriptivo: implica proporcionar información / información / análisis sobre una población / tema en particular. Ejemplo: “75% de los usuarios son hombres”

Si se le da un conjunto de datos, diga “datos meteorológicos”, ¿qué problema resolvería?
Hay un número infinito de problemas y un número infinito de soluciones. Tal vez dices que el problema es el calentamiento global. Entonces, en ese caso , está enfocando su conjunto de preguntas / problemas al calentamiento global.

Plot Twist : no obtienes un conjunto de datos sino un problema / pregunta.

En resumen , los científicos de datos no resuelven problemas (aunque pueden resolver ecuaciones) sino que responden preguntas. Extraen conocimiento e información de los datos y lo comunican de manera efectiva. Por lo tanto, en un entorno empresarial, un científico de datos trabaja de acuerdo con las reglas comerciales y ayuda a la empresa a ganar dinero.

tl: dr

En lo que respecta a un negocio, solo hay un problema. “¿Cómo obtener ganancias indefinidamente?” No existe una solución real, aunque existen soluciones imaginarias.

Tienes el orden equivocado. No miramos los datos y decidimos qué problema resolver. Yo uso el método crisp-dm. Los pasos de resolución de problemas de ciencia de datos para crisp-dm son (ordenados por importancia y tiempo):

Comprensión empresarial: llevar a las partes interesadas para ver qué problemas comerciales / generales tienen. ¿Cuáles son sus limitaciones? ¿Cuáles son sus necesidades? ¿Cuáles son sus expectativas? ¿Cuál es la variable objetivo? ¿Qué tipo de análisis necesitan? (Interpretable versus recuadro negro, predictivo versus descriptivo, etc.) Este es el paso más crítico. Nos da la pregunta para responder y establece la dirección de todo lo demás que hacemos.

Comprensión de los datos: ¿qué datos tienen y a qué datos adicionales pueden acceder? ¿Cuántos datos tienen? ¿Qué tan buenos son sus datos? ¿En qué formato están sus datos?

Preparación de datos: ¿Cómo podemos estructurar los datos para que se ajusten mejor a los modelos? Esto tiene la limpieza y manipulación de datos.

Modelado: en realidad construyendo los modelos. Si los modelos están bien estructurados, los datos se entienden bien y el problema está bien definido, entonces este paso es trivial.

Evaluación: ¿responde el modelo a las preguntas comerciales? ¿Se ajusta a las restricciones? Tenga en cuenta que esto no es evaluar el rendimiento del modelo. se supone que su modelo del paso anterior es bueno desde un punto de vista estadístico

Implementación: implementación de los modelos en su sistema final. Este puede ser un sistema de puntuación de producción, algunas reglas comerciales, una sola decisión, etc.

Ver Wikipedia para más información.

More Interesting

¿Qué instituto es mejor para un curso de ciencia de datos en Pune?

¿Cuáles son algunos métodos básicos / comunes utilizados para resumir datos?

¿Cómo debo diseñar mi curso en visión artificial / aprendizaje automático / robótica para mi maestría en EE?

¿Qué tan importante es la causalidad en la ciencia de datos?

¿Qué antecedentes aparte de estadísticas y programación (R) necesito para poder manipular y analizar datos espaciales?

¿Cómo puedo seguir una carrera en seguridad de datos?

¿Cómo manejan los ingenieros los grandes datos de, por ejemplo, el monitoreo continuo de la salud?

¿A cuál de los cinco paradigmas del aprendizaje automático pertenece la agrupación?

¿Cómo se comparan los programas de MS in Analytics en UT Austin, NCSU y el programa MISM BIDA de Carnegie Mellon?

¿Estar basado en datos es un rasgo fundamental de la personalidad, o puede adquirirse como una habilidad?

¿Ayudará una formación en economía si me especializo en ciencia de datos?

¿Cómo preparará enormes conjuntos de datos (gran número de filas) para el análisis, y también procesará previamente los conjuntos de datos de 'prueba' de la misma manera que los conjuntos de datos de 'entrenamiento' antes del análisis?

¿Cuál es la mejor especialización de Coursera ML / Big Data?

¿Qué material debería tratar de cubrir el curso "Introducción a la ciencia de datos" de primavera de 2011 en Berkeley?

¿Cómo tenemos equilibrio de carga en los reductores en caso de sesgo de datos?