¿Por qué la ciencia de datos es una obsesión? ¿Es realmente exagerado?

En algún momento, estaba teniendo la misma discusión con un colega senior. Sus palabras: “Data Science y Big Data son solo una moda y un problema de investigación. Lo que las empresas quieren es un producto procesable, algo que genere valor. ¿Y cómo genera valor la ciencia de datos?

Esto me entristeció un poco por la poca gente que entiende el dominio y cómo tienen sesgos inherentes en cuanto a lo que comprende la ciencia de datos.

Para hablar de ciencia de datos en los negocios, primero me gustaría definir lo que llamo “La elección”.

Tiendo a ver los buenos negocios como negocios que toman buenas decisiones. Por ejemplo

– Para una empresa de gestión de riesgos, la opción es tomar medidas / no tomar medidas en una tarjeta.
– Para una empresa de marketing, la opción es utilizar la estrategia publicitaria correcta.
– Para una cadena de comercio electrónico, la opción es mostrar productos relevantes a sus usuarios en línea.
– Para una aerolínea, la opción es la estrategia de fijación de precios del boleto.

¿Y cómo hacen estas empresas estas elecciones? ¿Por intuición? Probablemente si. Pero no sería mejor si aprendieran del pasado a dejar de cometer los mismos errores una y otra vez. ¿Eso tendría sentido? Y eso es ciencia de datos para ti.

La mayoría de las veces los gerentes discutían sobre todo tipo de preguntas como:

– ¿Data Science solo está creando modelos?
– ¿Llamarías a una tabla dinámica de Excel como Data Science?
– ¿Qué pasa con ETL? ¿Es eso ciencia de datos?
– ¿La ciencia de datos implica pensamiento algorítmico?
– ¿Qué pasa con las visualizaciones de datos para marcos web / portales?
– Evaluación de la hipótesis. ¿Sigue siendo Data Science?
– ¿Alguien que use herramientas de Big Data como Hadoop / Spark se llamaría científico de datos?

Y la respuesta es realmente simple:

“Cualquier observación valiosa que pueda derivarse de datos que no son directamente visibles con solo mirar unas pocas filas es ciencia de datos”.

Puede usar cualquier herramienta, cualquier modelo o cualquier interfaz de visualización. Mientras no clasifique las opciones, no será de valor.

Alternativamente, puede usar cualquier herramienta / modelo / visualización siempre que genere valor a partir de datos, es ciencia de datos.

Entonces, ¿la ciencia de datos está muriendo o es una moda pasajera?

Soy muy optimista sobre la ciencia de datos, ya que aprender del pasado se está volviendo realmente importante para que las empresas sigan siendo competitivas. En mi opinión, siempre habría una escasez de personas que pudieran luchar con los datos y ensuciarse las manos para descubrir información valiosa.

Y el juego sería: ¿Quién usa mejor sus datos?

Empresas como Google, Amazon son tan grandes en función de cómo manejan sus datos. En este momento Bing está muy por detrás de Google en el negocio de la publicidad de búsqueda. ¿Porqué es eso? Porque google ha usado sus datos de una mejor manera. Aunque dos doctores. los estudiantes no podrán vencer a Google en su juego, incluso si crean el mejor algoritmo de búsqueda, una compañía como Bing siempre buscaría encontrar este mejor algoritmo y siempre buscaría personas con talento que puedan utilizar los datos.

¿Por qué se subestima la ciencia de datos?

La razón principal por la que las personas subestiman la importancia de la ciencia de los datos es que no es cuantificable. Al ser un proceso de descubrimiento de conocimiento, es muy intermitente y es posible que tenga que esperar para obtener una sola respuesta. Esto lleva a algunas personas a etiquetarlo como un problema de investigación y no merece todo el aprecio que está recibiendo. Pero como dije, todo se trata de “The Choice”.

Y si no lo logras, tu competidor lo haría.