¿Por qué la ciencia de datos es una obsesión? ¿Es realmente exagerado?

En algún momento, estaba teniendo la misma discusión con un colega senior. Sus palabras: “Data Science y Big Data son solo una moda y un problema de investigación. Lo que las empresas quieren es un producto procesable, algo que genere valor. ¿Y cómo genera valor la ciencia de datos?

Esto me entristeció un poco por la poca gente que entiende el dominio y cómo tienen sesgos inherentes en cuanto a lo que comprende la ciencia de datos.

Para hablar de ciencia de datos en los negocios, primero me gustaría definir lo que llamo “La elección”.

Tiendo a ver los buenos negocios como negocios que toman buenas decisiones. Por ejemplo

– Para una empresa de gestión de riesgos, la opción es tomar medidas / no tomar medidas en una tarjeta.
– Para una empresa de marketing, la opción es utilizar la estrategia publicitaria correcta.
– Para una cadena de comercio electrónico, la opción es mostrar productos relevantes a sus usuarios en línea.
– Para una aerolínea, la opción es la estrategia de fijación de precios del boleto.

¿Y cómo hacen estas empresas estas elecciones? ¿Por intuición? Probablemente si. Pero no sería mejor si aprendieran del pasado a dejar de cometer los mismos errores una y otra vez. ¿Eso tendría sentido? Y eso es ciencia de datos para ti.

La mayoría de las veces los gerentes discutían sobre todo tipo de preguntas como:

– ¿Data Science solo está creando modelos?
– ¿Llamarías a una tabla dinámica de Excel como Data Science?
– ¿Qué pasa con ETL? ¿Es eso ciencia de datos?
– ¿La ciencia de datos implica pensamiento algorítmico?
– ¿Qué pasa con las visualizaciones de datos para marcos web / portales?
– Evaluación de la hipótesis. ¿Sigue siendo Data Science?
– ¿Alguien que use herramientas de Big Data como Hadoop / Spark se llamaría científico de datos?

Y la respuesta es realmente simple:

“Cualquier observación valiosa que pueda derivarse de datos que no son directamente visibles con solo mirar unas pocas filas es ciencia de datos”.

Puede usar cualquier herramienta, cualquier modelo o cualquier interfaz de visualización. Mientras no clasifique las opciones, no será de valor.

Alternativamente, puede usar cualquier herramienta / modelo / visualización siempre que genere valor a partir de datos, es ciencia de datos.

Entonces, ¿la ciencia de datos está muriendo o es una moda pasajera?

Soy muy optimista sobre la ciencia de datos, ya que aprender del pasado se está volviendo realmente importante para que las empresas sigan siendo competitivas. En mi opinión, siempre habría una escasez de personas que pudieran luchar con los datos y ensuciarse las manos para descubrir información valiosa.

Y el juego sería: ¿Quién usa mejor sus datos?

Empresas como Google, Amazon son tan grandes en función de cómo manejan sus datos. En este momento Bing está muy por detrás de Google en el negocio de la publicidad de búsqueda. ¿Porqué es eso? Porque google ha usado sus datos de una mejor manera. Aunque dos doctores. los estudiantes no podrán vencer a Google en su juego, incluso si crean el mejor algoritmo de búsqueda, una compañía como Bing siempre buscaría encontrar este mejor algoritmo y siempre buscaría personas con talento que puedan utilizar los datos.

¿Por qué se subestima la ciencia de datos?

La razón principal por la que las personas subestiman la importancia de la ciencia de los datos es que no es cuantificable. Al ser un proceso de descubrimiento de conocimiento, es muy intermitente y es posible que tenga que esperar para obtener una sola respuesta. Esto lleva a algunas personas a etiquetarlo como un problema de investigación y no merece todo el aprecio que está recibiendo. Pero como dije, todo se trata de “The Choice”.

Y si no lo logras, tu competidor lo haría.

More Interesting

¿Cuál es la relación entre el análisis de datos exploratorios y el modelado de simulación?

Dados los datos, ¿qué pasos se toman para elegir qué distribución (poisson, normal, gamma, beta, etc.) deben representar los datos?

¿Cómo es Berkeley para la ciencia de datos?

Actualmente hay cuatro idiomas para escribir aplicaciones de Big Data: Scala, R, Python y Java. ¿Cuál usar para las aplicaciones de Big Data?

¿Puede alguien de una experiencia que no sea de software aprender o cambiar a análisis de big data?

¿Cómo debe medirse el rendimiento de un equipo de ciencia de datos como una unidad? Por ejemplo, si lideraba el equipo de ciencia de datos de LinkedIn, ¿cómo debería evaluar mi desempeño el CEO?

¿Cómo se usa Data Analytics en finanzas (específicamente Hedge Funds)?

He realizado mi pasantía en una empresa B2B y he realizado algunos análisis de datos como el porcentaje de daños, el retorno al origen y algunos otros. ¿Qué más puedo hacer con estos datos?

¿Cuáles son las mejores bibliotecas de Python para la ciencia de datos?

¿Cuáles son algunas de las mejores hojas de trucos de ciencia de datos en python y r?

¿Qué tan confiables son las estadísticas oficiales del gobierno en los Estados Unidos?

¿Cuáles son las bases de datos disponibles en Salud (datos abiertos) que se pueden usar en el análisis de datos con algoritmos de aprendizaje automático?

¿Cuáles son algunos consejos para escribir un buen currículum para un nuevo trabajo de posgrado en ciencias de datos?

¿Debería una persona aprender sobre ciencia de datos en general antes de entrar en el aprendizaje automático? ¿Por qué?

¿Qué deben saber todos sobre la ciencia de datos?