La ciencia de datos es un término utilizado para referirse a todos los procedimientos y metodologías que se utilizan para obtener, organizar, empaquetar y presentar datos en un formato fácilmente comprensible. Hay diferentes tipos de datos que pueden estar disponibles en diferentes campos, y estos datos pueden estar en un formato estructurado o no estructurado.
Este término se refiere a asimilar todos los datos disponibles en un formato fácilmente disponible que pueda utilizarse en diversas esferas de la actividad humana. Con la aparición del concepto de Big Data en el mundo actual mejorado por TI, la necesidad de ciencia de datos está en aumento. Por extrapolación, el término ciencia de datos también se extiende a la aparición de nuevas tecnologías y dispositivos que se pueden utilizar para almacenar datos en un formato desde el que se pueden obtener cuando sea necesario.
Necesidad de ciencia de datos
Un gran volumen de datos está disponible en varias fuentes digitales y no digitales, la mayoría de las cuales se han agregado en los últimos años debido a la mejora de la industria de TI. Actualmente, la cantidad de datos digitales supera ampliamente a los datos analógicos del pasado. Sin embargo, existe la necesidad de asimilar esos datos analógicos en un formato digital fácilmente accesible, y eso se convierte en un aspecto importante de la ciencia de datos.
El concepto de Big Data ha requerido el empleo de varias técnicas de ciencia de datos. Big Data es la gama completa de varios formatos de datos, como conjuntos, que siguen diferentes parámetros y, por lo tanto, son bastante grandes en su alcance y complicados en su comprensión. Debido a esta razón, se hace casi imposible grabar, preservar, acceder, compartir, estudiar o incluso imaginarlos con las herramientas disponibles. Por lo tanto, los expertos dedican tiempo a desarrollar nuevos métodos y técnicas para poder llevar a cabo este tipo de gestión de datos. Esto también incluye el desarrollo de nuevas tecnologías para poder lograr esto.
Una visión general de la ciencia de datos
Lograr la ciencia de datos requiere la aplicación de varios campos científicos y estadísticos conocidos. Por lo menos, las matemáticas, las estadísticas, la tecnología informática, la tecnología de la información y los métodos científicos de tabulación y presentación gráfica deben utilizarse. Dependiendo de la esfera de actividad desde donde se han aplicado los datos, también podría ser esencial aplicar principios de estudios biológicos, industria de la salud, comercio, geometría, etc. Dado que la ciencia de datos es una presentación exhaustiva de los datos de una manera representativa más fácil, generalmente se emplea más de una de las técnicas anteriores.
Algunas de las esferas correlacionadas de la actividad de la ciencia de datos incluyen la minería de datos, el procesamiento de datos, la ingeniería de datos, el almacenamiento de datos, la compresión de datos, el análisis predictivo y otros modos similares también. La robótica de alto rendimiento y la inteligencia informática también pueden emplearse para gestionar grandes volúmenes de datos y, especialmente, para predecir patrones de datos donde los datos listos pueden no estar disponibles.
Hoy, el dominio de la ciencia de datos tiene aplicaciones de amplio alcance. Se utiliza en casi todas las esferas de la actividad humana, como el comercio y el transporte, el comercio, los seguros, la detección de fraudes, el análisis de marketing, la gestión de riesgos, las actividades gubernamentales, la investigación científica, la medicina, la industria, la agricultura y muchos otros. La mayoría de las veces, una recopilación de datos que se ha recopilado utilizando métodos de ciencia de datos también puede utilizarse en varios campos de actividad. Dichos datos son más relevantes y se ajustan mejor a la descripción de Big Data.
El trabajo de un científico de datos incluye la obtención de datos de todas las fuentes disponibles. Implica que el científico de datos también necesitaría encontrar las fuentes y luego determinar cuáles de estas fuentes son fuentes ricas de datos y cuáles podrían no tener mucho valor. Una vez hecho esto, las fuentes de datos podrían asimilarse para hacerlo más manejable.
El siguiente paso sería asegurar que todos los datos que se hayan obtenido sean consistentes y no se contradigan entre sí. También deberán tenerse en cuenta varias limitaciones de los recursos, que incluirán restricciones tanto humanas como mecánicas.
Una vez que se han creado estos conjuntos de datos, el científico de datos establece cómo construir representaciones visuales de los datos de manera que puedan ser fácilmente interpretados. Esto implica un profundo conocimiento de los métodos estadísticos y lógicos. Los gráficos, tablas, diagramas circulares, mapas, etc. se crean para dar a los datos un formato organizado correctamente.
También es su responsabilidad comunicar los datos según el requisito. Esto incluye una interpretación de los datos en un formato tal que pueda ser fácilmente entendido y utilizado en el dominio para el que está destinado.
La ciencia de datos parece ser una tarea enorme, y a menudo es difícil de comprender en qué punto debe comenzarse; sin embargo, al usar algunas técnicas inteligentes como iteraciones y extrapolaciones, los científicos de datos pueden predecir y seleccionar datos casi precisos en un corto período de tiempo. Debido a la naturaleza rápidamente cambiante de la industria de TI, los datos que una vez se descubrieron no permanecen estáticos durante mucho tiempo. Por lo tanto, se vuelve imperativo trabajar rápido dentro de esta industria, cumplir con los plazos y presentar los datos mientras aún es relevante. Sin embargo, una vez que se han establecido los datos, se vuelve más fácil usarlos nuevamente, ya que se pueden usar métodos iterativos para agregar y modificar los registros a medida que los nuevos datos estén disponibles.
Historia
En sus primeros días en los años 60, el término ciencia de datos a menudo se usaba como una alternativa a la informática. Probablemente fue utilizado por primera vez por Peter Naur en 1960 y luego publicado por él en 1974 en Concise Survey of Computer Methods. Sin embargo, se usó por primera vez oficialmente en la Conferencia de Kobe en 1996 de la Federación Internacional de Sociedades de Clasificación, donde en realidad se usó para definir el evento en sí.
Tras la reciente popularidad de este término, el profesor CF Jeff Wu usó el término ciencia de datos en el título de su conferencia inaugural en la Universidad de Michigan. El título fue Estadísticas = Ciencia de datos? Inmediatamente, este título dio ímpetu al término. La conferencia se hizo popular en el ámbito de los matemáticos y estadísticos, y se utilizó más como parte de su programa para honrar al estadístico indio Prasanta Chandra Mahalanobis, quien fundó el Instituto de Estadística de la India.
Desde entonces, el término se ha utilizado en varias plataformas prestigiosas, incluido el Consejo Internacional para la Ciencia: Comité de Datos para Ciencia y Tecnología en 2002, la revista The Journal of Data Science fundada por la Universidad de Columbia en 2003, el informe titulado Long- Vivieron las colecciones de datos digitales publicadas por el National Science Board en 2005 y muchos otros.
Hoy, los términos ‘ciencia de datos’ y ‘científico de datos’ se han vuelto ampliamente aceptables y son utilizados por personas dentro de la esfera para describir también sus perfiles de trabajo.
Utilidad de la ciencia de datos
La ciencia de datos ahora se ha convertido en una actividad de interés para la mayoría de las esferas de negocios e investigación, que han comenzado a confiar en la información que estas técnicas pueden obtener y presentar. Varias de las esferas mencionadas anteriormente, como economía, finanzas, medicina, agricultura, industria, etc., están utilizando principios de ciencia de datos para registrar sus datos y almacenarlos para su uso futuro. El progreso mismo de algunos de estos dominios depende de los datos seleccionados de estos métodos.
Limitaciones y críticas de la ciencia de datos
También ha habido algunas críticas al concepto de ciencia de datos. Esto tiene más que ver con los métodos que se emplean en la recopilación de datos que con la definición del concepto en sí. Según algunos expertos, no se puede confiar en los métodos que se emplean para obtener los datos que se registran. Según ellos, podrían no ser confiables y, además, los métodos utilizados para asimilar datos son dudosos, ya que pueden estar muy influenciados por la geografía, el tiempo y otros factores relacionados.
El término en sí ha recibido muchas críticas. Algunos expertos sostienen que la ciencia de datos siempre ha existido desde el desarrollo de la computadora en los años 60; Sin embargo, ahora se ha convertido en una especie de frase clave para que las personas describan sus perfiles de trabajo, y tal vez incluso para que se sientan mejor. Estos críticos sostienen que la ciencia de datos en realidad no encaja en ninguna definición clara y, como tal, la afirmación de que es ciencia está bajo una nube de aspersión.
Algunas personas incluso han sostenido que el método no es estadístico y, como tal, no proporciona una imagen clara de la información que estas esferas de actividad serias deben buscar. Una interpretación de esta afirmación es que la ciencia de datos en realidad no es científica y, por lo tanto, puede hacer más daño que daño.
Sin embargo, al mismo tiempo, debe recordarse que la ciencia de datos sigue siendo una industria en crecimiento. A medida que se inventan más y más métodos, la definición de este concepto se vuelve más clara y entra en juego un mayor grado de precisión que antes. En esta era de la tecnología, la ciencia de datos es algo que se ha convertido en la necesidad de la hora, y es solo cuestión de tiempo antes de que se convierta en una parte integral de la vida humana diaria.
Una gran colección de libros gratuitos de ciencia de datos que cubren una amplia gama de temas, desde ciencia de datos, análisis de negocios, minería de datos y big data hasta aprendizaje automático, algoritmos y herramientas de ciencia de datos.
Resumen de ciencia de datos
- Una Introducción a la Ciencia de Datos (Jeffrey Stanton, 2013) En Una Introducción a la Ciencia de Datos, Jeffrey Stanton cubre una variedad de temas y ejemplos. El libro está dividido en 18 capítulos y comienza con una descripción general de Data Science, profundiza en el lenguaje de programación R y R Studio, y le muestra cómo aplicar diferentes análisis estadísticos a conjuntos de datos como tweets.
- Manual de la Escuela de Datos (2015) El Manual de la Escuela de Datos es un recurso destinado a guiarlo a través de las etapas centrales de un proyecto de datos. Cubre temas para principiantes como los fundamentos de datos y cómo limpiar sus datos, así como algunos tutoriales y tutoriales como cómo raspar sitios web para obtener datos o cómo crear un diagrama de dispersión.
- Data Jujitsu: El arte de convertir los datos en producto (DJ Patil, 2012) El Data Jujitsu: El arte de convertir los datos en producto ebook viene en 24 páginas concisas, pero hay mucha información excelente incluida. Aprenderá cómo simplificar problemas complejos de datos, examinar problemas con técnicas de análisis alternativas e incluso usar recursos como Mechanical Turk de Amazon para obtener la ayuda de humanos para ayudar a resolver su problema.
- El arte de la ciencia de datos (Roger D. Peng y Elizabeth Matsui, 2015) El objetivo de los autores en El arte de la ciencia de datos es enseñar el proceso general del análisis de datos, y no una fórmula o método específico. Le proporcionan los componentes básicos que puede utilizar para producir sus propios resultados de análisis coherentes.
Entrevistas de científicos de datos
- El manual de ciencia de datos (Carl Shan, Henry Wang, William Chen y Max Song, 2015) En el manual de ciencia de datos, 25 científicos de datos brindan entrevistas en profundidad sobre lo que es tener una carrera en ciencia de datos. Responden preguntas como cómo construir un equipo efectivo de ciencia de datos, dónde creen que se dirige el futuro de la ciencia de datos y cómo los científicos de datos, estadísticos e ingenieros de software pueden trabajar juntos. Hay mucho más cubierto en el libro, pero una cosa a tener en cuenta es que esta no es una guía técnica para la ciencia de datos. Entonces, si está buscando orientación técnica específica sobre ciencia de datos, es mejor que elija otro libro en esta lista.
- El Manual de análisis de datos (Brian Liou, Tristan Tao y Declan Shener, 2015) El Manual de análisis de datos consta de 4 ediciones que contienen entrevistas con personas de todos los roles diferentes dentro de la ciencia de datos. La Edición 1 presenta entrevistas con científicos de datos y analistas de datos como Abe Cabangbang de LinkedIn y Leon Rudyak, analista de datos de Yelp.Edition 2 es la edición de CEOs & Managers. Contiene entrevistas con personas como Derek Steer, CEO de Mode Analytics, y Dave Gerster, VP de Data Science en BigML. La edición Investigadores y Académicos es la edición 3 y presenta entrevistas con personas como Hal Varian Economista Jefe de Google y Tom Davenport, profesor de Babson College. Finalmente, la última edición, la edición 4, es la edición Big Data. En él encontrarás entrevistas de Michael Jordan, profesor distinguido de EECS en UC Berkeley, y Chul Lee, jefe de ingeniería de datos en MyFitnessPal. En general, encontrarás una gran cantidad de información excelente en las 4 ediciones de muchas distinguidas personas dentro del campo de Data Science.
Cómo construir equipos de ciencia de datos
- Data Driven: Creando una cultura de datos (Hilary Mason y DJ Patil, 2015)
- Creación de equipos de ciencia de datos (DJ Patil, 2011) El científico de datos DJ Patil ha elaborado este informe detallado sobre lo que se necesita para construir un gran equipo de ciencia de datos, así como las herramientas y procesos que necesita para posicionar a su equipo para el éxito .
- Comprensión del director de datos (Edd Dumbill, Julie Steele, 2015) ¿Cuál es el papel del director de datos? Esa es la pregunta que Edd Dumbill y Julie Steele intentan responder en su informe Comprensión del director de datos: cómo las empresas líderes se están transformando con datos . Con este informe, aprenderá a evaluar si un CDO es un rol adecuado para su organización y los desafíos que enfrentará.
Análisis de los datos
- Los elementos del estilo analítico de datos (Jeff Leek, 2015) Jeff Leek co-desarrolló el programa de ciencia de datos más grande del mundo, la Especialización Johns Hopkins en Ciencia de datos, y su libro, Los elementos del estilo analítico de datos , es un gran texto complementario a cursos introductorios de ciencia de datos o análisis de datos. Está dividido en 15 capítulos y cubre muchos detalles del análisis de datos que tienden a pasarse por alto en las clases de estadísticas tradicionales y en los libros de texto.
Hadoop
- Hadoop: The Definitive Guide (Tom White, 2011) Hadoop: The Definitive Guide cubre Hadoop 2 y los temas abarcan desde MapReduce, HDFS y YARN para comprender herramientas de procesamiento de datos de alto nivel como Pig, Hive, Crunch y Spark y cómo funcionan con Hadoop Este libro es ideal para administradores que buscan configurar y ejecutar clústeres de Hadoop, así como para programadores interesados en aprender sobre el análisis de conjuntos de datos muy grandes.
- Tutorial de Hadoop (Tutorials Point, 2014) El Tutorial de Hadoop está dirigido a profesionales que aspiran a convertirse en desarrolladores de Hadoop y aprender los conceptos básicos de Big Data Analytics utilizando Hadoop Framework. Los profesionales del software, los profesionales del análisis y los desarrolladores de ETL se beneficiarían de este tutorial. La exposición previa a Core Java, los conceptos de bases de datos y cualquiera de las distribuciones del sistema operativo Linux es una ventaja.
- Cloudera Impala (John Russell, 2014)
- Procesamiento de texto intensivo en datos con MapReduce (Jimmy Lin y Chris Dyer, 2010)
- Hadoop Iluminado (Mark Kerzner y Sujee Maniyam, 2014)
- Programming Pig (Alan Gates, 2011)
Estadística y aprendizaje estadístico
- Think Stats: Análisis de datos exploratorios en Python (Allen B. Downey, 2014)
- Think Bayes: estadísticas bayesianas simplificadas (Allen B. Downey, 2012)
- Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (Trevor Hastie, Robert Tibshirani y Jerome Friedman, 2008)
- Una introducción al aprendizaje estadístico con aplicaciones en R (Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani, 2013)
- Un primer curso en diseño y análisis de experimentos (Gary W. Oehlert, 2010)
Visualización de datos
- D3 Consejos y trucos (Malcolm Maclean, 2015)
- Visualización interactiva de datos para la web (Scott Murray, 2013)
Big Data
- Posibilidades disruptivas: cómo Big Data lo cambia todo (Jeffrey Needham, 2013)
- Análisis de Big Data en tiempo real: arquitectura emergente (Mike Barlow, 2013)
- Big Data Now: Edición 2012 (O’Reilly Media, Inc., 2012)
- Comprensión de Big Data: análisis para Enterprise Class Hadoop y Streaming Data
- Planificación para Big Data (Edd Dumbill)
- Big Data, análisis y el futuro del marketing y las ventas
| Arpit Kharbanda |