¿Por qué hay tanta locura por la ciencia de datos en estos días?

Los “datos” fueron hijastros de las “aplicaciones” durante muchas décadas, a pesar de que ambos son parte del mismo conjunto y deben considerarse como un activo de información. Muchos no querían pensar en “datos”. Era demasiado arcano, demasiado diminuto. Déjelo en manos de los estadísticos.

Lo que es diferente ahora es la naturaleza ilimitada de los datos y cómo algunos pueden extraer el gran volumen de datos para obtener información que no teníamos antes.

Las máquinas ahora pueden reconocer e interpretar el lenguaje humano porque tenemos grandes volúmenes de datos de lenguaje para procesar. Son capaces de reconocer caras porque las máquinas pueden aprender sin supervisión de enormes conjuntos de entrenamiento en sitios de video generados por los usuarios.

Ahora las máquinas están aprendiendo a reconocer todo tipo de patrones en los datos a una escala y velocidad que los humanos no podrían lograr por sí mismos. No son solo datos en sí mismos, son datos de dispositivos de imágenes de gigapíxeles que pueden escanear todo el cuerpo en busca de indicios de cáncer, o datos capturados por sensores instalados en automóviles autónomos sobre objetos cercanos y vehículos en movimiento que pueden eliminar fuentes de humanos. error y hacer posibles los autos sin conductor.

Duke University Dermascopio de cuerpo entero.

De Lauren Bange de la Universidad de Duke, http://www.pratt.duke.edu/news/s…

Podemos hacerlo porque miles de millones de transistores ahora se pueden empaquetar en un solo microprocesador, ahora se pueden almacenar decenas de gigabytes en un solo módulo DRAM, se pueden almacenar decenas de terabytes en un solo disco duro y miles de los conjuntos de datos se pueden integrar y distribuir entre decenas de miles de servidores para ser consultados como un único sistema de procesamiento de datos.

Sobre todo, podemos permitirnos hacer esto ahora, y el costo de hacer ese procesamiento y almacenamiento sigue disminuyendo. A través de redes de intercambio de código como Github y comunidades de código abierto como Apache, el software significa que puede obtener información de todo tipo de datos está disponible para su descarga gratuita por cualquier persona con una conexión a Internet y una computadora portátil.

Es una nueva frontera para la inteligencia empresarial y el análisis, por lo que es un diferenciador importante para las empresas que entienden el valor de una nueva clase de aplicaciones basadas en datos, un diferenciador que no existía antes. Industrias enteras están siendo interrumpidas por aquellos que saben cómo aprovechar el nuevo potencial de la información correcta en el lugar correcto en el momento correcto.
De http://www.pwc.com/us/en/technol…

La cantidad de datos recopilados está explotando:

La Explosión de Datos en 2014 Minuto a Minuto – Infografía
http://news.microsoft.com/2013/02/11/the-big-bang-how-the-big-data-explosion-is-changing-the-world/

El 90% de los datos mundiales se generó en los últimos dos años.

Como ejemplo, las compañías de servicios eléctricos solían almacenar información sobre su compañía eléctrica una vez al mes, pero ahora algunas de ellas recopilan información cada 10 segundos. Eso es un aumento de 250,000 veces en la cantidad de datos recopilados.

A medida que la cantidad de datos aumenta dramáticamente, la relevancia de cualquier dato disminuye dramáticamente:

  • Un solo registro de un sistema transaccional contiene información útil.
  • Un registro de registro de un solo clic de un solo usuario en su sitio web es mucho menos útil.

Las empresas han deducido que existe un gran valor estratégico para recopilar y analizar todos estos datos para descubrir comportamientos de los clientes, realizar detección de fraude y predecir fallas, etc. Las empresas también han deducido que pueden empaquetar el acceso a sus datos y venderlos. como un servicio

Pero para tener sentido y obtener valor de esta enorme cantidad de datos, necesitamos crear y usar nuevas herramientas y nuevas técnicas, y eso es lo que hace un científico de datos.

Honestamente … el costo de almacenamiento es muy barato hoy (verano de 2015) y para el próximo año o incluso 6 meses en el futuro costará casi nada almacenar exponencialmente más datos. A fines de los años 90, el banco CHASE tenía un disco duro del tamaño de una nevera para almacenar unos pocos gb de datos hipotecarios y estaba utilizando árboles de decisión CART para sus modelos de riesgo de crédito hipotecario … ahora todo eso se puede hacer en AWS por unos pocos miles dólares o tal vez incluso unos pocos cientos.

More Interesting

¿Cómo es el departamento de ciencia de datos en PSG Tech College, Coimbatore?

¿Cuáles son las ventajas de usar un árbol de decisión para la clasificación?

Hay varios cursos disponibles sobre ciencia de datos y análisis como Udaicity, Upgrad Imarticus, etc. ¿Cuál es el mejor para unirse?

Con más de 50 años, ¿cuáles son mis posibilidades de convertirme en un científico de datos exitoso?

¿Qué son exactamente los grandes datos y qué lenguajes de programación se deben aprender para comprender mejor este concepto?

¿Cuál es el equivalente R de los ** kwargs de Python?

¿Quién ofrece servicios de limpieza o depuración de datos en EE. UU.?

¿Habrá algún problema para obtener F1 VISA para el programa de ciencia de datos de 1 año GalvanizeU, San Francisco?

¿Cómo es un gran impacto el Big Data?

¿Cómo es trabajar en proyectos de aprendizaje automático en la industria del software?

¿Qué debo estudiar más si quiero ser un analista / científico de datos?

¿Cuán vital será la ciencia de datos en los próximos diez años?

¿Es útil la programación competitiva para aprender ciencia de datos, o es solo una pérdida de tiempo?

¿Cómo pueden los científicos de datos y diseñadores de productos trabajar juntos de manera más efectiva? ¿Cómo deberían los desarrolladores ayudar a los diseñadores a comprender las posibilidades y limitaciones del análisis de datos y el aprendizaje automático?

¿Cuáles son los principales factores del big data?