¿Qué son exactamente los grandes datos y qué lenguajes de programación se deben aprender para comprender mejor este concepto?

Big Data se refiere menos a datos y más al volumen que podemos recopilar en la actualidad. La recolección de datos es altamente accesible para cualquiera hoy en día; Como ejemplo, en cinco minutos y algunas copias / pastas, la mayoría podría configurar Google Analytics en su sitio web y comenzar a generar grandes cantidades de datos.

Esta afluencia masiva de datos presenta algunos problemas primarios con algunos ángulos de enfoque, es decir, ¿cómo almaceno y accedo a esos datos?

En primer lugar el almacenamiento. Considere un producto digital que sirve como destino para diez mil visitantes cada día. Los científicos de datos establecen un marco analítico para este producto para que puedan capturar cada interacción individual, desde visitas a la página hasta clics individuales. Quizás también han decidido que poder rastrear los movimientos del mouse también es valioso.

¿Le preocupa el volumen de datos que esto generará todavía? Los algoritmos de almacenamiento y recuperación magistrales, los nuevos esquemas de bases de datos y las tecnologías relacionadas serán cada vez más relevantes a medida que los datos sean más fáciles de recopilar. Aquellos de nosotros que consumimos datos siempre estamos buscando formas más convenientes de modelar y extraer esta información.

En segundo lugar, con una afluencia masiva de datos, encontrar ideas en los datos se vuelve cada vez más desafiante. Considere cualquier maravilla moderna de la ingeniería, digamos un motor a reacción. Un motor a reacción podría generar terabytes de datos cada minuto.

¿Cómo hacemos que esa información sea accesible? El problema se vuelve más profundo cuando comienzas a imaginar cómo esos datos se vuelven accesibles en escenarios casi en tiempo real para operadores humanos. Los informáticos están aplicando el aprendizaje automático a este tipo de escenarios, enseñando a la inteligencia artificial cómo consolidar grandes cantidades de información en contenido accesible y accionable para los humanos.

Explore lenguajes que sean efectivos para crear inteligencia artificial, como Python, LISP. Y Java.

¿Por qué haces esta pregunta? Si está preguntando porque cree que hay algún secreto para comprender Big-Data, entonces no entiende la diferencia entre los datos y los lenguajes de programación en general.

Los datos digitales simplemente reemplazaron los archivadores llenos de fragmentos de información organizada (o incluso desorganizada). Los datos son información.

La programación digital implica escribir código en un lenguaje específico adecuado para que un proyecto de un tipo particular avance. Algunos idiomas se denominan ‘código compilado’ y funcionan en el nivel de máquina de una computadora, otros idiomas tienen secuencias de comandos y se traducen a ‘código p’ en la ejecución, todos los idiomas de computadora operan en un tipo particular de hardware del sistema.

El tipo de código utilizado para procesar big-data es el código de consulta. Uno escribe una consulta, generalmente en lenguaje simple, usando palabras clave para averiguar cuántos widgets hay en el big data. Los resultados de la consulta son nada o algo.

Es más prudente comprender cómo se estructura una base de datos que comprender un tipo particular de código para escribir. Cada tipo de base de datos a menudo viene con un front end crudo (solo texto) que permite usar un lenguaje simple para expresar ideas complejas, esto no es código, es extracción e inserción de datos.

Mi sugerencia sería entender una función de base de datos primero en el área donde se conoce claramente el tipo de base de datos. Luego, si se le presiona para que escriba el código, escriba las preguntas formales de ‘Me gusta en inglés’ y aborde la base de datos a través de esa interfaz. Algunas bases de datos tienen interfaces GUI y hacen muchas cosas por usted.

Si, por otro lado, está buscando aprender un idioma para acceder a los datos, sugiero que se haya perdido el barco, esto ya está hecho para usted y la única razón para aprender la codificación en un lenguaje de programación es usarlo para proporcionar respuestas más sofisticadas de la base de datos.

Como está haciendo esta pregunta, significa que realmente no sabe qué es lo que quiere hacer.

Estoy de acuerdo con el comentarista anterior. Ignora a Jack, probablemente sea un imbécil.

Big data es un término vago que a menudo se caracteriza por tres V: volumen, variedad y velocidad. (Más adelante también se han propuesto algunas V adicionales).

Hay una buena regla general para lo que puede considerarse de gran tamaño: necesita un clúster de computadora y algoritmos distribuidos para realizar el procesamiento de datos en un tiempo razonable.

Para la informática distribuida, le sugiero que comience a aprender Spark con Scala o Python.

Big Data es una familia de escritura una vez, lectura de muchas bases de datos donde, en lugar de buscar registros individuales, busca todo de una vez, lo que le permite estudiar grandes cantidades de datos.

Puedes echar un vistazo a Hadoop. Es una implementación escalable de reducción de mapas de código abierto en Java que tiene mucho uso.

Puede configurar una instalación de desarrollador de usuario único en una tarde y jugar con ella de forma gratuita, o puede tomar más tiempo y hardware y construir clústeres redundantes potentes.

Sí, hay muchos trabajos allí.

Splunk es una aplicación increíble basada en esto.

No puedes confiar en Jack. Esta es una gran estafa y no obtendrá ningún trabajo. Todo tipo de nuevas empresas quieren entusiasmar a la gente por nada. Ciertamente nada que funcione. Muchas veces puede usar el sentido común para resolver problemas de big data. Por ejemplo, KFC gasta un millón de dólares para descubrir que el mejor lugar para nuevas tiendas es al lado de McDonalds. Cualquier agente inmobiliario podría haberles dicho eso. Algún equipo de personas bien pagadas para descubrir cosas estúpidas. Es una broma cruel. Los trabajos no están ahí. ¿Quién pagaría por eso?

Java

pitón

Scala

C#

C ++

IR

More Interesting

¿Dónde podemos encontrar conjuntos de datos para procesar? Quiero usar estos datos para mi proyecto Hadoop.

Cómo usar datos de MongoDB para el análisis de datos

¿Cuál es el estado actual del estudio y la investigación de la ciencia de datos en la India en comparación con otros países?

¿Cuál es el proceso para realizar algunos proyectos pequeños en componentes de big data?

¿Cuáles son las 25 principales compañías en ciencia de datos?

¿Por qué necesitamos Python cuando R es tan brillante para el aprendizaje automático y la ciencia de datos?

¿Qué tan difícil es para un chico experimentado de 5 años cambiar a la carrera de ciencia de datos en India?

¿Qué tipo de problemas no puede resolver Data Science?

¿Cómo convertirse en un científico de datos financieros? Quiero aplicar programación, matemáticas y finanzas en un solo trabajo. Tengo una licenciatura en informática, soy bueno con Java y C ++, y estoy aprendiendo R y Python. ¿Cuál debería ser mi próximo paso?

Cómo hacer un trabajo orientado a la investigación en big data

¿Cuál es el mejor: ciencia de datos, aprendizaje automático o informática?

¿Qué clases debería tomar en Columbia si quiero ser un científico de datos?

¿Cuáles son los paquetes R más utilizados para la minería de datos o la ciencia de datos?

¿Cuánto se relacionan estos términos como ciencia de datos, aprendizaje automático, inteligencia artificial e internet de las cosas con el mundo venidero? ¿De dónde puedo aprender estos temas? ¿Cuánto están relacionados con la ingeniería de comunicación electrónica?

Cómo convertirse en un científico de datos