¿Qué es la ciencia de datos?

Los científicos de datos son personas con una combinación de habilidades de codificación y estadísticas que trabajan para hacer que los datos sean útiles de varias maneras. En mi mundo, hay dos tipos principales:

Científico de datos tipo A: La A es para análisis. Este tipo se ocupa principalmente de dar sentido a los datos o trabajar con ellos de una manera bastante estática. El Científico de Datos Tipo A es muy similar a un estadístico (y puede ser uno) pero conoce todos los detalles prácticos de trabajar con datos que no son Se enseña en el plan de estudios estadístico: limpieza de datos, métodos para tratar con conjuntos de datos muy grandes, visualización, conocimiento profundo de un dominio particular, escribir bien sobre datos, etc.

El científico de datos tipo A puede codificar lo suficientemente bien como para trabajar con datos, pero no es necesariamente un experto. El científico de datos de Tipo A puede ser un experto en diseño experimental, pronóstico, modelado, inferencia estadística u otras cosas que generalmente se enseñan en los departamentos de estadística. Sin embargo, en términos generales, el producto del trabajo de un científico de datos no son los “valores p y los intervalos de confianza”, como a veces parece sugerir las estadísticas académicas (y lo es a veces para los estadísticos tradicionales que trabajan en la industria farmacéutica, por ejemplo). En Google, los científicos de datos de tipo A son conocidos como estadísticos, analistas cuantitativos, analistas de ingeniería de soporte de decisiones o científicos de datos, y probablemente algunos más.

Científico de datos tipo B: El B es para construir. Los científicos de datos tipo B comparten algunos antecedentes estadísticos con el tipo A, pero también son codificadores muy fuertes y pueden ser ingenieros de software capacitados. El científico de datos tipo B está interesado principalmente en usar datos “en producción”. Construyen modelos que interactúan con los usuarios, y a menudo ofrecen recomendaciones (productos, personas que quizás conozcas, anuncios, películas, resultados de búsqueda).

En Google, un científico de datos de tipo B normalmente se llamaría ingeniero de software. Los científicos de datos de tipo B pueden usar el término científico de datos para referirse solo a sí mismos, y dado que la definición del campo está muy cambiante, pueden tener razón. Pero veo que el término se usa con mayor frecuencia en la forma general que propongo aquí.

Esta categorización es cruda. Muchos científicos de datos son una mezcla de A y B. Pero esta respuesta ya es lo suficientemente larga.

(A partir del 22 de julio de 2016) Acabo de dejar una entrevista donde me hicieron la misma pregunta. Después de leer las otras 41 respuestas, intentaré abordar una más simple y correcta.

¿Qué es la ciencia de datos?
La primera vez que escuché sobre el término “ciencia de datos” fue en Toronto, 2015. En aquel entonces, realmente pensaba que el aprendizaje automático y la ciencia de datos eran una especie de panacea universal para los mayores problemas del mundo. Dios mío, estaba tan equivocado y ^ * %% equivocado.

Nuestro esfuerzo en esta publicación será definir y comprender la ciencia de datos, así que tengamos alguna perspectiva. Tengo experiencia en mecatrónica e ingeniería mecánica. La mecatrónica es básicamente un intento de comprender cada pieza de ingeniería, desde la electrónica hasta la robótica, desde la mecánica hasta la informática, etc. Puedes imaginar que estoy familiarizado con las luchas de Data Science. Sin embargo, con Mechatronics tengo una historia más íntima y antigua. Todo comenzó con mi curso técnico en 2007. Pensé que también era la panacea universal. Te dejaré adivinar si tenía razón o no.

DS vs Mecha (Apodos = s2) Ciencia de datos versus Mecatrónica

Ref .: Tendencias de Google

A partir de este gráfico, puede ver en un vistazo que Data Science (línea roja) no era tan famosa en 2007, pero sorprendentemente: “¡Estaba allí! ¡Guau!”. Si lo se.

  • Primera conclusión : la ciencia de datos por sí sola es más antigua de lo que intentan hacerle creer.

Quédate con mi línea de pensamiento hacia nuestra segunda conclusión.

Ahora sabe que el término “Ciencia de datos” se acuñó antes de 2004.
(desafortunadamente solo tengo datos de Google Trends después de 2004 y es una publicación por sí sola para descubrir cuándo sucedió la primera mención o el número significativo de búsquedas).

Ahora te estarás preguntando:

¿Cómo podría la gente vivir hace 30 años sin Data Science ?

La respuesta es siple: ellos vivieron.

Y aquí va:

  • Segunda conclusión , Data Science siempre estuvo ahí, pero sin todo el rumor, término oficialmente acuñado y cambio de marca. (Digo siempre porque no estamos hablando de hombres de las cavernas aquí, ¿de acuerdo?)

Después de estas dos conclusiones principales. Hagamos algo más dinámico. Una imagen vale más que mil palabras (piense en Visualizaciones de datos).

¿Qué tal un video? Tómese un minuto de su vida y mire el video a continuación (prometo que valdrá la pena).

Yann LeCun estaba reconociendo dígitos escritos a mano en 1993 (yo tenía 2 años para entonces jajaja). No se trataba solo de Machine Learning, se requería tener una base de datos específica (MNIST) para entrenar el modelo (no será técnico aquí, más en: Demos de LeCun).

Hoy en día, si necesita crear MNIST nuevamente a partir de la Base de datos especial NIST y un modelo para reconocer dígitos, prototipar todo el proceso en un producto y presentarlo a los ejecutivos de C-suite, probablemente estaría considerando contratar a un Científico de datos.

Los científicos de datos trabajan con datos. Por eso tenemos Data Science. Suficientemente simple.

¿Qué es la ciencia de datos?

  1. Es un poco inapropiado y una palabra de moda que los medios están usando para describir todo. Sin embargo, es bueno tener esta discusión para llegar a un acuerdo;
  2. La pregunta es sobre ciencia de datos. Así que no hablaré sobre los científicos de datos. Ir a ¿Qué es un científico de datos? si estás interesado en esa respuesta;
  3. El error más grande que encontré en la mayoría de las respuestas fue algún tipo de:
  1. “La ciencia de datos es cuando se trata de Big Data, grandes cantidades de datos”.
  2. Eso no es cierto, Data Science se puede aplicar a un conjunto de datos con mil líneas, no hay problema con esto.
  • Otra idea falsa:
    1. “La ciencia de datos solo existe junto con el aprendizaje automático”.
    2. Eso no es verdad. ¿Qué pasa con décadas de modelos estadísticos y matemáticos? Es cierto que el aprendizaje automático potencia y automatiza la ciencia de datos, pero no es 100% necesario en el 100% de los casos de uso.
  • Si vamos a llamarlo “ciencia”, debemos considerar la definición de Ciencia y Método Científico. De acuerdo con esto, Data Science no se trata solo de métodos prácticos o empíricos, sino que necesita fundamentos científicos;
  • Nadie habló sobre la diferencia entre datos e información.
    1. Los datos son un conjunto sin procesar y desorganizado de cosas que necesitan ser procesadas para tener un significado;
    2. Es por eso que estoy de acuerdo con el artículo Los datos no son el nuevo petróleo
    3. Los datos sin procesar son como la inteligencia sin procesar, inútil.
    4. La información es cuando los datos se procesan, organizan, estructuran o presentan en un contexto dado para que sean útiles;
    5. En base a esto, tendríamos ciencia de datos y ciencia de la información. En este momento, las personas tienen un sesgo para hablar sobre ciencia de datos, incluida la ciencia de la información.
    6. “Ciencia de la información” parece ser un término más apropiado, pero está demasiado lejos para regresar.
  • Claramente se estaba utilizando en muchos campos durante los últimos años:
    1. Estadística / Matemáticas
    2. Minería de datos
    3. Inteligencia empresarial – Inteligencia de mercado
    4. Consultoría de estrategia
    5. Muchos otros…
    6. La parte más loca es que ves a profesionales de estas áreas actualizando sus currículums con algo como “Trabajé con Data Science en 199X”
  • La creación de Data Science en palabras simples: dos lados que no estaban totalmente conectados, pero con el nuevo mundo tecnológico y de ritmo rápido tendrían que fusionarse.
    1. Estadística / matemáticas: formular modelos adecuados para generar ideas;
    2. Informática : haga el puente entre los modelos y los datos en un momento factible para llegar con el resultado;
    3. Solo dos lados porque Machine Learning se basa en matemáticas y estadísticas;
    4. La informática teórica podría considerarse una rama de las matemáticas;
  • Temas / herramientas que una persona necesita comprender o tener algún conocimiento al trabajar con Data Science:
    1. Álgebra lineal
    2. Sistemas no lineales, sistemas dinámicos.
    3. Geometria analitica
    4. Mejoramiento
    5. Cálculo
    6. Estadísticas y probabilidad
    7. Lenguaje de programación (R, Python, SAS, Javascript)
    8. Software: Excel, IBM SPSS, SAS Enterprise Miner
    9. Plataformas generales DS y MLasS:
    1. IBM Watson Studio & Analytics
    2. Azure Machine Learning,
    3. Google Cloud Machine Learning,
    4. H2O
    5. ML grande
    6. Rapidminer y KMINE
    7. Amazon SageMaker
  • Visualizaciones de datos: Power BI, Tableau, R / Python usando plotly / ggplot / highcharts
  • Aprendizaje automático (aprendizaje supervisado, no supervisado y de refuerzo)
  • Big Data (MapR, RedShift, Snowflake, Big Query, Cassandra, Hadoop, Spark)
  • Hardware (CPU, GPU, TPU, FPGA, ASIC)
  • Diagrama de Drew Conway Data Science Venn. La experiencia sustantiva (o experiencia en el dominio) es el conocimiento específico del área que está aplicando Data Science. Para saber más sobre la falta de experiencia sustantiva en ciencia de datos: lo que falta en las conversaciones de ciencia de datos: tan arriesgado como se pone
  • [Actualización de 2018] Solía ​​creer en la Zona de peligro , pero no creo que tenga sentido ahora. Piense en un analista de negocios que cree todas las consultas SQL para obtener KPI simples y actualizar un panel de control de toda la empresa. Usaría un poco de conocimiento matemático insignificante y la mayor parte del trabajo sería lógica de negocios + informática (también conocido como Hacking Habilidades en el diagrama). Crearé mi propio diagrama en la próxima actualización para reflejar esta nueva mentalidad.
  • LO QUE NO ES

    1. Machine Learning no es una rama de la ciencia de datos . El aprendizaje automático se originó a partir de la inteligencia artificial. La ciencia de datos solo usa ML como herramienta. La razón es que produce resultados sorprendentes y autónomos para tareas específicas;
    2. No es la salvación de las empresas que nunca midieron nada y ahora quieren obtener información de sus datos. “Basura adentro, basura afuera” La ciencia de datos será tan buena como la información generada en los años siguientes después de los esfuerzos iniciales de ciencia de datos. Esto puede mitigarse mediante una migración de datos heredada;
    3. Simplemente presente los datos utilizando algunos gráficos de Excel sin ninguna idea sobre los datos. Esto sería análisis descriptivo;

    Terminando mi respuesta con todos los tipos de análisis que juntos se acercan para abarcar la definición de Ciencia de datos:

    Ref .: Diagnóstico descriptivo Predictivo Análisis prescriptivo

    ¡Ten un viaje seguro!


    [Actualización: 2018–02–17] Revisaré estas +101 respuestas (las cuales 18 están contraídas) para actualizar mi respuesta algún día. Hay algunas respuestas realmente buenas sobre esta pregunta, pero personalmente no recomiendo tomar consejos de personas que no son investigadores, profesores o profesionales. Estas personas también son conocidas como aficionados, entusiastas, más de 190 IQ, etc.
    [Curiosidad] Si analiza el diagrama más famoso que define la mecatrónica, probablemente verá algunas similitudes. Los seres humanos cuando se enfrentan a problemas complejos tienden a ser predecibles (por ejemplo, crear diagramas para explicar a los demás).

    Ref .: Wikipedia

    Siempre vota las respuestas que encuentres útiles. Todos pueden estar equivocados, así que sean respetuosos y educados.

    La ciencia de datos es una forma de cambio de marca que se necesitaba.

    Antes de la tendencia de Data Science, las personas que solían trabajar con datos se llamaban Business Analysts. Estadísticos Científicos de la computación. Analistas de datos. _____.____ (Ponga más títulos de datos aquí).

    Ahora se llaman científicos de datos. Eso es.

    La necesidad del cambio de marca:

    En algún momento del camino reconocimos los datos de poder que podrían aportar. El volumen, la velocidad y la variedad de datos necesitaban personas que pudieran manejar ese tipo de datos.

    Ahora surgió un problema básico cuando las personas que eran estadísticos no podían manejar estas grandes cantidades de datos. Mientras que las personas que eran informáticos no pudieron formular un análisis adecuado de los datos para obtener un buen valor.

    Esto llevó al término de Data Scientist, que la gente ha explicado de muchas maneras diferentes. Uno que más me gusta es:

    Ahora, ¿de dónde sacas esas personas? Necesita crear tales títulos de trabajo que exijan estas habilidades. Y, por lo tanto, el cambio de marca tomó sus raíces.

    El conjunto de habilidades requerido:

    El conjunto de habilidades requerido para el puesto de Data Science puede variar mucho según las diferentes organizaciones. Me gusta bifurcarlo en conocimiento fundamental y conocimiento basado en herramientas.

    1. Requisitos fundamentales:

    a) Álgebra lineal: para comprender varios algoritmos.

    b) Cálculo multivariable: para comprender varios algoritmos.

    c) Probabilidad y estadística: para comprender varios algoritmos.

    d) Codificación en al menos un lenguaje preferiblemente Python / R: secuencias de comandos y desarrollo.

    e) SQL y Excel: Probablemente las dos herramientas que usará más.

    f) Conocimiento de algoritmos de Machine Learning:

    La respuesta de Rahul Agarwal a ¿Cuáles son los mejores algoritmos que todo científico de datos debería tener en su caja de herramientas?

    La respuesta de Rahul Agarwal a ¿Qué tan inteligente necesita para comprender los algoritmos y las matemáticas detrás del aprendizaje automático?

    2. Requisitos basados ​​en herramientas:

    a) Scikit-Learn / Caret for Machine Learning: la respuesta de Rahul Agarwal a ¿Cuáles son los mejores MOOC de ciencia de datos?

    b) Hadoop / Spark para Big Data: la respuesta de Rahul Agarwal a ¿Cómo aprende big data?

    c) Recientemente he visto ofertas de trabajo que exigen Javascript y conocimiento de marcos web para trabajos de Data Science.

    Lo que la ciencia de datos no es:

    1. La ciencia de datos no es mágica: aunque para algunos pueda parecer así. No obtienes predicciones usando una bola de cristal, obtienes predicciones usando datos. Y dondequiera que estén involucrados los datos, no hay magia involucrada. La ciencia de datos es solo una forma de tomar decisiones basadas en datos. La ciencia de datos por sí sola no resolverá todos sus problemas.

    2. La ciencia de datos no es fácil : hay muchas adiciones que ocurren casi todos los días en el campo que requerirían que las personas lean y aprendan mucho todos los días. Debe aprender sobre algoritmos antiguos, debe aprender sobre algoritmos nuevos y luego deberá seguir trabajando lado a lado. Esto no es para desanimar a las personas, en realidad es una de las cosas que me atrae mucho hacia este campo. Me fascina el tipo de oportunidades de aprendizaje y el alcance en este dominio.

    3. La ciencia de datos no es una moda: la respuesta de Rahul Agarwal a ¿Es la ciencia de datos una moda? ¿Cuánto tiempo seguirá creciendo como campo?

    4. La ciencia de datos es un unicornio: en realidad, nadie sabe exactamente cuál es la definición exacta de ciencia de datos. Para darle una perspectiva, aquí está Drew Conway 2.0 para usted (no hecho por Drew Conway). Cada uno tiene su propia opinión sobre la ciencia de datos.

    5. La ciencia de datos no es atractiva: la ciencia de datos ha sido etiquetada particularmente por Hal Varian como el trabajo más sexy del siglo XXI. Estoy en desacuerdo. La ciencia de datos es tediosa. Se gasta mucho tiempo en disputas de datos, ajustes y otras cosas mundanas. HBR: El trabajo más sexy del siglo XXI es tedioso, y eso necesita cambiar

    Aunque todavía lo llamaría el trabajo más experimental / interesante que existe. Las posibilidades de lo que podría hacer con los datos siguen siendo infinitas: la respuesta de Rahul Agarwal a ¿Cuáles son algunas de las mejores prácticas en Ingeniería de características?

    6. La ciencia de datos en sí misma no es predecible: obtener información de los datos necesita crear hipótesis y luego trabajar para refutarlas. Y la mayoría de ellos terminan siendo refutados. Habría problemas con sus datos y podría llevar tiempo resolverlos. Puede pasar días sin obtener una valiosa hipótesis válida. Lo que esto significa es que llevaría tiempo obtener valor de sus datos y no puede profundizar en los plazos. Uno de los profesionales de CS109, un curso que recomiendo encarecidamente, dijo: “bajo promesa y sobre entrega” es uno de los rasgos básicos de un científico de datos.

    Cuando Harvard Business Review lo llamó “El trabajo más sexy del siglo XXI”, el término “científico de datos” se convirtió en una palabra de moda.

    El Dr. Usama M. Fayyad, un veterano científico de datos y probablemente la primera persona en tener el título de Director de Datos, estuvo en Mumbai esta semana para asistir a la cumbre de ciencia de datos más grande de la India, organizada por el congreso de ciencia de datos. En pocas palabras, el Dr. Fayyad, en su discurso de apertura durante el evento, dijo que “un científico de datos es alguien que conoce muchas más estadísticas que un ingeniero de software, y mucha más ingeniería de software que un estadístico”.

    Dijo que muchas compañías están enterradas en los datos pero no pueden aprovecharlas. Un científico de datos ayuda a las empresas a aprovechar los datos para obtener información. Con más datos disponibles y cambios rápidos en el ecosistema de datos, el costo de adquirir, almacenar y analizar datos se ha reducido, abriendo muchas nuevas formas posibles de aprovechar los datos para obtener información clave. Las tecnologías de big data como Hadoop y spark ayudan a almacenar y procesar grandes volúmenes de datos estructurados y no estructurados de manera más rentable y eficiente. El Dr. Fayyad mencionó que las tecnologías de big data también pueden ayudar a simplificar la complejidad del almacenamiento de datos empresariales al eliminar la necesidad de mantener múltiples copias de datos en toda la empresa.

    El Dr. Fayyad también destacó algunos de los desafíos en la adopción de las tecnologías de Big Data para análisis. Mencionó que el paisaje evoluciona rápidamente y es confuso. Volcar todos los datos en un “lago de datos” puede dar algunos resultados rápidos, pero mantener un lago de datos a largo plazo puede convertirse rápidamente en una pesadilla. A menos que se apliquen diligentemente los mejores principios de gobernanza y arquitectura de datos, un lago de datos puede convertirse en tóxico, sin que nadie sepa qué datos contiene y cómo usarlos.

    Un científico de datos es alguien que puede superar estos desafíos para ayudar a las empresas a ahorrar una gran cantidad de esfuerzos y dinero.

    El Dr. Fayyad dio el ejemplo del proceso “Conozca a su cliente (KYC)”. “ La intimidad del cliente se perdió cuando los bancos escalaron, y ahora los bancos están gastando una gran cantidad de dinero para recopilar datos KYC. En lugar de considerar la recopilación de datos de KYC como una actividad de cumplimiento normativo, si estos datos se utilizan para comprender mejor al cliente, los bancos pueden esperar recuperar la intimidad perdida del cliente ” .

    También mencionó acerca de un modelo analítico que alertó a los clientes cuando estaban gastando demasiado. Este modelo recibió una respuesta del 60% y fue un éxito instantáneo. Dijo que los científicos de datos deberían conceptualizar y construir aplicaciones innovadoras similares que sean simples de usar para los usuarios finales y, sin embargo, extremadamente efectivas para el negocio.

    A la cumbre de ciencia de datos 2017, organizada por el congreso de ciencia de datos, asistieron varios delegados corporativos y políticos de alto perfil en todo el país y muchos profesionales, estudiantes y entusiastas de la ciencia de datos. El congreso de ciencia de datos está tratando de construir un ecosistema que ayudará a India a convertirse en el centro del escenario para la investigación y el desarrollo de habilidades de ciencia de datos. El evento fue organizado por Aegis School of Business, Data Science & Telecommunication, y fue cubierto por Gleeba, el socio de redes sociales. Obtenga más actualizaciones sobre el evento en la página de Facebook del congreso de ciencia de datos.

    Fuente: ¿Quién es un científico de datos?

    He sido un científico de datos durante aproximadamente dos años. Aquí hay algunos pensamientos rápidos sobre lo que creo que es la ciencia de datos. O, ¿por qué no comenzamos con lo que no es la ciencia de datos?

    Primero, la ciencia de datos no es una obra de ingeniería de software. Es decir, la ciencia de datos no se trata de crear productos o características o sistemas de productos o cualquier cosa sofisticada relacionada.

    En segundo lugar, la ciencia de datos no es un trabajo de visualización. Crear una imagen visual genial no es el objetivo final ni la parte inicial de cómo trabaja un científico de datos. No es necesario decir que la ciencia de datos no se trata de crear infografías visualmente impactantes.

    Tercero, la ciencia de datos no es un trabajo científico. En particular, los científicos de datos no trabajan en la academia. Son los requisitos particulares de la industria y el llamado de los mercados de negocios lo que hace que el trabajo de científico de datos sea necesario. Los científicos de datos generalmente no publican artículos, y tampoco es el negocio de publicación de libros o periódicos parte de las preocupaciones diarias de los científicos de datos.

    Por último, pero no menos importante, no estoy de acuerdo con la opinión pública de que la ciencia de datos es, al menos principalmente, estadística. Solo para citar una historia rápida de mí mismo. Una vez me pidieron que contratara a alguien para que me ayudara en mi trabajo y terminé entrevistando a muchos solicitantes por teléfono. Muchos de los solicitantes provenían del archivo de análisis estadístico y la mayoría de estos solicitantes solían parecer realmente seguros de que él o ella estaría más que calificado para el papel. Sin embargo, no terminé llamando a ninguno de ellos en el sitio. Una cosa de la que me di cuenta en ese momento era que el conocimiento estadístico por sí solo no califica a una persona para ayudarme de manera efectiva en el tipo de trabajo de ciencia de datos que necesitaba hacer, por razones que mencionaré en un momento.

    Ahora, estamos listos para hablar sobre qué es la ciencia de datos. Es algo que encapsula algunas habilidades de programación, cierta preparación estadística, algunas técnicas de visualización y, por último, pero no menos importante, muchos sentidos empresariales. El tipo de sentido comercial que me interesa en particular es la capacidad y la voluntad, a veces el entusiasmo, de traducir cualquier pregunta comercial en preguntas que puedan responderse utilizando los datos disponibles actualmente o en el futuro al alcance de uno. De hecho, se necesita una forma especial de conectar todos los puntos en el mundo aleatorio lleno de datos, la mayoría de los cuales puede no ser inmediatamente útil para hacer que un científico de datos funcione.

    Un científico de datos, basado en mi comprensión actual, es la persona que conecta los puntos entre el mundo de los negocios y el mundo de los datos. Del mismo modo, la ciencia de datos es el oficio que utiliza un científico de datos para que esto suceda.

    Voy a compartir un análogo mío favorito sobre ciencia de datos. Hacer ciencia de datos es como preparar una comida. Uno comienza con la mezcla de datos, que incluye, entre otros, ETL (extracción, transformación y carga), limpieza de datos, depuración de datos, etc. Este es el paso similar a la preparación de la fuente de alimentos, donde el enjuague limpia las verduras, el carne y el arroz, corte la fuente de alimento en trozos de tamaño razonable y póngalos a un lado. Una vez hecho esto, está listo para cocinar la fuente de alimentos, que corresponde a la exploración de datos, la construcción de características, la reducción de características, la ejecución y el ensamblaje de los algoritmos, etc. Esto es cuando cocina las verduras y la carne paso a paso. moda, agregando ingredientes y fuentes en tiempos particularmente calculados, y viendo cómo la materia prima se convierte en piezas comestibles. El último paso es servir la comida, cuando organiza la comida cocinada de manera artística y la sirve en una secuencia particular de primer plato, segundo plato, etc., a los clientes que ordenaron la comida. Esto es cuando prepara sus resultados de minería de datos en visualización artística y crea informes o historias de datos para enviar a los usuarios de negocios que querían que este trabajo de ciencia de datos se realizara en primer lugar.

    Resumiendo lo anterior, el proceso de la ciencia de datos consiste en la mezcla de datos, la minería de datos y la entrega de información procesable. Según mi propia experiencia, un conjunto de herramientas común para hacer todo o parte de estos incluye Python, R, Tableau, SQL, etc.

    Python es particularmente útil como una herramienta para todo uso, especialmente excelente para mezclar datos. También se puede usar para la minería de datos, gracias al paquete todopoderoso scikit-learn e incluso a la entrega de información basada en sus capacidades gráficas de rápido crecimiento.

    R es un poco tímido en el munging de datos en comparación con Python. Sin embargo, debido a su naturaleza de ser “estadísticamente completo”, una palabra que acabo de inventar, lo que significa que cualquier cosa estadística de la que haya oído hablar probablemente ya esté representada por un paquete R, o dos: R es excelente para explorar los datos y ejecutar algoritmos en diferentes configuraciones de parámetros. Esto hace de R una gran herramienta para la creación de prototipos de ciencia de datos, por ejemplo, para identificar el conjunto de características clave, así como un algoritmo de aprendizaje automático lo suficientemente bueno con la configuración de parámetros, antes de comenzar a escribir un código de producción complicado para “real”. Además de lo anterior, R también es potente con sus paquetes de visualización y puede usarse para convertir una pieza de minería de datos repetible en un informe brillante.
    Hablando de visualización de datos, Tableau es uno de los mejores software comerciales para explorar visualmente sus datos. También es útil para crear informes de visualización interactivos o historias de datos.

    Además de Python, R, Tableau, hay una herramienta más de ciencia de datos que quiero mencionar antes de terminar esta publicación. SQL es el idioma del inglés en el mundo de la mezcla de datos, o al menos lo ha sido durante mucho tiempo. Es poderoso en la integración de diferentes fuentes de datos y es útil para la exploración y depuración de datos.

    Estos son solo mis dos centavos sobre lo que es la ciencia de datos. Espero que tenga sentido para ti hasta ahora. Todavía soy un aprendiz, y simplemente un principiante en este campo, y espero aprender mucho más y una comprensión más profunda sobre este tema en el futuro cercano.

    Junto con la tecnología relativamente nueva de Big Data está el nuevo científico de datos de títulos de trabajo. Si bien no está vinculado exclusivamente a los proyectos de Big Data, el rol del científico de datos los complementa debido a la mayor amplitud y profundidad de los datos que se examinan, en comparación con los roles tradicionales … Puede visitar este enlace: Big Data, ciencia de datos – Clases de capacitación de cursos combinados en línea | Big Data, Data Science – Cursos de cursos combinados en línea Un científico de datos representa una evolución desde el rol de analista de datos o negocios. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadísticas, análisis y matemáticas.

    . Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

    El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

    Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

    Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

    Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

    Por el momento, el papel de un científico de datos lo desempeña una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de esa clase. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que puedan estar más allá del ámbito de los modelos actuales y los problemas comerciales. El analista de negocios trabajaría en los datos que ha recopilado el científico de datos. James Kobielus, un analista senior de Forrester, en su negocio, llega a comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para trabajar con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con el surgimiento de una carrera de pleno derecho, esto pronto cambiará.

    Las discusiones sobre quién está calificado exactamente para ser un científico de datos no difieren demasiado del debate que se sostuvo anteriormente sobre si, sin embargo, al principio, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el CTO del grupo en Shoppers Stop dice: “Hay una escasez de profesionales a los que se les puede llamar científicos de datos. Por el momento, quien tiene pasión por trabajar con datos está llenando el vacío ”.

    Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que de otro modo permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía, y definitivamente necesita una docena o más de experiencia trabajando con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

    un proveedor de servicios de análisis y ciencia de decisiones dice: “Los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

    Con el advenimiento de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un ambiente agradable para la toma de decisiones. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica preventiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

    La ciencia de datos es un campo de Big Data que busca proporcionar información significativa de grandes cantidades de datos complejos. La ciencia de datos, o ciencia basada en datos, combina diferentes campos de trabajo en estadística y computación para interpretar los datos con el propósito de tomar decisiones.

    DESGLOSE DE LA ‘CIENCIA DE DATOS’

    Los datos se obtienen de diferentes sectores y plataformas, incluidos teléfonos celulares, redes sociales, sitios de comercio electrónico, encuestas de salud, búsquedas en Internet, etc. El aumento en la cantidad de datos disponibles abrió la puerta a un nuevo campo de estudio llamado Big Data, o los conjuntos de datos extremadamente grandes que pueden ayudar a producir mejores herramientas operativas en todos los sectores. Los conjuntos en constante aumento y el fácil acceso a los datos son posibles gracias a una colaboración de empresas conocidas como fintech, que utilizan la tecnología para innovar y mejorar los productos y servicios financieros tradicionales. Los datos producidos crean aún más datos que se comparten fácilmente entre las entidades gracias a productos fintech emergentes como la computación y el almacenamiento en la nube. Sin embargo, la interpretación de grandes cantidades de datos no estructurados para una toma de decisiones efectiva puede resultar demasiado compleja y lenta para las empresas, por lo tanto, el surgimiento de la ciencia de datos.

    Historia de la ciencia de datos

    El término ciencia de datos ha estado dando vueltas durante la mayor parte de los últimos 30 años, y originalmente se usó como un sustituto de “informática” en 1960. No fue sino hasta 15 años después que el término se usó para definir el encuesta de métodos de procesamiento de datos que se utilizan en diferentes aplicaciones. En 2001, la ciencia de datos se introdujo como una disciplina independiente. The Harvard Business Review publicó un artículo en 2012, llamando al científico de datos el “trabajo más sexy del siglo XXI”.

    Cómo funciona la ciencia de datos

    La ciencia de datos incorpora herramientas de múltiples disciplinas para recopilar un conjunto de datos, procesar y obtener información del conjunto de datos, extraer datos significativos del conjunto e interpretarlos para la toma de decisiones. Las áreas disciplinarias que componen el campo de la ciencia de datos incluyen minería, estadística, aprendizaje automático, análisis y algo de programación. La minería de datos aplica algoritmos en el conjunto de datos complejos para revelar patrones que luego se utilizan para extraer datos utilizables y relevantes del conjunto. Las medidas estadísticas como el análisis predictivo utilizan estos datos extraídos para medir los eventos que probablemente sucedan en el futuro en función de lo que muestran los datos que ocurrieron en el pasado. El aprendizaje automático es una herramienta de inteligencia artificial que procesa cantidades masivas de datos que un humano no podría procesar en la vida. El aprendizaje automático perfecciona el modelo de decisión presentado bajo análisis predictivo al hacer coincidir la probabilidad de que ocurra un evento con lo que realmente sucedió en el momento previsto.

    Bajo análisis, el analista de datos recopila y procesa los datos estructurados de la etapa de aprendizaje automático utilizando algoritmos. Él / ella interpreta, convierte y resume los datos en un lenguaje coherente que el equipo de toma de decisiones pueda entender. Estas áreas mencionadas no son de ninguna manera una lista completa de lo que implica la ciencia de datos. A medida que se comprenda mejor el papel de un científico de datos, se agregarán más conjuntos de habilidades al campo que abarcan sectores como la arquitectura de datos, la ingeniería de datos y el administrador de datos.

    Científico de datos definido

    Un científico de datos recopila, analiza e interpreta grandes volúmenes de datos para ayudar a una empresa a mejorar sus operaciones. Estos profesionales desarrollan modelos estadísticos para analizar datos y utilizar diferentes análisis para encontrar patrones, tendencias y relaciones en conjuntos de datos. Esta información se puede utilizar para predecir el comportamiento del consumidor, al tiempo que se identifican los riesgos comerciales y operativos. El científico de datos a menudo es un narrador de historias, presentando información de datos de manera simple a las personas de la organización.

    El papel de la ciencia de datos hoy

    La ciencia de datos ha ayudado a llevar a la industria financiera a la era de los expertos en tecnología. Mediante el uso de la ciencia de datos, las empresas están empleando big data para aportar valor a sus consumidores. Las instituciones bancarias están aprovechando los grandes datos para mejorar sus éxitos de detección de fraude. Las empresas de gestión de activos están utilizando grandes datos para predecir la probabilidad de que el precio de un valor suba o baje en un momento determinado. Las compañías como Netflix extraen grandes cantidades de datos para determinar en qué están interesados ​​sus usuarios, y utilizan esta información para tomar decisiones sobre qué programas de televisión producir y presentar. La compañía también utiliza los algoritmos que tiene implementados para crear recomendaciones personalizadas sobre qué mirar en función del historial de visualización del usuario.

    Leer más: Equipos de Educational Scientific Labs

    Estoy feliz de compartir mis conocimientos sobre Data Science. Tengo que trabajar en Data Science a través de proyectos en R y Python Programming. Para ayudarlo con Data Science, permítame darle una guía rápida sobre qué es Data Science.

    ¿Qué es la ciencia de datos?

    La ciencia de datos implica el uso de métodos automatizados para analizar cantidades masivas de datos y extraer conocimiento de ellos.

    Hay 3 ciencias importantes que forman la ciencia de datos. Estos son:

    1. Ciencias de la Computación
    2. Estadística matemática
    3. Aplicaciones

    Es la combinación de las 3 ciencias y cada proyecto de Data Science implica su uso para lograr los resultados requeridos. Al combinar aspectos de estadística, informática, matemática aplicada y visualización, la ciencia de datos puede convertir la gran cantidad de datos que genera la era digital en nuevas ideas y nuevos conocimientos.

    Visite nuestro blog sobre Qué es la ciencia de datos para comprender completamente los conceptos importantes involucrados. Me gustaría recomendar los blogs de Edureka en Data Science. Echa un vistazo a estos blogs que tienen todo el contenido básico requerido para borrar una entrevista de ciencia de datos.

    1. Las 35 preguntas principales de la entrevista de ciencia de datos
    2. Tutorial de ciencia de datos
    3. Blogs de ciencia de datos de Edureka

    Entonces, después de pasar por esto, también puede consultar nuestra lista de reproducción de YouTube de Data Science Training .

    COMPONENTES DE CIENCIA DE DATOS

    Data Science tiene los siguientes componentes:

    1) ESTADÍSTICA

    1. La estadística es una rama de las matemáticas que se ocupa de la recopilación, análisis, interpretación, presentación y organización de datos.
    2. Las estadísticas comenzaron en la antigua civilización, que se remonta al menos al siglo V a. C., pero no fue sino hasta el siglo XVIII que comenzó a basarse más en el cálculo y la teoría de la probabilidad.

    2) VISUALIZACIÓN

    La visualización es cuando mostramos los resultados del análisis de Data Science de una manera más simple usando diagramas, cuadros y gráficos.

    Mejora la toma de decisiones, el sentido del trabajo, la relación con el cliente y el rendimiento financiero.

    3. APRENDIZAJE DE MAQUINAS

    1. Machine Learning explora el estudio y la construcción de algoritmos que pueden aprender y hacer predicciones sobre los datos.
    2. Estrechamente relacionado con las estadísticas computacionales.
    3. Se utiliza para diseñar modelos y algoritmos complejos que se prestan a una predicción que en el uso comercial se conoce como análisis predictivo.

    4. APRENDIZAJE PROFUNDO

    El aprendizaje profundo es uno de los únicos métodos por los cuales podemos sortear los desafíos de la extracción de características en el aprendizaje automático. Esto se debe a que los modelos de aprendizaje profundo son capaces de aprender a enfocarse en las características correctas por sí mismos, lo que requiere poca orientación del programador.

    Por lo tanto, podemos decir que Deep Learning es:
    1. Una colección de técnicas estadísticas de aprendizaje automático.
    2. Se usa para aprender jerarquías de características
    3. A menudo basado en redes neuronales artificiales

    FUNCIONES DE TRABAJO EN CIENCIA DE DATOS

    Hay 8 perfiles de trabajo principales disponibles para cualquier persona interesada en trabajar en Data Science. Son los siguientes:

    Creo que con esto, has aprendido sobre los fundamentos de la ciencia de datos. Puede consultar mi blog sobre Preguntas de la entrevista de ciencia de datos para ver las preguntas principales de la entrevista que enfrentará en una entrevista.

    Si es más conveniente mirar un video, consulte nuestro tutorial de YouTube sobre Ciencia de datos a continuación:

    ¡Espero que mi respuesta ayude!

    Consulte nuestra Capacitación en certificación de ciencia de datos para obtener más información sobre los algoritmos de ciencia de datos y aprendizaje automático.

    Que no es

    • Un científico de datos no es alguien que estudia los datos e interpreta varios resultados de ellos. Esto puede hacerlo el analista de datos.
    • Un científico de datos no es alguien que conozca la programación y pueda escribir códigos eficientes. Sabemos que existe una línea muy gruesa de diferencia b / wa Programmer y un Data Scientist.
    • Un científico de datos no es un ingeniero de aprendizaje automático (MLE) . Un MLE dedica la mayor parte de su tiempo a resolver un problema particular con eficiencia. En general, la mayor parte del tiempo se dedica a optimizar el problema que ya se ha resuelto.
    • Un científico de datos no es una persona con mentalidad empresarial que tiene algún sentido del producto.
    • Un científico de datos no es un narrador de historias .
    • Y, por último, un Científico de Datos no es alguien con buenas habilidades de comunicación e inteligencia .

    Debe preguntarse quién es un científico de datos. Es muy difícil definir qué es realmente la ciencia de datos. Nunca he visto a alguien en mi vida que pueda dibujar el límite de la ciencia de datos. De hecho, diferentes compañías tienen diferentes descripciones de trabajo bajo el paraguas del científico de datos.

    Haré todo lo posible para explicar qué es la ciencia de datos; Debe saber que esto puede cambiar con un aumento de la experiencia.

    ¿Quién es un científico de datos?

    • Un científico de datos es una combinación de todos estos rasgos que he mencionado anteriormente, es decir , programador, persona con mentalidad empresarial, ingeniero de aprendizaje automático, estadístico, narrador de historias, analista, inteligencia y comunicación.

    Según yo, la proporción de estas habilidades siempre variará en una organización. Algunas compañías pueden necesitar un científico de datos para ser un buen programador, pero pueden tener menos estadísticas y algunas pueden oponerse. Pero si tengo que resumirlo por mí mismo, usaré el diagrama en forma de T para el científico de datos y así es como me estoy preparando para convertirme en un buen científico de datos:

    ¿Qué significa esto?

    Esta imagen significa que un científico de datos necesita diferentes habilidades en su arsenal, y todas estas habilidades deben ser diversas, pero debe tener dominio sobre una habilidad particular que es Machine Learning & Statistics. Debe tener un conocimiento profundo de estos campos, si no, es más un analista de datos.

    Una vez más, todo esto se basa en mi experiencia de Data Science hasta ahora, espero que también funcione para otros.

    Como esta es una pregunta genérica muy abierta, me gustaría presentar una respuesta muy amplia para lo mismo de mi blog aquí: ¿Qué es la ciencia de datos? por Pronojit Saha en Viaje al planeta Datum y más allá

    Data Science es la práctica de:

    1. Hacer preguntas (formular hipótesis), respuestas para resolver problemas conocidos o descubrir soluciones desconocidas que a su vez generan valor comercial,
    2. Definir los datos necesarios o trabajar con un conjunto de datos existente y emplear herramientas (basadas en la informática) para recopilar, almacenar y explorar dichos datos generalmente en gran volumen y variedad (a menudo más de 1 TB y 1000 de dimensiones),
    3. Identificar el tipo de análisis a realizar para obtener las respuestas y realizar dicho análisis mediante la implementación de varios algoritmos / herramientas (basados ​​en estadísticas), a menudo en una arquitectura distribuida y paralela,
    4. Comunicar los conocimientos recopilados del análisis en forma de historias / visualizaciones / paneles simples (el Producto de datos) que un científico que no es de datos puede comprender y construir una conversación a partir de él. (Debe tenerse en cuenta que un producto también puede ser un código interno de una empresa y que es utilizado por varios departamentos. La presentación, mantenimiento, escalabilidad, etc. del código son las características del producto, que a menudo es no se practica en muchas organizaciones)
    5. Construir una abstracción de nivel superior que realice los pasos 2-3-4 de forma autónoma, analizando y tomando medidas sobre los nuevos datos a medida que se introducen en el sistema.

    Durante mi trabajo en McKinsey, he visto muchas compañías en las que los roles analíticos y estadísticos se ubicaban en su propio silo, separados del lado “comercial” de la compañía. Esto tiene sentido si tiene expertos para un determinado aspecto de su negocio, como actuarios que calculan el precio de un seguro o estadísticos que evalúan el ensayo de fase III de un medicamento. Pero si intenta informar las decisiones comerciales diarias utilizando datos, se pierde mucho en la traducción.

    A medida que los datos y la tecnología se vuelven cada vez más disponibles y las empresas pueden beneficiarse cada vez más informando sus decisiones, existe una creciente necesidad de cerrar esa brecha. Para esto, necesita un tipo diferente de empleado que combine fuertes habilidades analíticas con una gran perspicacia comercial. Y este es exactamente el papel que desempeñé durante mis proyectos McKinsey y ahora en Airbnb y cómo genero una enorme cantidad de valor.

    Ahora, dada la descripción del rol, es útil tener una etiqueta que le permita hablar sobre él. No me llamaron científico de datos durante mi tiempo en McKinsey, pero lo que hice coincide exactamente con la definición de científico de datos de IBM (llevar grandes datos a la empresa), así que felizmente recogí esta etiqueta y la apliqué a mí mismo.

    Si observa las otras respuestas a esta pregunta, descubrirá que hay muchas personas que usan esta etiqueta en un sentido diferente, por lo que es posible que ya haya dejado de ser útil. Pero incluso si la etiqueta resulta ser una moda, el papel está aquí para quedarse.

    La ciencia de datos es un término utilizado para referirse a todos los procedimientos y metodologías que se utilizan para obtener, organizar, empaquetar y presentar datos en un formato fácilmente comprensible. Hay diferentes tipos de datos que pueden estar disponibles en diferentes campos, y estos datos pueden estar en un formato estructurado o no estructurado.

    Este término se refiere a asimilar todos los datos disponibles en un formato fácilmente disponible que pueda utilizarse en diversas esferas de la actividad humana. Con la aparición del concepto de Big Data en el mundo actual mejorado por TI, la necesidad de ciencia de datos está en aumento. Por extrapolación, el término ciencia de datos también se extiende a la aparición de nuevas tecnologías y dispositivos que se pueden utilizar para almacenar datos en un formato desde el que se pueden obtener cuando sea necesario.

    Necesidad de ciencia de datos

    Un gran volumen de datos está disponible en varias fuentes digitales y no digitales, la mayoría de las cuales se han agregado en los últimos años debido a la mejora de la industria de TI. Actualmente, la cantidad de datos digitales supera ampliamente a los datos analógicos del pasado. Sin embargo, existe la necesidad de asimilar esos datos analógicos en un formato digital fácilmente accesible, y eso se convierte en un aspecto importante de la ciencia de datos.

    El concepto de Big Data ha requerido el empleo de varias técnicas de ciencia de datos. Big Data es la gama completa de varios formatos de datos, como conjuntos, que siguen diferentes parámetros y, por lo tanto, son bastante grandes en su alcance y complicados en su comprensión. Debido a esta razón, se hace casi imposible grabar, preservar, acceder, compartir, estudiar o incluso imaginarlos con las herramientas disponibles. Por lo tanto, los expertos dedican tiempo a desarrollar nuevos métodos y técnicas para poder llevar a cabo este tipo de gestión de datos. Esto también incluye el desarrollo de nuevas tecnologías para poder lograr esto.

    Una visión general de la ciencia de datos

    Lograr la ciencia de datos requiere la aplicación de varios campos científicos y estadísticos conocidos. Por lo menos, las matemáticas, las estadísticas, la tecnología informática, la tecnología de la información y los métodos científicos de tabulación y presentación gráfica deben utilizarse. Dependiendo de la esfera de actividad desde donde se han aplicado los datos, también podría ser esencial aplicar principios de estudios biológicos, industria de la salud, comercio, geometría, etc. Dado que la ciencia de datos es una presentación exhaustiva de los datos de una manera representativa más fácil, generalmente se emplea más de una de las técnicas anteriores.

    Algunas de las esferas correlacionadas de la actividad de la ciencia de datos incluyen la minería de datos, el procesamiento de datos, la ingeniería de datos, el almacenamiento de datos, la compresión de datos, el análisis predictivo y otros modos similares también. La robótica de alto rendimiento y la inteligencia informática también pueden emplearse para gestionar grandes volúmenes de datos y, especialmente, para predecir patrones de datos donde los datos listos pueden no estar disponibles.

    Hoy, el dominio de la ciencia de datos tiene aplicaciones de amplio alcance. Se utiliza en casi todas las esferas de la actividad humana, como el comercio y el transporte, el comercio, los seguros, la detección de fraudes, el análisis de marketing, la gestión de riesgos, las actividades gubernamentales, la investigación científica, la medicina, la industria, la agricultura y muchos otros. La mayoría de las veces, una recopilación de datos que se ha recopilado utilizando métodos de ciencia de datos también puede utilizarse en varios campos de actividad. Dichos datos son más relevantes y se ajustan mejor a la descripción de Big Data.

    El trabajo de un científico de datos incluye la obtención de datos de todas las fuentes disponibles. Implica que el científico de datos también necesitaría encontrar las fuentes y luego determinar cuáles de estas fuentes son fuentes ricas de datos y cuáles podrían no tener mucho valor. Una vez hecho esto, las fuentes de datos podrían asimilarse para hacerlo más manejable.

    El siguiente paso sería asegurar que todos los datos que se hayan obtenido sean consistentes y no se contradigan entre sí. También deberán tenerse en cuenta varias limitaciones de los recursos, que incluirán restricciones tanto humanas como mecánicas.

    Una vez que se han creado estos conjuntos de datos, el científico de datos establece cómo construir representaciones visuales de los datos de manera que puedan ser fácilmente interpretados. Esto implica un profundo conocimiento de los métodos estadísticos y lógicos. Los gráficos, tablas, diagramas circulares, mapas, etc. se crean para dar a los datos un formato organizado correctamente.

    También es su responsabilidad comunicar los datos según el requisito. Esto incluye una interpretación de los datos en un formato tal que pueda ser fácilmente entendido y utilizado en el dominio para el que está destinado.

    La ciencia de datos parece ser una tarea enorme, y a menudo es difícil de comprender en qué punto debe comenzarse; sin embargo, al usar algunas técnicas inteligentes como iteraciones y extrapolaciones, los científicos de datos pueden predecir y seleccionar datos casi precisos en un corto período de tiempo. Debido a la naturaleza rápidamente cambiante de la industria de TI, los datos que una vez se descubrieron no permanecen estáticos durante mucho tiempo. Por lo tanto, se vuelve imperativo trabajar rápido dentro de esta industria, cumplir con los plazos y presentar los datos mientras aún es relevante. Sin embargo, una vez que se han establecido los datos, se vuelve más fácil usarlos nuevamente, ya que se pueden usar métodos iterativos para agregar y modificar los registros a medida que los nuevos datos estén disponibles.

    Historia

    En sus primeros días en los años 60, el término ciencia de datos a menudo se usaba como una alternativa a la informática. Probablemente fue utilizado por primera vez por Peter Naur en 1960 y luego publicado por él en 1974 en Concise Survey of Computer Methods. Sin embargo, se usó por primera vez oficialmente en la Conferencia de Kobe en 1996 de la Federación Internacional de Sociedades de Clasificación, donde en realidad se usó para definir el evento en sí.

    Tras la reciente popularidad de este término, el profesor CF Jeff Wu usó el término ciencia de datos en el título de su conferencia inaugural en la Universidad de Michigan. El título fue Estadísticas = Ciencia de datos? Inmediatamente, este título dio ímpetu al término. La conferencia se hizo popular en el ámbito de los matemáticos y estadísticos, y se utilizó más como parte de su programa para honrar al estadístico indio Prasanta Chandra Mahalanobis, quien fundó el Instituto de Estadística de la India.

    Desde entonces, el término se ha utilizado en varias plataformas prestigiosas, incluido el Consejo Internacional para la Ciencia: Comité de Datos para Ciencia y Tecnología en 2002, la revista The Journal of Data Science fundada por la Universidad de Columbia en 2003, el informe titulado Long- Vivieron las colecciones de datos digitales publicadas por el National Science Board en 2005 y muchos otros.

    Hoy, los términos ‘ciencia de datos’ y ‘científico de datos’ se han vuelto ampliamente aceptables y son utilizados por personas dentro de la esfera para describir también sus perfiles de trabajo.

    Utilidad de la ciencia de datos

    La ciencia de datos ahora se ha convertido en una actividad de interés para la mayoría de las esferas de negocios e investigación, que han comenzado a confiar en la información que estas técnicas pueden obtener y presentar. Varias de las esferas mencionadas anteriormente, como economía, finanzas, medicina, agricultura, industria, etc., están utilizando principios de ciencia de datos para registrar sus datos y almacenarlos para su uso futuro. El progreso mismo de algunos de estos dominios depende de los datos seleccionados de estos métodos.

    Limitaciones y críticas de la ciencia de datos

    También ha habido algunas críticas al concepto de ciencia de datos. Esto tiene más que ver con los métodos que se emplean en la recopilación de datos que con la definición del concepto en sí. Según algunos expertos, no se puede confiar en los métodos que se emplean para obtener los datos que se registran. Según ellos, podrían no ser confiables y, además, los métodos utilizados para asimilar datos son dudosos, ya que pueden estar muy influenciados por la geografía, el tiempo y otros factores relacionados.

    El término en sí ha recibido muchas críticas. Algunos expertos sostienen que la ciencia de datos siempre ha existido desde el desarrollo de la computadora en los años 60; Sin embargo, ahora se ha convertido en una especie de frase clave para que las personas describan sus perfiles de trabajo, y tal vez incluso para que se sientan mejor. Estos críticos sostienen que la ciencia de datos en realidad no encaja en ninguna definición clara y, como tal, la afirmación de que es ciencia está bajo una nube de aspersión.

    Algunas personas incluso han sostenido que el método no es estadístico y, como tal, no proporciona una imagen clara de la información que estas esferas de actividad serias deben buscar. Una interpretación de esta afirmación es que la ciencia de datos en realidad no es científica y, por lo tanto, puede hacer más daño que daño.

    Sin embargo, al mismo tiempo, debe recordarse que la ciencia de datos sigue siendo una industria en crecimiento. A medida que se inventan más y más métodos, la definición de este concepto se vuelve más clara y entra en juego un mayor grado de precisión que antes. En esta era de la tecnología, la ciencia de datos es algo que se ha convertido en la necesidad de la hora, y es solo cuestión de tiempo antes de que se convierta en una parte integral de la vida humana diaria.

    Una gran colección de libros gratuitos de ciencia de datos que cubren una amplia gama de temas, desde ciencia de datos, análisis de negocios, minería de datos y big data hasta aprendizaje automático, algoritmos y herramientas de ciencia de datos.

    Resumen de ciencia de datos

    • Una Introducción a la Ciencia de Datos (Jeffrey Stanton, 2013) En Una Introducción a la Ciencia de Datos, Jeffrey Stanton cubre una variedad de temas y ejemplos. El libro está dividido en 18 capítulos y comienza con una descripción general de Data Science, profundiza en el lenguaje de programación R y R Studio, y le muestra cómo aplicar diferentes análisis estadísticos a conjuntos de datos como tweets.
    • Manual de la Escuela de Datos (2015) El Manual de la Escuela de Datos es un recurso destinado a guiarlo a través de las etapas centrales de un proyecto de datos. Cubre temas para principiantes como los fundamentos de datos y cómo limpiar sus datos, así como algunos tutoriales y tutoriales como cómo raspar sitios web para obtener datos o cómo crear un diagrama de dispersión.
    • Data Jujitsu: El arte de convertir los datos en producto (DJ Patil, 2012) El Data Jujitsu: El arte de convertir los datos en producto ebook viene en 24 páginas concisas, pero hay mucha información excelente incluida. Aprenderá cómo simplificar problemas complejos de datos, examinar problemas con técnicas de análisis alternativas e incluso usar recursos como Mechanical Turk de Amazon para obtener la ayuda de humanos para ayudar a resolver su problema.
    • El arte de la ciencia de datos (Roger D. Peng y Elizabeth Matsui, 2015) El objetivo de los autores en El arte de la ciencia de datos es enseñar el proceso general del análisis de datos, y no una fórmula o método específico. Le proporcionan los componentes básicos que puede utilizar para producir sus propios resultados de análisis coherentes.

    Entrevistas de científicos de datos

    • El manual de ciencia de datos (Carl Shan, Henry Wang, William Chen y Max Song, 2015) En el manual de ciencia de datos, 25 científicos de datos brindan entrevistas en profundidad sobre lo que es tener una carrera en ciencia de datos. Responden preguntas como cómo construir un equipo efectivo de ciencia de datos, dónde creen que se dirige el futuro de la ciencia de datos y cómo los científicos de datos, estadísticos e ingenieros de software pueden trabajar juntos. Hay mucho más cubierto en el libro, pero una cosa a tener en cuenta es que esta no es una guía técnica para la ciencia de datos. Entonces, si está buscando orientación técnica específica sobre ciencia de datos, es mejor que elija otro libro en esta lista.
    • El Manual de análisis de datos (Brian Liou, Tristan Tao y Declan Shener, 2015) El Manual de análisis de datos consta de 4 ediciones que contienen entrevistas con personas de todos los roles diferentes dentro de la ciencia de datos. La Edición 1 presenta entrevistas con científicos de datos y analistas de datos como Abe Cabangbang de LinkedIn y Leon Rudyak, analista de datos de Yelp.Edition 2 es la edición de CEOs & Managers. Contiene entrevistas con personas como Derek Steer, CEO de Mode Analytics, y Dave Gerster, VP de Data Science en BigML. La edición Investigadores y Académicos es la edición 3 y presenta entrevistas con personas como Hal Varian Economista Jefe de Google y Tom Davenport, profesor de Babson College. Finalmente, la última edición, la edición 4, es la edición Big Data. En él encontrarás entrevistas de Michael Jordan, profesor distinguido de EECS en UC Berkeley, y Chul Lee, jefe de ingeniería de datos en MyFitnessPal. En general, encontrarás una gran cantidad de información excelente en las 4 ediciones de muchas distinguidas personas dentro del campo de Data Science.

    Cómo construir equipos de ciencia de datos

    • Data Driven: Creando una cultura de datos (Hilary Mason y DJ Patil, 2015)
    • Creación de equipos de ciencia de datos (DJ Patil, 2011) El científico de datos DJ Patil ha elaborado este informe detallado sobre lo que se necesita para construir un gran equipo de ciencia de datos, así como las herramientas y procesos que necesita para posicionar a su equipo para el éxito .
    • Comprensión del director de datos (Edd Dumbill, Julie Steele, 2015) ¿Cuál es el papel del director de datos? Esa es la pregunta que Edd Dumbill y Julie Steele intentan responder en su informe Comprensión del director de datos: cómo las empresas líderes se están transformando con datos . Con este informe, aprenderá a evaluar si un CDO es un rol adecuado para su organización y los desafíos que enfrentará.

    Análisis de los datos

    • Los elementos del estilo analítico de datos (Jeff Leek, 2015) Jeff Leek co-desarrolló el programa de ciencia de datos más grande del mundo, la Especialización Johns Hopkins en Ciencia de datos, y su libro, Los elementos del estilo analítico de datos , es un gran texto complementario a cursos introductorios de ciencia de datos o análisis de datos. Está dividido en 15 capítulos y cubre muchos detalles del análisis de datos que tienden a pasarse por alto en las clases de estadísticas tradicionales y en los libros de texto.

    Hadoop

    • Hadoop: The Definitive Guide (Tom White, 2011) Hadoop: The Definitive Guide cubre Hadoop 2 y los temas abarcan desde MapReduce, HDFS y YARN para comprender herramientas de procesamiento de datos de alto nivel como Pig, Hive, Crunch y Spark y cómo funcionan con Hadoop Este libro es ideal para administradores que buscan configurar y ejecutar clústeres de Hadoop, así como para programadores interesados ​​en aprender sobre el análisis de conjuntos de datos muy grandes.
    • Tutorial de Hadoop (Tutorials Point, 2014) El Tutorial de Hadoop está dirigido a profesionales que aspiran a convertirse en desarrolladores de Hadoop y aprender los conceptos básicos de Big Data Analytics utilizando Hadoop Framework. Los profesionales del software, los profesionales del análisis y los desarrolladores de ETL se beneficiarían de este tutorial. La exposición previa a Core Java, los conceptos de bases de datos y cualquiera de las distribuciones del sistema operativo Linux es una ventaja.
    • Cloudera Impala (John Russell, 2014)
    • Procesamiento de texto intensivo en datos con MapReduce (Jimmy Lin y Chris Dyer, 2010)
    • Hadoop Iluminado (Mark Kerzner y Sujee Maniyam, 2014)
    • Programming Pig (Alan Gates, 2011)

    Estadística y aprendizaje estadístico

    • Think Stats: Análisis de datos exploratorios en Python (Allen B. Downey, 2014)
    • Think Bayes: estadísticas bayesianas simplificadas (Allen B. Downey, 2012)
    • Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (Trevor Hastie, Robert Tibshirani y Jerome Friedman, 2008)
    • Una introducción al aprendizaje estadístico con aplicaciones en R (Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani, 2013)
    • Un primer curso en diseño y análisis de experimentos (Gary W. Oehlert, 2010)

    Visualización de datos

    • D3 Consejos y trucos (Malcolm Maclean, 2015)
    • Visualización interactiva de datos para la web (Scott Murray, 2013)

    Big Data

    • Posibilidades disruptivas: cómo Big Data lo cambia todo (Jeffrey Needham, 2013)
    • Análisis de Big Data en tiempo real: arquitectura emergente (Mike Barlow, 2013)
    • Big Data Now: Edición 2012 (O’Reilly Media, Inc., 2012)
    • Comprensión de Big Data: análisis para Enterprise Class Hadoop y Streaming Data
    • Planificación para Big Data (Edd Dumbill)
    • Big Data, análisis y el futuro del marketing y las ventas

    | Arpit Kharbanda |

    Big Data Analytics es para ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden ser aprovechadas por los programas convencionales de inteligencia empresarial (BI) . Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data. Hadoop All in 1, Data Science, Statistics and Probability – Clases de capacitación de cursos combinados en línea | Hadoop All in 1, ciencia de datos, estadística y probabilidad: cursos combinados en línea

    Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso continuamente, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

    En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como pistas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de big data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hdoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las posibles trampas que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que generalmente está involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

    Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estos conocimientos oportunos y significativos de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten los conocimientos.

    El científico de datos realiza investigaciones y análisis sobre datos y ayuda a las empresas a mejorar los negocios al predecir el crecimiento, las tendencias y los conocimientos empresariales basados ​​en grandes cantidades de datos.

    Armado con datos y resultados analíticos, un científico de datos de primer nivel luego comunicará conclusiones y recomendaciones informadas a través de la estructura de liderazgo de una organización.

    Los científicos exitosos de Big Data tendrán una gran demanda y podrán ganar salarios muy buenos. Pero para tener éxito, los científicos de Big Data necesitan tener una amplia gama de habilidades que hasta ahora ni siquiera encajaban en un departamento.

    Aprender a convertirse en científico de datos puede ser bastante costoso, con un costo promedio de $ 9,600 (según la Harvard Extension School). Pero si sabe qué habilidades buscan los empleadores, puede encontrar muchos recursos gratuitos en línea. ¡Eso es exactamente lo que hicimos por ti!

    A continuación se presentan las habilidades necesarias para convertirse en un científico de datos con los mejores recursos gratuitos de 2-3 para aprender cada habilidad en línea.

    1. Python
    Aprenda la programación de Python desde cero por Udemy
    Aprende a programar en Python por CodeCademy
    Tutorial interactivo de Python de LearnPython.org

    2. Aprendizaje automático
    Aprendizaje automático en línea
    Inteligencia operativa y datos de la máquina con Splunk

    3) Lengua R
    R Basics – Introducción al lenguaje de programación R por Udemy
    Introducción a R en DataCamp
    Aprende R en la escuela Code

    4. Big Data
    Universidad Big Data
    Big Data y Hadoop Essentials de Udemy
    Descripción básica de Big Data Hadoopby- Udemy

    5. Estadísticas
    Statistics One de Coursera
    Estadística y probabilidad
    Probabilidad y Estadística

    6. Minería de datos
    Minería de datos y raspado web: cómo convertir sitios en datos por Udemy
    Minería de datos por Coursera

    7. SQL
    Entrenamiento interactivo en línea de SQL para principiantes
    Sachin Quickly Learns (SQL) – Lenguaje de consulta estructurado por Udemy
    Tutorial SQL por w3schools

    8. Java
    Aprenda Java: el tutorial de programación de Java para principiantes de Udemy
    Aprenda Java – Tutorial interactivo gratuito de Java
    Aprenda programación Java desde cero – Udemy

    Para más información: Cómo convertirse en científico de datos de forma gratuita y desde cero

    La ciencia de datos es el estudio de dónde proviene la información, qué representa y cómo puede convertirse en un recurso valioso en la creación de estrategias comerciales y de TI. La extracción de grandes cantidades de datos estructurados y no estructurados para identificar patrones puede ayudar a una organización a controlar los costos, aumentar la eficiencia, reconocer nuevas oportunidades de mercado y aumentar la ventaja competitiva de la organización.

    El campo de la ciencia de datos emplea las matemáticas, las estadísticas y las disciplinas de ciencias de la computación, e incorpora técnicas como aprendizaje automático, análisis de conglomerados, minería de datos y visualización.

    La principal ventaja de alistar ciencia de datos en una organización es el empoderamiento y la facilitación de la toma de decisiones. Las organizaciones con científicos de datos pueden tener en cuenta la evidencia cuantificable basada en datos en sus decisiones comerciales.

    Estas decisiones basadas en datos pueden en última instancia conducir a una mayor rentabilidad y una mejor eficiencia operativa, rendimiento empresarial y flujos de trabajo. En las organizaciones orientadas al cliente, la ciencia de datos ayuda a identificar y refinar audiencias objetivo.

    La ciencia de datos también puede ayudar al reclutamiento: el procesamiento interno de las aplicaciones y las pruebas de aptitud y los juegos basados ​​en datos pueden ayudar al equipo de recursos humanos de una organización a realizar selecciones más rápidas y precisas durante el proceso de contratación.

    Besant Technologies se jacta de ser el mejor instituto de capacitación en ciencia de datos en Bangalore .

    Envíenos un correo electrónico: [correo electrónico protegido]

    No 2, planta baja,

    29th Main Road, Kuvempu Nagar, BTM Layout 2nd Stage, Bangalore – 560 076

    Karnataka, India

    Punto de referencia – Junto a OI Play School

    + 91-762 494 1772/74

    Déjame ayudarte con esto.

    Como saben, la llegada del big data ha llevado al crecimiento del almacenamiento. Fue el principal desafío y preocupación para las industrias empresariales hasta 2010. El objetivo principal era crear marcos y soluciones para almacenar datos. Ahora, cuando Hadoop y otros marcos han resuelto con éxito el problema del almacenamiento, el enfoque se ha desplazado al procesamiento de estos datos. Data Science es la salsa secreta aquí.

    Todas las ideas que ves en las películas de ciencia ficción de Hollywood pueden convertirse en realidad por Data Science. La ciencia de datos es el futuro de la inteligencia artificial. Por lo tanto, es muy importante comprender qué es Data Science y cómo puede agregar valor a su negocio.

    ¿Qué es la ciencia de datos?

    El uso del término ciencia de datos es cada vez más común, pero ¿qué significa exactamente? ¿Qué habilidades necesitas para convertirte en Data Scientist? ¿Cómo se toman las decisiones y las predicciones en Data Science? Estas son algunas de las preguntas que serán respondidas más adelante.

    Primero, veamos qué es la ciencia de datos. Data Science es una combinación de varias herramientas, algoritmos y principios de aprendizaje automático con el objetivo de descubrir patrones ocultos a partir de los datos sin procesar. ¿Cómo es esto diferente de lo que los estadísticos han estado haciendo durante años?

    La respuesta está en la diferencia entre explicar y predecir.

    Fuente: Qué es la ciencia de datos | Edureka

    Como puede ver en la imagen de arriba, un analista de datos generalmente explica lo que está sucediendo al procesar el historial de los datos. Por otro lado, Data Scientist no solo realiza el análisis exploratorio para descubrir ideas a partir de él, sino que también utiliza varios algoritmos avanzados de aprendizaje automático para identificar la ocurrencia de un evento en particular en el futuro. Un científico de datos analizará los datos desde muchos ángulos, a veces ángulos no conocidos anteriormente.

    Por lo tanto, Data Science se usa principalmente para tomar decisiones y predicciones haciendo uso de análisis causal predictivo, análisis prescriptivo (predictivo más ciencia de decisión) y aprendizaje automático.

    • Análisis causal predictivo: si desea un modelo que pueda predecir las posibilidades de un evento en particular en el futuro, debe aplicar el análisis causal predictivo. Supongamos que si proporciona dinero a crédito, la probabilidad de que los clientes realicen pagos de crédito a tiempo es motivo de preocupación para usted. Aquí, puede crear un modelo que pueda realizar análisis predictivos en el historial de pagos del cliente para predecir si los pagos futuros serán puntuales o no.
    • Análisis prescriptivo: si desea un modelo que tenga la inteligencia de tomar sus propias decisiones y la capacidad de modificarlo con parámetros dinámicos, ciertamente necesita un análisis prescriptivo para ello. Este campo relativamente nuevo se trata de proporcionar asesoramiento. En otros términos, no solo predice, sino que sugiere una gama de acciones prescritas y resultados asociados.
      El mejor ejemplo de esto es el auto sin conductor de Google, que también había discutido anteriormente. Los datos recopilados por los vehículos se pueden usar para entrenar automóviles sin conductor. Puede ejecutar algoritmos en estos datos para brindarle inteligencia. Esto permitirá que su automóvil tome decisiones como cuándo girar, qué camino tomar, cuándo reducir la velocidad o acelerar.
    • Aprendizaje automático para hacer predicciones : si tiene datos transaccionales de una compañía financiera y necesita construir un modelo para determinar la tendencia futura, entonces los algoritmos de aprendizaje automático son la mejor opción. Esto cae bajo el paradigma del aprendizaje supervisado. Se llama supervisado porque ya tiene los datos en función de los cuales puede entrenar sus máquinas. Por ejemplo, un modelo de detección de fraude puede ser entrenado usando un registro histórico de compras fraudulentas.
    • Aprendizaje automático para el descubrimiento de patrones : si no tiene los parámetros en función de los cuales puede hacer predicciones, debe encontrar los patrones ocultos dentro del conjunto de datos para poder hacer predicciones significativas. Esto no es más que el modelo sin supervisión, ya que no tiene etiquetas predefinidas para la agrupación. El algoritmo más común utilizado para el descubrimiento de patrones es la agrupación en clúster.
      Supongamos que está trabajando en una compañía telefónica y necesita establecer una red colocando torres en una región. Luego, puede usar la técnica de agrupamiento para encontrar las ubicaciones de las torres que asegurarán que todos los usuarios reciban una intensidad de señal óptima.

    Veamos cómo la proporción de los enfoques descritos anteriormente difiere para el análisis de datos y la ciencia de datos. Como puede ver en la imagen a continuación, el análisis de datos incluye análisis descriptivos y predicciones en cierta medida. Por otro lado, Data Science es más sobre análisis predictivo causal y aprendizaje automático.

    Ser un científico de datos es más fácil decirlo que hacerlo. Entonces, veamos qué necesitas para ser un científico de datos. Un científico de datos requiere habilidades básicamente de tres áreas principales como se muestra a continuación.

    Como puede ver en la imagen de arriba, necesita adquirir varias habilidades duras y habilidades blandas. Debes ser bueno en estadística y matemáticas para analizar y visualizar datos. No es necesario decir que el aprendizaje automático forma el corazón de la ciencia de datos y requiere que seas bueno en eso. Además, debe tener una sólida comprensión del dominio en el que está trabajando para comprender claramente los problemas comerciales. Tu tarea no termina aquí. Debe ser capaz de implementar varios algoritmos que requieren buenas habilidades de codificación. Finalmente, una vez que haya tomado ciertas decisiones clave, es importante que las entregue a las partes interesadas. Por lo tanto, una buena comunicación definitivamente agregará puntos de brownie a sus habilidades.

    Para saber más sobre Data Science con la ayuda de un caso de uso, consulte este blog: ¿Qué es Data Science | Edureka

    La ciencia de datos es una combinación compleja de varias disciplinas que incluyen tecnología, desarrollo de algoritmos e interferencia de datos. El objetivo básico de la ciencia de datos es resolver problemas analíticamente multiplex . Como su nombre indica, los datos están en el centro de este tipo específico de ciencia. En esencia, la ciencia de datos tiene que ver con el uso de diferentes sistemas y procesos, relacionados con las disciplinas que hemos mencionado antes, para extraer información, conocimientos o conocimiento de los datos disponibles en diferentes formas. Algunas veces estos datos no están estructurados y otras veces están bien estructurados. Todos los datos posibles pueden ser de uso extremo, si encuentra la manera correcta de usarlos. Obtenga más información al respecto en las siguientes líneas. MÁS AQUÍ: http://www.kristijanjanusic.com/

    Hola a todos,

    Aquí compartí mis puntos de vista sobre Data Science .

    En el mundo actual, Data Science es la carrera más emocionante que también tiene más demanda. El informe de la encuesta de Glassdoor indica que Data Scientist tiene una gran demanda, está en el puesto 1 en la lista de los mejores trabajos de 2016 a 2017.

    Data Science / Data Driven Science es un campo que se ocupa de los datos en el análisis, la comprensión y el desempeño para comunicar las ideas reales en los datos.

    Entonces, ¿qué es la ciencia de datos?

    Data Science es un campo que se ocupa de la identificación, representación y extracción de información significativa de fuentes de datos para ser utilizados con fines comerciales.

    Dado que Data Science es un campo de amplio alcance, no hay una sola forma de definir el papel de un científico de datos o el dominio de la ciencia de datos.

    Tal vez se pregunte qué hace un científico de datos.

    Por lo tanto, es difícil obtener un significado simple de ciencia de datos o determinar quién es un científico de datos. los habilidad de científico de datos El conjunto incluye en igual medida las estadísticas, habilidades analíticas, de programación y visión para los negocios.

    La mayoría de los científicos de datos tienen una sólida formación en matemáticas u otros dominios de la ciencia y tener un doctorado también es una posibilidad clara.

    Por lo tanto, en el mundo actual basado en datos, los científicos de datos tienen una gran demanda para convertir los datos en información comercial valiosa. Tener conocimiento de los conceptos básicos de Data Science es bastante útil en el mundo actual basado en datos.

    Aquí está el contenido completo del curso para ciencia de datos

    Data Science es el desarrollo de métodos automatizados para recopilar, analizar y almacenar grandes volúmenes de datos.

    Dada la edad de Internet, el volumen de datos que existe ha aumentado en varios órdenes de magnitud. Por lo tanto, es necesario escalar nuestros algoritmos para manejar tanto la cantidad como la variedad que presentan estos datos.

    Lo anterior es una nube de palabras sobre los diversos aspectos involucrados en la ciencia de datos:

    • Minería de datos : esto es parte de lo que se conoce como descubrimiento de conocimiento en bases de datos. Implica producir información útil a partir de datos dados.
    • Aprendizaje automático : esta es la parte del algoritmo, solo aquí la escala es un factor importante
    • Visión : Esto es específicamente para datos basados ​​en imágenes y videos (seguimiento, identificación, etc.)
    • Visualización : mapas de palabras, histogramas, etc., utilizados para entregar los resultados visualmente

    En general, la ciencia de datos se expande a la mayoría de los campos, lo que lo convierte en el trabajo más sexy del siglo XXI.

    Nota: Todas las imágenes provienen de imágenes de google.

    En la mayoría de las respuestas, todos dan la definición de científico de datos en lugar de ciencia de datos.

    Como la pregunta es sobre Data Science, comience con Data science.

    • ¿Qué es la ciencia de datos?

    Data Science es un campo que abarca los relacionados con la limpieza, preparación y análisis de datos. La ciencia de datos es un término general en el que se aplican muchos métodos científicos. Por ejemplo, las matemáticas, las estadísticas y muchas otras herramientas que los científicos aplican a los conjuntos de datos. El científico aplica las herramientas para extraer conocimiento de los datos.

    Es una herramienta para abordar Big Data . Y luego extraer información de él. First Data Scientist reúne conjuntos de datos de múltiples disciplinas y los compila. Después de eso, aplique aprendizaje automático , análisis predictivo y sentimental. Luego afílelo hasta un punto donde pueda derivar algo. Finalmente, extrae la información útil de la misma.

    El científico de datos entiende los datos desde un punto de vista comercial. Su trabajo es dar la predicción más precisa. Se encarga de dar sus predicciones. La predicción del científico de datos es muy precisa. Impide que un empresario pierda en el futuro.

    En inteligencia artificial y aprendizaje automático , el científico de datos tiene un gran papel que desempeñar. Para el científico de datos, el conocimiento del aprendizaje automático es imprescindible. El aprendizaje automático es el desarrollo más impresionante en el mundo tecnológico. Requiere saber qué método de aprendizaje automático lo ayudará exactamente. Y finalmente, cómo aplicar eso. No necesita saber cómo funciona ese método.

    Después de aprender ciencia de datos, ahora leamos las habilidades necesarias para convertirse en científico de datos.

    • Habilidades necesarias para convertirse en Data Scientist

    Aproximadamente más del 40% de los puestos de científicos de datos necesitan un título avanzado. Tal como un MBA o Ph.D. Más del 80% de los científicos de datos tienen títulos de maestría. Más del 45% tienen doctorados. Las siguientes son las habilidades de ciencia de datos requeridas:

    • Conocimiento profundo de la codificación Python. Es el lenguaje más común, incluido Perl, Ruby, etc.
    • Conocimiento sólido de SAS / R
    • Es necesario que el científico de datos pueda trabajar con datos no estructurados. Ya sea que provenga de videos, redes sociales, etc.
    • Habilidad de sonido en la codificación de bases de datos SQL.
    • Data Scientist debería tener una buena comprensión de varias funciones analíticas. Por ejemplo rango, mediana, etc.
    • Se requiere un conocimiento profundo del aprendizaje automático.
    • Un científico de datos debe estar familiarizado con Hive , mahout, redes bayesianas , etc. En ciencia de datos, el conocimiento de MySQL es como una ventaja adicional.

    Para obtener más información sobre ciencia de datos, consulte el siguiente enlace:

    Ciencia de datos Una guía completa