¿Cuál es la mejor manera de dominar la ciencia de datos en R?

Dos cosas que quiero aclarar antes de responder esta pregunta: 1) no hay nada llamado dominar la ciencia de datos, puedes aprender y mejorar constantemente. 2) Contestaré sobre cómo aprender ciencia de datos con R.

Empecé R hace 6 meses. Confía en mí, es más fácil de aprender, codificar e implementar en R que la mayoría de los otros idiomas. Entonces, con conocimiento matemático básico, puedes hacerlo con bastante facilidad. Comencé R con sintaxis básica y documentaciones. Luego, me mudé para aprender a importar diferentes tipos de datos y trazar diferentes funciones e inferencias. Luego, fui por algunos MOOC. Diría que Datacamp es una gran ayuda para practicar y también edX es una gran plataforma para aprender. Especialmente la universidad de Harvard ofrece algunos cursos agradables usando la programación R.

Pero los MOOC son solo etapas de aprendizaje, no te detengas aquí. * Ir para proyectos *. Esta es la forma más inherente de aprender ciencia de datos y cualquier lenguaje de programación. Kaggle y Drivendata ofrecen algunos proyectos sorprendentes de ciencia de datos / ML. Ve por esos e intenta completarlos. El desbordamiento de pila y Github son de gran ayuda si estás atascado. Hay tantos blogs, sitios web y foros para discutir sobre muchas bibliotecas. Espero que después de hacer proyectos de 5/6 encuentres que R es realmente fácil de aprender.

Además, intente utilizar diferentes bibliotecas y comandos para el mismo trabajo. Eso te ayudaría a resolver problemas más rápido. Pero aprender R no es ciencia de datos. R es famoso por sus vastas y sorprendentes bibliotecas como Caret, dplyr, ggplot … etc. Aprender R también te ayudará a aprender lenguajes de tipo python / scala.

Agregado, dado que R es un lenguaje estadístico, debe comprender los conceptos de los libros / cualquier otro recurso mientras codifica. No te saltes esos conceptos básicos. Después de todo, el lenguaje / sintaxis puede cambiar con el tiempo, pero las matemáticas, las estadísticas, las lógicas y los algoritmos subyacentes seguirán siendo los mismos.

La mejor de las suertes.

En primer lugar, le daré una breve introducción a Data Scientist y su Descripción del trabajo .

Introducción al científico de datos

  • R La ciencia de datos incluye el análisis de datos. Es un componente importante del conjunto de habilidades requeridas para muchos trabajos en esta área. Pero no es la única habilidad necesaria. Desempeñan funciones activas en el trabajo de diseño e implementación de cuatro áreas relacionadas:
  1. Arquitectura de datos;
  2. En adquisición de datos;
  3. Análisis de los datos; y
  4. En archivo de datos.

Introducción a la descripción del trabajo de Data Scientist

  • Data Scientist tiene que usar métodos estadísticos. Incluye modelado mixto, modelado de respuesta predictiva. Además, técnicas de optimización para satisfacer las necesidades comerciales del cliente.
  • Tienen que desarrollar e instalar herramientas estadísticas. Ayuda a construir modelos predictivos. Estos modelos apoyan a los clientes en marketing de clientes e iniciativas de generación de demanda.
  • Data Scientist colabora con equipos de consultoría internos para establecer objetivos de análisis de datos, enfoque. Además, los planes de trabajo para proporcionar programación y soporte analítico a la consultoría interna. También proporciona procedimientos estadísticos que utilizan SAS y Microsoft Office.
  • Además, las habilidades sólidas de comunicación y resolución de problemas son esenciales para la mayoría de los trabajos.
  • Nuevamente, tenga una cosa en mente. Los requisitos específicos variarán según la empresa y el puesto.

Habilidades esenciales y capacitación en ciencia de datos

Algunas habilidades comunes en la mayoría de los puestos :

  • Ingeniería de software de cálculo y álgebra lineal de variables múltiples.
  • Minería de datos estadísticos.
  • Machine Learning PL como Python, C / C, Java.
  • Conocimiento de bases de datos como plataformas SQL como Hadoop.

Además, se necesita habilidad :

  • Fuertes habilidades de comunicación y resolución de problemas son esenciales para la mayoría de los trabajos.
  • Además, los requisitos específicos variarán según la empresa y el puesto.

Lo que necesitas saber

Tenemos el resultado de la investigación. Que las personas deben centrarse en los lenguajes y habilidades de programación. Entonces es demasiado fácil entrar en el campo de la ciencia de datos.

Python (72%);

R (64%); y,

SQL (51%).

“Con estas habilidades, serás elegible para postularte a más del 70% de todas las ofertas de trabajo en línea para roles de científico de datos”

Cómo convertirse en un científico de datos

Si está interesado en convertirse en un científico de datos. Entonces el mejor consejo es comenzar a prepararse para su viaje ahora. Además, tómese el tiempo para comprender los conceptos básicos. Eso no solo será muy útil una vez que esté entrevistando. Sin embargo, también lo ayudará a decidir si está realmente interesado en este campo.

Es importante, para ser honesto contigo mismo acerca de por qué quieres hacer esto. Entonces solo es posible continuar el camino para convertirse en un científico de datos. Probablemente hay algunas preguntas que debe hacerse:

a . ¿Te gustan las estadísticas y la programación? (¿O al menos lo que has aprendido hasta ahora sobre ellos?).

b . ¿Le gusta trabajar en un campo donde necesita aprender diariamente sobre las últimas tecnologías en este espacio?

c . ¿Está realmente interesado en convertirse en un científico de datos, incluso si solo paga un salario promedio?

d . ¿Está de acuerdo con otros títulos de trabajo (por ejemplo, analista de datos, analista de negocios, etc.)?

Primero, debes hacerte estas preguntas. Además, sé honesto contigo mismo. Y si respondiste que sí, entonces estás en camino de convertirte en un científico de datos.

Básicamente, el camino para convertirse en un científico de datos probablemente te llevará algún tiempo. También dependiendo de su experiencia previa y su red. Sin embargo, influir en estos dos también puede ayudarlo en un rol de científico de datos más rápido. Pero también prepárate para estar siempre aprendiendo. Pasemos ahora a las discusiones sobre algunos temas más tangibles.

a. Las matemáticas.

b . La programación.

“No es necesario confundirse entre ciencia de datos y análisis de datos”. Le sugeriré que un enlace lo revise para hacer una comparación entre ambos:

Diferencia entre ciencia de datos vs analítica de datos

Data Science Vs Machine Learning

Tanto el aprendizaje automático como las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos. Lo usamos como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo.

En particular, la ciencia de datos también cubre :

  • integración de datos.
  • arquitectura distribuida
  • Automatizar el aprendizaje automático.
  • Visualización de datos.
  • tableros y BI.
  • ingeniería de datos.
  • despliegue en modo de producción.
  • decisiones automatizadas basadas en datos.

¿Qué significa el aprendizaje automático para el futuro de la ciencia de datos?

Hay que pensar un poco sobre la relación entre la ciencia de datos y el aprendizaje automático. La ciencia de datos incluye el aprendizaje automático.

Aprendizaje automático

Es la capacidad de una máquina para generalizar el conocimiento a partir de los datos, llamándolo aprendizaje. Sin datos, hay pequeñas máquinas que pueden aprender.

Para impulsar la ciencia de datos para aumentar la relevancia, un catalizador es una cosa importante. Aumenta más el uso del aprendizaje automático en muchas industrias diferentes. El aprendizaje automático es tan bueno como se proporcionan los datos y la capacidad de los algoritmos para consumirlos. Mi expectativa es avanzar hacia niveles básicos de aprendizaje automático. Se convertirá en una necesidad estándar para los científicos de datos.

¿Qué depara el futuro para los científicos de datos?

Después de los próximos 5 años, desarrollarán la capacidad de utilizar todo tipo de datos en tiempo real. Para las necesidades del futuro, provocará la aparición de nuevos paradigmas de ciencia de datos.

Podemos usar más datos para impulsar decisiones comerciales clave. Habilitaremos innovaciones como “Aprendizaje profundo”. permite predicciones precisas y toma de decisiones. Además, las aplicaciones modernas han presentado nuevos paradigmas estadísticos.

Lo mas importante :

  • Científicos expertos en datos;
  • estadísticos y
  • Los analistas de negocios serán la clave para desbloquear las infinitas posibilidades de Big Data.

¿Qué depara el futuro para los científicos de datos?

Después de los próximos 5 años, desarrollarán la capacidad de utilizar todo tipo de datos en tiempo real. Para las necesidades del futuro, provocará la aparición de nuevos paradigmas de ciencia de datos.

Podemos usar más datos para impulsar decisiones comerciales clave. Habilitaremos innovaciones como “Aprendizaje profundo”. Permite predicciones precisas y toma de decisiones. Además, las aplicaciones modernas han presentado nuevos paradigmas estadísticos.

La cosa más importante:

  • Científicos expertos en datos;
  • estadísticos y
  • Los analistas de negocios serán la clave para desbloquear las infinitas posibilidades de Big Data.

Al final, le diré que el alcance futuro, el salario y el crecimiento profesional en R es lo mejor. Solo una vez vaya a este enlace mencionado a continuación para aprender sobre esto:

R alcance futuro, crecimiento profesional y salario

También tengo enlaces para los libros de DATA SCIENCE:

R mejores libros

Libros sobre ciencia de datos

Con el levantamiento paralelo del campo de la ciencia de datos de TI, el lenguaje asociado con él, es decir, R, está aumentando simultáneamente. Los solicitantes expertos y competentes en lenguaje R son generalmente preferidos en el campo de la analítica.

Mire este video para obtener una descripción general de cuán útil y beneficioso es el lenguaje R: https://www.youtube.com/watch?v=

Para dominar R sigue estos pasos:

1. Configuración de la máquina / sistema:

Descargue una copia en su sistema local de CRAN, Comprehensive R Archive Network. La opción de configuración para diferentes sistemas operativos como Linus, Windows, Ios está disponible.

Trabajar con la consola R es la opción más confiable y conveniente. Sin embargo, IDE for R también se puede instalar en su computadora para obtener un buen conocimiento del idioma. RStudio es un IDE muy conocido para R. Algunas alternativas a Rstudio como Architect también están disponibles.

Después de instalar Rstudio, instale paquetes o dependencias, incluida la GUI. También puede ir a la documentación para el proceso de instalación.

2. Aprenda y comprenda los conceptos básicos de R:

Debe comenzar por comprender los conceptos básicos del lenguaje, las bibliotecas y la estructura de datos. Hay una gran cantidad de video tutoriales en línea sobre R. El tutorial en línea de Data Camp puede ser la mejor manera de comenzar. La versión en línea de Swirl es una herramienta donde puedes practicar R en un IDE similar a Rstudio. Consulte: https://www.datacamp.com/communi

Algunos recursos fuera de línea que también se pueden tener en cuenta son:

  • La introducción gratuita al manual de R por CRAN
  • La R de Jared Lander para todos
  • Quick-R

Aprenda a enmarcar tablas, resúmenes y descripciones. Además, realice la carga e instalación de paquetes junto con la visualización de datos mediante el comando plot.

Asista a una sesión de demostración gratuita sobre Big Data y análisis para saber cómo puede comenzar su carrera en Data Analytics o Big Data. Obtendrá una guía adecuada sobre cómo comenzar a aprender análisis de datos con Python, SAS, R o Excel.

3. Comprender la comunidad R

El rápido aumento y popularidad de este idioma se atribuye a su comunidad fuerte.

Conéctese con la comunidad, blogs dedicados a R. Comprenda el ecosistema del paquete R aquí: https://cran.r-project.org/web/v

4. Juega con datos:

La manipulación e importación de datos son aspectos importantes en la ciencia de datos. En R, es factible y muy conveniente importar diferentes formatos de datos utilizando paquetes específicos.

· Lector para importar archivos planos

· El paquete readxl para obtener archivos de Excel en R

· El paquete de refugio le permite importar archivos de datos SAS, STATA y SPSS en R.

· Bases de datos: conéctese a través de paquetes como RMySQL y RpostgreSQL, y acceda y manipule a través de DBI

· Rvest para raspar webs

Una vez que sus datos estén disponibles en su entorno de trabajo, estará listo para comenzar a manipularlos con estos paquetes:

  • El paquete tidyr para ordenar sus datos.
  • El paquete stringr para la manipulación de cadenas.
  • Para el marco de datos como objetos, aprenda los entresijos del paquete dplyr (intente este curso).
  • ¿Necesita realizar tareas de disputas de datos pesados? Mira el paquete data.table
  • ¿Realizando análisis de series de tiempo? Pruebe paquetes como zoo, xts y quantmod.

5. Visualización impactante de datos

Se dice con razón: las imágenes dicen mucho. Entonces, a este respecto, aprenda y comprenda los conceptos básicos de las herramientas de visualización de datos y las herramientas de informes. Ayuda en una buena presentación y una mejor comprensión para los demás también. Cree sus propias visualizaciones de datos, paneles de control efectivos e interactivos con excelentes GUI.

Comience a trazar:

Amplios formatos de gráficos disponibles con R. Comience a crear sus propios gráficos. Comience con gramática de gráficos.

Aprenda ggplot2, que es probablemente el paquete más importante para dominar para la visualización de datos en R.

Ver más opciones de visualización en esta vista de tareas CRAN.

Espero que esto ayude.

Recomendaré seguir el horario mencionado a continuación

  1. Aprender programación R
  2. Resuelva algunos casos de práctica en R, de modo que pueda tener confianza para aplicarlo
  3. Aprende estadísticas básicas. Debes saber
  1. Tendencias centrales (modo medio medio) y cuándo usar qué
  2. medida de dispersión alrededor de la medida central
  3. Teorema del límite central (cómo el promedio / suma resulta ser una distribución normal para una muestra mayor de 30)
  4. prueba de hipótesis: prueba de un lado / prueba de dos lados / valor p
  5. Regresión lineal (qué es, cómo realizar esto e interpretar el resultado)
  6. ANOVA de una / dos vías
  7. Análisis de datos categóricos: prueba de chi cuadrado (junto con el valor p de la tabla de contingencia)
  • Aprenda el árbol de decisión (CART: árbol de clasificación y regresión, CHAID, GINI, ID3, Método de bosque aleatorio, método para diseñar datos para el modelado del árbol de decisión, métodos para validar modelos de árbol de decisión, etc.)
  • Aprenda análisis de conglomerados (aprendizaje sin supervisión, donde no hay una variable de resultado. Tiene agrupación jerárquica, agrupación no jerárquica (k-medias), etc.)
    1. Aprender regresión logística (muy útil para el proceso de puntuación utilizado actualmente)
    2. entender
    1. PCA – análisis de componentes principales – útil para la reducción de dimensionalidad, Análisis de componentes principales (PCA) – YouTube
    2. Análisis factorial,
    3. Red neuronal artificial: muy útil para una variedad de situaciones (especialmente clasificación)
    4. SVM y truco del núcleo (útil para clasificar límites no lineales)
    5. Análisis conjunto y regresión de variables ficticias
    6. Análisis discriminante lineal
    7. filtración colaborativa
    8. Aprendizaje de refuerzo (un ejemplo es conductor menos automóvil)

    Si observa, mediante este método, sabrá que la mayoría de las cosas requieren para la ciencia de datos / aprendizaje automático usando R. Los algoritmos de aprendizaje automático se pueden ver en esta biblioteca Machine Learning Library (MLlib)

    Hay muchas maneras de adquirir conocimiento sobre la programación de r. Aquí están algunos :

    BLOGS

    1. R-bloggers
    2. Casa
    3. Blog de estadísticas R

    Entonces, estos son algunos blogs sobre programación que puedes aprender desde cero.

    Cursos online:

    1. Programación R | Coursera
    2. R Programming AZ ™: R para ciencia de datos con Real
    3. Curso gratuito de introducción a la programación en línea de R

    Libros:

    1. Amazon.com: The Art of R Programming: A Tour of Statistical Software Design (8601404372872): Norman Matloff: Libros
    2. Amazon.com: R para Data Science: Importar, ordenar, transformar, visualizar y modelar datos (9781491910399): Hadley Wickham, Garrett Grolemund: Libros

    Si eres principiante, entonces necesitas un instructor que tenga la capacidad de explicar los conceptos complejos de manera simple.

    Feliz aprendizaje.!

    Supongo que ya tienes un gran conocimiento de las estadísticas, porque eso es mucho más importante que R al principio.

    Lo que más me ayudó perosnalmente fue Learn R, Python & Data Science Online | DataCamp. Es un motor increíblemente bueno que le solicita que escriba el código usted mismo, para que pueda memorizar todas las funciones y sintaxis. También hay videos realmente buenos que explican los temas en profundidad. Los cursos en línea en edX o Coursera no me funcionaron muy bien, porque a menudo solo copie y pegue el código, pero realmente no lo domina con fluidez. Y eso es lo que más necesita como DS: debe poder usar el idioma con fluidez.

    El segundo paso que recomendaría sería iniciar sesión en Upwork, el lugar de trabajo en línea más grande del mundo o Freelancer – Hire & Find Jobs y obtener algunas tareas fáciles. Eso te ayudará a comenzar a hacer algo en R al resolver los problemas de otras personas. Como científico de datos, debe tener experiencia práctica y aquí es donde la obtiene. Ahora, un descargo de responsabilidad, los trabajos ofrecidos en estos sitios web suelen ser bastante malos, pero me ayudaron a aprender, así que tómalos como un ejercicio de aprendizaje, no como una carrera.

    Buena suerte y no dude en ponerse en contacto si tiene preguntas más específicas. Estaré muy feliz de ayudar!

    1. Repase el libro de Garrett y Hadley : R for Data Science Es una gran cantidad de material, cuando termina (o si se aburre):
    2. Encuentre conjuntos de datos interesantes sobre un tema que le apasione (por ejemplo, finanzas, deportes, clima, economía) y aplique lo que aprendió en sus datos favoritos. Blog sobre tus hallazgos:
    1. Haga un análisis con dplyr y ggplot2
    2. Cree un modelo de aprendizaje automático (aunque solo sea con lm o glm )
  • Haz una competencia de kaggle que te parezca interesante. Comience sin ayuda, vea qué tan alto puede llegar en la tabla de clasificación y luego aprenda de los foros para mejorar sus características / modelo.
  • Abraza la incomodidad
    1. Regala una bolsa marrón en tu empresa
    2. Presente en una reunión de R
    3. Escribir y promocionar un blog.
  • Lo más importante, trate de usar R en su trabajo diario. Obtener la práctica diaria con datos relevantes para usted es la mejor manera de mejorar.
  • Aprender o “dominar” la ciencia de datos lleva tiempo. ¿Por qué no aprender de los mejores? Le ahorrará mucho tiempo y lo beneficiará mucho.

    Aprenda ciencia de datos de expertos de la industria en Harvard, Columbia, Cisco, Apple y Google. Los instructores de Experfy son líderes de opinión de la industria que le brindan capacitación en profundidad en temas introductorios como estadísticas y avanzados como el aprendizaje automático.

    Aquí hay un curso para ti:

    Probabilidad y estadística para la ciencia de datos con R

    Aplaudo su decisión de aprender R, ya que este es uno de los lenguajes de análisis de datos más potentes disponibles hasta la fecha. Los pasos básicos que puede seguir para aprender R son:

    • Comience con lo básico sobre R

    • Trata de entender la comunidad R

    • Aprenda a importar y manipular datos con R

    • Desarrolle su habilidad de visualización de datos usando R

    • Comunique sus resultados con expertos en ciencia de datos que lo guiarán.

    Mi sugerencia para usted sería inscribirse en un programa de capacitación donde obtenga información clara sobre el idioma. Intente consultar el curso de formación en ciencia de datos con R de ScholarsPro. Este es un programa realmente bueno si deseas lograr el dominio de R.

    Si desea dominar la ciencia de datos en R, entonces la mejor manera es unirse al instituto que proporciona Data Science con el curso de capacitación en línea R. Niche Thyself es el mejor instituto para aprender ciencia de datos con la programación de R. R es un medio poderoso para crear imágenes para ayudar a la gerencia a comprender el escenario actual del negocio. Para más detalles, visite https://www.nichethyself.com

    En Learnvern puedes aprender ciencia de datos en R con los mejores videos disponibles en varios idiomas.

    Después de completar, por supuesto, obtienes el certificado también.

    Para saber más visite Learnvern.

    Levi te ha dado algunos consejos muy buenos y quiero hacer hincapié en el último.

    Intenta usar R en tu trabajo diario.

    Practícalo y juega con él. Si tiene alguna idea sobre transformaciones de datos, informes u otras cosas que desea hacer, vea cómo puede hacerlo en R.

    Así es como aprendes.