A continuación se detalla el contenido del curso de capacitación en Ciencias de datos de RStraining. Por favor, revísalo. También puede optar por RStraining, que ofrece la mejor capacitación en línea en Hyderabad , así como capacitación en el aula para Data Science .
Contenido detallado del curso de ciencia de datos
R con ejemplos en tiempo real
- No soy muy bueno en Estadística o Probabilidad, pero soy un buen programador. ¿Debo aprender Big Data?
- ¿A qué nivel, o cuánta programación, necesito saber para convertirme en científico de datos?
- ¿Cuáles son algunos de los métodos que hacen los científicos para analizar datos?
- ¿Dónde puedo encontrar conjuntos de datos abiertos gratuitos para ganar experiencia como Business Intelligence y Data analyst?
- ¿Qué es mejor, Data Science M.Tech de IIT Hyderabad o Big Data Analytics Certification de IIM Bangalore?
Instalación de R y R Studio (MAC y Windows)
Tipos de variables.
Usando variables
Variables lógicas y operadores
El bucle “Mientras”
Usando la consola
El bucle “para”
La declaración “If”
¿Qué es un vector?
Vamos a crear algunos vectores.
Usando los corchetes []
Operaciones vectorizadas
El poder de las operaciones vectorizadas.
Funciones en R
Paquetes en R
Matrices
Construyendo su primera matriz
Dimensiones de nombres
Colnames () y Rownames ()
Operaciones matriciales
Visualizando con Matplot ()
Subconjunto
Visualizar subconjuntos
Creando tu primera función
Importar datos a R
Explorando su conjunto de datos
Usando el signo $
Operaciones básicas con un marco de datos
Filtrar un marco de datos
Introducción a qplot
Construyendo marcos de datos
Fusionar marcos de datos
Funciones de bucle
• lapply ()
• sapply ()
• aplicar()
• tapply ()
• mapply ()
Expresiones regulares
Guardar objetos r
paquete dplyr
Aplicaciones brillantes
Soluciones de tarea
Ley de solución de tarea de grandes números
Solución de tarea Sección 3: Análisis de estados financieros
Solución de tarea Sección 4: Tiros libres de baloncesto
Solución de tarea Sección 5: Tendencias mundiales
Solución de Tarea Sección 6: Película Doméstica% Bruto
Estadísticas con R
Descriptivo:
-Recopilación de datos
-Colección de datos – Diseño de cuestionarios
-Colección de datos – Observación
-Colección de datos – Método de estudio de caso
-Datos cualitativos vs datos cuantitativos
-Patrones de datos
-Deciles Estadísticas
-Diagrama de Venn
-Teorema del límite central
-Teorema de Chebyshev
-Curtosis
-Distribución normal
-Distribución Laplace
-Log Gamma Distribution
Distribución de Rayleigh
-Distribución exponencial
-Distribución multinomial
-Distribución binomial
-Beta Distribución
-F distribución
-Distribución binomial negativa
-Gamma Distribution
-Chi-cuadrado Distribución
-Significado geometrico
-Significado armonico
-Función externa
-Trama de hoja y tallo
-Distribución de veneno
-Distribución acumulativa de Poisson
Distribución gamma inversa
-Distribución uniforme continua
-Distribución hipergeométrica
-Número armónico
-Gumbel Distribución
-Comparar parcelas
-Calculadora de energía
-Proceso Sigma
-Frecuencia de resonancia armónica
-Tabla normal estándar
-Variancia acumulada (r)
-Desviación media
-Significa diferencia
Rcode (+ teoría) para descriptivo:
tendencia central:
-Significado aritmetico
-Media aritmética
-Modo aritmético
-Rango Aritmético
-Range Rule of Thumb
-R-cuadrado ajustado
-Desviación Estándar
-Desviación estándar relativa
-Análisis de variación
-Grand Mean
-Boxplots
-Desviación cuartil
-Distribución de frecuencias
-Gráfico de barras
-Gráfica de puntos
-Gráfico de dispersión
-Coeficiente de correlación
-Gráfico circular
-Histogramas
-Frecuencia acumulada
-Gráficos acumulativos
-Oblicuidad
-Bondad de ajuste
-Transformaciones
-Medio recortado
-Coeficiente de confiabilidad
-Regresión lineal
-Regresión logística
-Regresión cuadrática
-Regresión Intercepción Confianza Intervalo
-Residual suma de cuadrados
-Equation Sum of Square
-Error estándar (SE)
-Media cuadrática
Coeficiente kappa de Cohen
-Ti 83 Regresión exponencial
-Shannon Wiener Índice de Diversidad
Inferencial:
-Notación estadística
-Planificación de muestras
-Métodos de muestreo
-Muestreo aleatorio simple
-Muestreo estratificado
-Muestreo de racimos
-Tamaño de muestra requerido
-Evaluación de la hipótesis
– Relación señal / ruido
-Mejor estimación de puntos
-Tipo I y II Error
-T-Tabla de distribución
-Residual análisis tabla Z
-F Tabla de prueba
-Chi Mesa cuadrada
-Significancia estadística
-Coeficiente de intervalo de variación
Rcode para inferencial:
-Estudiante T Test
-Una prueba Z de proporción
-Kolmogorov Smirnov Test
-Mcnemar Test
-Anova (1 vía, 2 vías)
-Manova
-Prueba de chi-cuadrado
Probabilidad:
-Factorial
-Probabilidad
-Odd e incluso permutación
-Permutación con reemplazo
-Permutación circular
-Distribución de probabilidad geométrica
Función de densidad de probabilidad
-Probabilidad Teorema de Bayes
-Permutación
-Combinación
-Modelo Black-Scholes
Teorema de aditivo de probabilidad
-Combinación con reemplazo
-Probabilidad Teorema Multiplicativo
-Capacidad de proceso de estimación (Cp) y rendimiento del proceso (Pp)
-Fórmulas estadísticas
Aprendizaje automático con ejemplos en tiempo real
Construcción de regresores lineales
Interpretación de resultados de regresión y términos de interacción
Realizar análisis residuales y extraer observaciones extremas Distancia del cocinero
Extracción de mejores modelos con mejores subconjuntos, regresión gradual y ANOVA
Validación del rendimiento del modelo en datos nuevos con k-Fold Cross Validation
Construcción de regresores no lineales con splines y GAM
Creación de regresores logísticos, métricas de evaluación y curva ROC
Comprender el concepto y construir clasificador ingenuo de Bayes
Construcción del clasificador de vecinos más cercanos k
Construyendo modelos basados en árboles usando RPart, cTree y C5.0
Construyendo modelos predictivos con el paquete caret
Selección de características importantes con RFE, varImp y Boruta
Construcción de clasificadores con máquinas de vectores de soporte
Comprender el ensacado y la construcción de un clasificador forestal aleatorio
Implementando el impulso gradiente estocástico con GBM
Regularización con Ridge, Lazo y Elasticnet
Creación de clasificadores y regresores con XGBoost
Reducción de dimensionalidad con análisis de componentes principales
Agrupación con k-medias y componentes principales
Determinación del número óptimo de clústeres
Comprender e implementar el agrupamiento jerárquico
Agrupación con propagación de afinidad
Construcción de motores de recomendación
Comprender los componentes de una serie temporal y el paquete xts
Estacionalidad, tendencia y desestacionalización
Comprender la importancia de los retrasos, ACF, PACF y CCF
Predicción con media móvil y suavizado exponencial
Pronósticos con inviernos dobles exponenciales y holt
Predicción con modelado ARIMA
Raspado de páginas web y procesamiento de textos
Corpus, TDM, TF-IDF y Word Cloud
Similitud de coseno y análisis semántico latente
Extracción de temas con asignación de Dirichlet latente
Puntuación de sentimiento con tidytext y Syuzhet
Clasificación de textos con RTextTools
Construyendo un ggplot2 básico y personalizando la estética y los temas
Manipulación de leyenda, adición de texto y anotación
Dibujar múltiples trazados con facetas y cambiar diseños
Creación de gráficos de barras, diagramas de caja, series de tiempo y diagramas de cinta
Extensiones ggplot2 y ggplotly
Implementación de mejores prácticas para acelerar la vista previa del código R
Implementación de computación paralela con doParallel y foreach
Escribir código R legible y rápido con tuberías y DPlyR
Escribir código R superrápido con pulsaciones de teclas mínimas utilizando datos.
Interfaz C ++ en R con RCpp
Comprender la estructura de un paquete R
Construye, documenta y aloja un paquete R en GitHub
Realizar verificaciones importantes antes de enviar a CRAN
Enviar un paquete R a CRAN
Soluciones de aprendizaje automático de R
Descarga e instalación de R
Descarga e instalación de RStudio
Instalar y cargar paquetes
Leer y escribir datos
Usando R para manipular datos
Aplicando estadísticas básicas
Visualizando datos
Obtener un conjunto de datos para el aprendizaje automático
Lectura de un conjunto de datos Titanic desde una vista previa de archivo CSV
Convertir tipos en variables de caracteres
Detectar valores perdidos
Imputando valores perdidos
Explorando y visualizando datos
Predecir la supervivencia de los pasajeros con un árbol de decisión
Validar el poder de la predicción con una matriz de confusión
Evaluar el desempeño con la curva ROC
Comprender el muestreo de datos en R
Operando una distribución de probabilidad en R
Trabajar con estadística descriptiva univariante en R
Realización de correlaciones y análisis multivariado
Operación de regresión lineal y análisis multivariante
Realizar una prueba binomial exacta
Realizar la prueba t de Student
Realizar la prueba de Kolmogorov-Smirnov
Comprender la suma de rango de Wilcoxon y la prueba de rango firmado
Trabajando con la prueba de Chi-cuadrado de Pearson
Realización de un ANOVA unidireccional
Realizar un ANOVA de dos vías
Ajuste de un modelo de regresión lineal con lm
Resumiendo ajustes de modelo lineal
Uso de regresión lineal para predecir valores desconocidos
Generando un diagrama de diagnóstico de un modelo ajustado
Ajuste de un modelo de regresión polinómica con lm
Ajuste de un modelo de regresión lineal robusto con rlm
Estudiar un caso de regresión lineal en datos SLID
Reducción de dimensiones con SVD
Aplicando el modelo de Poisson para la regresión lineal generalizada
Aplicación del modelo binomial para la regresión lineal generalizada
Ajuste de un modelo aditivo generalizado a los datos
Visualizando un modelo aditivo generalizado
Diagnóstico de un modelo aditivo generalizado
Preparación de los conjuntos de datos de entrenamiento y prueba
Construyendo un modelo de clasificación con árboles de particiones recursivas
Visualizar un árbol de particiones recursivo
Medición del rendimiento de predicción de un árbol de particiones recursivo
Poda de un árbol de particiones recursivo
Crear un modelo de clasificación con un árbol de inferencia condicional
Visualizar un árbol de inferencia condicional
Medición del rendimiento de predicción de un árbol de inferencia condicional
Clasificación de datos con el clasificador vecino K-Nearest
Clasificación de datos con regresión logística
Clasificación de datos con el clasificador Naïve Bayes
Clasificación de datos con una máquina de vectores de soporte
Elegir el costo de un SVM
Visualizando un ajuste SVM
Predicción de etiquetas basadas en un modelo entrenado por un SVM
Afinando un SVM
Entrenamiento de una red neuronal con neuralnet
Visualizando una red neuronal entrenada por neuralnet
Predicción de etiquetas basadas en un modelo entrenado por neuralnet
Entrenando una red neuronal con nnet
Predicción de etiquetas basadas en un modelo entrenado por nnet
Estimación del rendimiento del modelo con k-fold Cross Validation
Realización de validación cruzada con el paquete e1071
Realizar validación cruzada con el paquete caret
Clasificación de la importancia variable con el paquete caret
Clasificación de la importancia variable con el paquete rminer
Encontrar características altamente correlacionadas con el paquete caret
Selección de funciones con el paquete Caret
Medición del rendimiento del modelo de regresión
Medición del rendimiento de predicción con una matriz de confusión
Medición del rendimiento de predicción utilizando ROCR
Comparación de una curva ROC con el paquete Caret
Medición de diferencias de rendimiento entre modelos con el paquete caret
Clasificación de datos con el método de ensacado
Realización de validación cruzada con el método de ensacado
Clasificación de datos con el método de refuerzo
Realizar validación cruzada con el método de refuerzo
Clasificación de datos con aumento de gradiente
Calcular los márgenes de un clasificador
Cálculo de la evolución de errores del método de conjunto
Clasificación de datos con bosque aleatorio
Estimación de los errores de predicción de diferentes clasificadores
Agrupación de datos con agrupación jerárquica
Cortar árboles en racimos
Agrupación de datos con el método k-medias
Dibujar un diagrama de clúster bivariado
Comparación de métodos de agrupación
Extracción de información de silueta del agrupamiento
Obtención del número óptimo de clústeres para k-medias
Agrupación de datos con el método basado en la densidad
Agrupación de datos con el método basado en modelo
Visualizando una Matriz de Disimilitud
Validación de clústeres externamente
Transformando datos en transacciones
Visualización de transacciones y asociaciones
Asociaciones mineras con la regla Apriori
Reglas redundantes de poda
Visualización de reglas de asociación
Conjuntos de artículos frecuentes de minería con Eclat
Crear transacciones con información temporal
Minería de patrones secuenciales frecuentes con cSPADE
Realizar selección de funciones con FSelector
Realizar reducción de dimensiones con PCA
Determinación del número de componentes principales mediante la prueba de pantalla
Determinación del número de componentes principales utilizando el método Kaiser
Visualización de datos multivariados usando biplot
Realizar reducción de dimensión con MDS
Reducción de dimensiones con SVD
Comprimir imágenes con SVD
Realización de reducción de dimensión no lineal con ISOMAP
Realización de reducción de dimensión no lineal con incrustación lineal local
Preparando el entorno RHadoop
Instalar rmr2
Instalar rhdfs
Operando HDFS con rhdfs
Implementación de un problema de recuento de palabras con RHadoop
Comparación del rendimiento entre un programa R MapReduce y un programa R estándar
Probar y depurar el programa rmr2
Instalar plyrmr
Manipulación de datos con plyrmr
Realización de aprendizaje automático con RHadoop
Configuración de clústeres RHadoop en Amazon EMR
Aprendizaje profundo con R
Introducción a las arquitecturas de capas ocultas múltiples
Conceptos fundamentales en el aprendizaje profundo
Introducción a las redes neuronales artificiales
Clasificación con redes neuronales artificiales de dos capas
Predicciones probabilísticas con ANN de dos capas
Introducción a las arquitecturas de capas ocultas múltiples
Ajuste de hiperparámetros ANN y mejores prácticas
Arquitecturas de redes neuronales
Las arquitecturas de redes neuronales continúan
El proceso de aprendizaje
Algoritmos de Optimización y Descenso de Gradiente Estocástico
Propagación hacia atrás
Optimización de hiperparámetros
Introducción a las redes neuronales convolucionales
Introducción a las redes neuronales convolucionales Continuación
CNN en R
Clasificación de imágenes del mundo real con modelos pre-entrenados
Introducción a las redes neuronales recurrentes
Introducción a la memoria a corto y largo plazo
RNN en R
Caso de uso: aprender a deletrear palabras en inglés desde cero
Introducción al aprendizaje no supervisado y de refuerzo
Autoencoders
Máquinas de Boltzmann restringidas y redes de creencias profundas
Aprendizaje de refuerzo con ANN
Caso de uso: detección de anomalías a través de autoencoders denoising
Aprendizaje profundo para visión artificial
Aprendizaje profundo para el procesamiento del lenguaje natural
Aprendizaje profundo para el procesamiento de señales de audio
Aprendizaje profundo para tareas multimodales complejas
Otras aplicaciones importantes del aprendizaje profundo
Depuración de sistemas de aprendizaje profundo
GPU y MGPU Computing para Deep Learning
Una comparación completa de todos los paquetes DL en R
Direcciones de investigación y preguntas abiertas
Big Data y Hadoop con ejemplos en tiempo real
Introducción a Big Data
Comenzando con Hadoop
Conceptos de colmena
Conceptos de cerdo
Caso de uso en colecciones de registros y análisis
Caso de uso en Ecommerece
Tableau con ejemplos en tiempo real
Trabajando con diferentes fuentes de datos
Interfaz de Tableau
Trabajando con gráficos
Funciones con cálculos
Temas avanzados: acciones, parámetros, filtros
Cálculos de tablas, paneles avanzados, narración de cuentos
Conectividad con R
Casos de uso