Cuál debería ser mi próximo paso, después de cubrir las estadísticas básicas de las estadísticas principales, un curso básico de análisis de datos (preparación de datos, exploración, clasificación, minería de reglas de asociación, agrupación, regresión) y un proyecto en un conjunto de datos SSLC (puede encontrarlo en mi único blog en Quora) usando R?

Gracias por A2A Joy Deep.
Primero, debe aprender a hacer una buena pregunta en cualquier foro. Al menos eche un vistazo a algunos de ellos antes de preguntar. Debería poner un buen título en la sección de título y el resto de los detalles en la parte de descripción, parece un desastre cuando pone todo el texto en el título y deja la descripción en blanco. Tenlo en cuenta la próxima vez.
tl; versión dr:
Ve a resolver Cross Validated , HackerRank y luego Competiciones | Kaggle

Versión larga:
Ahora, pasemos a tu pregunta.
En estadística, como cualquier otra materia, hay múltiples fases de aprendizaje.

Primero, desarrollas un interés si no estás obligado a aprenderlo.
Luego, encuentre un buen mentor para aprenderlo, porque si está tratando de aprender algo y no tiene dudas / dudas en su mente, probablemente no lo esté aprendiendo, para aclarar estas dudas, necesita un mentor que tenga suficiente conocimiento en el campo.
Para aprender: plataformas como coursera, edx y udemy o un mentor físico como un profesor o alguien de la industria sería genial.
Para aclarar dudas: pregunte a la persona si está disponible, pregunte en el foro, por supuesto, si está en línea, si no está satisfecho, llegó a Stack Overflow / Cross Validated.
Una vez que haya aprendido un algoritmo, debe aplicarlo para comprenderlo más profundamente. Intente resolver las preguntas de programación del curso en línea, busque las preguntas de la entrevista sobre el tema, intente aclarar las dudas de otros en los foros / Stack Overflow, sus preguntas cruzadas también lo ayudarán a mejorar su conocimiento.
Hay algunos buenos desafíos de aprendizaje automático en HackerRank. intente resolverlos, para tener una pista, lea primero la solución de los mejores hackers y luego comience.
Después de alcanzar la excelencia en hackerrank, puedes probar competiciones de kaggle, si tienes grandes habilidades, también puedes ganar precios. Para comenzar, puede probar Titanic: Aprendizaje automático de desastres, Reconocimiento de dígitos, etc. Primeros pasos / Desafíos de juegos e Investigación / Desafíos destacados más adelante.
Al resolver estos desafíos, puede consultar algunos documentos de investigación e implementarlos para obtener una nueva comprensión de los nuevos algoritmos.
El ejercicio final, en mi opinión, será resolver algunos desafíos abiertos / reales como predecir cuáles son las posibilidades de que un video de YouTube se vuelva viral, detectar anuncios objetables en un sitio web, predecir el movimiento del mercado de valores del día siguiente, etc.
Hay sitios como OpenShift de Red Hat, ShinyApps.io y ŷhat | Plataforma de operaciones de ciencia de datos donde puede crear y cargar sus aplicaciones web de forma gratuita. Además, mantenga sus códigos en github.com para que otros puedan pedirlos prestados / actualizarlos, si así lo desean.
Creo que en este proceso tomará más de un año y puede obtener nuevas ideas de negocios, conocer gente nueva, a algunos de ellos les gustaría contratarlo, a algunos les gustaría trabajar para usted.
Espero que seguramente nos crucemos en algún lugar a lo largo de nuestras rutas respectivas.

Análisis de datosAprendizaje automáticoCiencia de datosEstadísticaMinería de datosR

¿Cómo se entrenan las redes neuronales de factor latente?

¿Cómo entrenamos redes neuronales en datos numéricos?

¿Cuáles son los pros y los contras de estos tres modelos de secuencia: modelo MaxEnt Markov, campos aleatorios condicionales y redes neuronales recurrentes?

¿Algunas funciones de activación son mejores que otras en la red neuronal artificial?

En una máquina de vectores de soporte, el número de vectores de soporte puede ser mucho menor que el conjunto de entrenamiento. ¿Cómo puede ser útil esta característica?

¿Cuál es una explicación simple pero detallada de Textrank?

Gracias por el A2A.
Una vez que tenga una buena idea sobre el análisis de datos básicos, hay dos formas de inclinarse.
El primero sería entrar en métodos de aprendizaje automático, supervisados y sin supervisión. Este es un lado muy matemático, y si puede aceptarlo, puede dominar el trabajo y la optimización de los últimos métodos de ML. Comience por comprender las matemáticas detrás de la regresión (ambos), continúe con SVM, entienda los núcleos, comprenda cómo funcionan las redes neuronales, cómo funciona el backprop algo y, a partir de ahí, las puertas del aprendizaje profundo, los perceptrones multicapa, etc. están abiertos. Estos son los mejores métodos a partir de hoy.
Otra dirección a seguir sería el lado tecnológico de las cosas. Comience a leer sobre hadoop, spark, cómo se procesan los datos por lotes y cómo funciona la transmisión de datos. Comience a implementar técnicas que estén disponibles en bibliotecas como mahout (para java) para obtener experiencia en el trabajo con datos de gran volumen y alta velocidad. Sumerja sus manos en cerdo, colmena, etc.

Dicho esto, un verdadero científico de datos es alguien que conquista ambas corrientes, ¡pero uno tiene que comenzar con cualquiera de las dos! ¡Buena suerte!

Manish Saraswat

Gracias por el A2A!
Bueno, estoy haciendo algunas suposiciones iniciales aquí, es decir, si desea ser un Científico de Datos y, en segundo lugar, busca profundizar su conocimiento de las técnicas requeridas.
En primer lugar, sería bueno preguntarse qué tan bien puede manejar los datos dados. La ciencia de datos normalmente consiste en identificar el problema comercial en cuestión y en tomar decisiones relacionadas con la forma en que desea modelar el problema (clasificación o regresión) y cómo procedería con el tratamiento de los valores faltantes y la limpieza / preparación de un conjunto de datos real. Un gran lugar para perfeccionar estas habilidades es The Home of Data Science. Puede comenzar con los problemas que son para el conocimiento.
Hay mucho en Machine Learning que viene después de esto. Aprenderá muchas técnicas que se utilizan para resolver problemas de clasificación y / o regresión en el contexto de un problema específico. Jagadeesh Rajarajan tiene algunas excelentes sugerencias para comenzar a continuación, a las que solo puedo agregar OpenIntro.
Entonces, hacer los dos anteriores en conjunto sería una forma de avanzar. Aprenderá los usos prácticos de Regresión, Árboles de decisión, Bosque aleatorio, Máquinas de vectores de soporte, etc., como soluciones a un problema en lugar de un desorden de ideas matemáticas.
Además, aunque R es excelente para comenzar, ¡también deberías comenzar a usar Python!
Agregaré a esta respuesta en el futuro. Estoy seguro de que hay muchas otras opciones que encontrarás una vez que comiences a explorar.

Kuber Chaurasiya

Puedes hacer muchas cosas, pero depende de tus objetivos. Si desea ser un científico de datos, intente realizar el curso de Análisis de datos e Inferencia estadística de coursera, el curso de aprendizaje automático de Andrew Ng de coursera. El curso de Especialización en Ciencia de Datos de la Universidad John Hopkins podría ayudarlo a cubrir diferentes aspectos de la ciencia de datos.

Si desea cursos con enfoque en Python y más profesionales (no académicos), entonces los cursos de Udacity son los mejores para buscar.

Para un camino más serio, puede seguir la pista de maestros de ciencia de datos de código abierto:
http://datasciencemasters.org/

Joy Deep

En pocas palabras, ¿revisó la sección de rutas de aprendizaje en Analyticsvidhya.com?

Aprendí R desde allí. Encontrarás una guía paso a paso para aprender R.

PD: perdóname por no poder agregar el hipervínculo.

Kuber Chaurasiya

More Interesting

Cómo hacer una clasificación en tiempo real con CNN

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

¿Cuáles son algunos trabajos de investigación basados en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?

¿Podemos aplicar tanto la selección de características como la reducción de dimensionalidad?