Cuál debería ser mi próximo paso, después de cubrir las estadísticas básicas de las estadísticas principales, un curso básico de análisis de datos (preparación de datos, exploración, clasificación, minería de reglas de asociación, agrupación, regresión) y un proyecto en un conjunto de datos SSLC (puede encontrarlo en mi único blog en Quora) usando R?

Gracias por A2A Joy Deep.
Primero, debe aprender a hacer una buena pregunta en cualquier foro. Al menos eche un vistazo a algunos de ellos antes de preguntar. Debería poner un buen título en la sección de título y el resto de los detalles en la parte de descripción, parece un desastre cuando pone todo el texto en el título y deja la descripción en blanco. Tenlo en cuenta la próxima vez.
tl; versión dr:
Ve a resolver Cross Validated , HackerRank y luego Competiciones | Kaggle

Versión larga:
Ahora, pasemos a tu pregunta.
En estadística, como cualquier otra materia, hay múltiples fases de aprendizaje.

  1. Primero, desarrollas un interés si no estás obligado a aprenderlo.
  2. Luego, encuentre un buen mentor para aprenderlo, porque si está tratando de aprender algo y no tiene dudas / dudas en su mente, probablemente no lo esté aprendiendo, para aclarar estas dudas, necesita un mentor que tenga suficiente conocimiento en el campo.
    Para aprender: plataformas como coursera, edx y udemy o un mentor físico como un profesor o alguien de la industria sería genial.
    Para aclarar dudas: pregunte a la persona si está disponible, pregunte en el foro, por supuesto, si está en línea, si no está satisfecho, llegó a Stack Overflow / Cross Validated.
  3. Una vez que haya aprendido un algoritmo, debe aplicarlo para comprenderlo más profundamente. Intente resolver las preguntas de programación del curso en línea, busque las preguntas de la entrevista sobre el tema, intente aclarar las dudas de otros en los foros / Stack Overflow, sus preguntas cruzadas también lo ayudarán a mejorar su conocimiento.
  4. Hay algunos buenos desafíos de aprendizaje automático en HackerRank. intente resolverlos, para tener una pista, lea primero la solución de los mejores hackers y luego comience.
  5. Después de alcanzar la excelencia en hackerrank, puedes probar competiciones de kaggle, si tienes grandes habilidades, también puedes ganar precios. Para comenzar, puede probar Titanic: Aprendizaje automático de desastres, Reconocimiento de dígitos, etc. Primeros pasos / Desafíos de juegos e Investigación / Desafíos destacados más adelante.
    Al resolver estos desafíos, puede consultar algunos documentos de investigación e implementarlos para obtener una nueva comprensión de los nuevos algoritmos.
  6. El ejercicio final, en mi opinión, será resolver algunos desafíos abiertos / reales como predecir cuáles son las posibilidades de que un video de YouTube se vuelva viral, detectar anuncios objetables en un sitio web, predecir el movimiento del mercado de valores del día siguiente, etc.
    Hay sitios como OpenShift de Red Hat, ShinyApps.io y ŷhat | Plataforma de operaciones de ciencia de datos donde puede crear y cargar sus aplicaciones web de forma gratuita. Además, mantenga sus códigos en github.com para que otros puedan pedirlos prestados / actualizarlos, si así lo desean.
  7. Creo que en este proceso tomará más de un año y puede obtener nuevas ideas de negocios, conocer gente nueva, a algunos de ellos les gustaría contratarlo, a algunos les gustaría trabajar para usted.
    Espero que seguramente nos crucemos en algún lugar a lo largo de nuestras rutas respectivas.

Gracias por el A2A.
Una vez que tenga una buena idea sobre el análisis de datos básicos, hay dos formas de inclinarse.
El primero sería entrar en métodos de aprendizaje automático, supervisados ​​y sin supervisión. Este es un lado muy matemático, y si puede aceptarlo, puede dominar el trabajo y la optimización de los últimos métodos de ML. Comience por comprender las matemáticas detrás de la regresión (ambos), continúe con SVM, entienda los núcleos, comprenda cómo funcionan las redes neuronales, cómo funciona el backprop algo y, a partir de ahí, las puertas del aprendizaje profundo, los perceptrones multicapa, etc. están abiertos. Estos son los mejores métodos a partir de hoy.
Otra dirección a seguir sería el lado tecnológico de las cosas. Comience a leer sobre hadoop, spark, cómo se procesan los datos por lotes y cómo funciona la transmisión de datos. Comience a implementar técnicas que estén disponibles en bibliotecas como mahout (para java) para obtener experiencia en el trabajo con datos de gran volumen y alta velocidad. Sumerja sus manos en cerdo, colmena, etc.

Dicho esto, un verdadero científico de datos es alguien que conquista ambas corrientes, ¡pero uno tiene que comenzar con cualquiera de las dos! ¡Buena suerte!

Gracias por el A2A!
Bueno, estoy haciendo algunas suposiciones iniciales aquí, es decir, si desea ser un Científico de Datos y, en segundo lugar, busca profundizar su conocimiento de las técnicas requeridas.
En primer lugar, sería bueno preguntarse qué tan bien puede manejar los datos dados. La ciencia de datos normalmente consiste en identificar el problema comercial en cuestión y en tomar decisiones relacionadas con la forma en que desea modelar el problema (clasificación o regresión) y cómo procedería con el tratamiento de los valores faltantes y la limpieza / preparación de un conjunto de datos real. Un gran lugar para perfeccionar estas habilidades es The Home of Data Science. Puede comenzar con los problemas que son para el conocimiento.
Hay mucho en Machine Learning que viene después de esto. Aprenderá muchas técnicas que se utilizan para resolver problemas de clasificación y / o regresión en el contexto de un problema específico. Jagadeesh Rajarajan tiene algunas excelentes sugerencias para comenzar a continuación, a las que solo puedo agregar OpenIntro.
Entonces, hacer los dos anteriores en conjunto sería una forma de avanzar. Aprenderá los usos prácticos de Regresión, Árboles de decisión, Bosque aleatorio, Máquinas de vectores de soporte, etc., como soluciones a un problema en lugar de un desorden de ideas matemáticas.
Además, aunque R es excelente para comenzar, ¡también deberías comenzar a usar Python!
Agregaré a esta respuesta en el futuro. Estoy seguro de que hay muchas otras opciones que encontrarás una vez que comiences a explorar.

Puedes hacer muchas cosas, pero depende de tus objetivos. Si desea ser un científico de datos, intente realizar el curso de Análisis de datos e Inferencia estadística de coursera, el curso de aprendizaje automático de Andrew Ng de coursera. El curso de Especialización en Ciencia de Datos de la Universidad John Hopkins podría ayudarlo a cubrir diferentes aspectos de la ciencia de datos.

Si desea cursos con enfoque en Python y más profesionales (no académicos), entonces los cursos de Udacity son los mejores para buscar.

Para un camino más serio, puede seguir la pista de maestros de ciencia de datos de código abierto:
http://datasciencemasters.org/

En pocas palabras, ¿revisó la sección de rutas de aprendizaje en Analyticsvidhya.com?

Aprendí R desde allí. Encontrarás una guía paso a paso para aprender R.

PD: perdóname por no poder agregar el hipervínculo.

More Interesting

Cómo hacer una clasificación en tiempo real con CNN

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

¿Cuáles son algunos trabajos de investigación basados ​​en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?

¿Podemos aplicar tanto la selección de características como la reducción de dimensionalidad?

¿Cómo manejo la recompensa retrasada en el aprendizaje por refuerzo?

¿Qué es la divergencia contrastante?

¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

¿Es obligatoria la experiencia de aprendizaje automático para conseguir un trabajo con Google? ¿Es realmente un tema importante en las universidades?

¿Se pueden utilizar algoritmos genéticos y optimización de enjambre de partículas para construir sistemas de reconocimiento de voz?

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

¿Por qué usamos k-means clustering? ¿Qué usos tiene en un escenario del mundo real?

Con el desarrollo de marcos informáticos escalables como TensorFlow y Spark, ¿seguirán siendo relevantes los marcos de una sola máquina? NumPy podría ser solo API.

¿Cómo y dónde podemos comenzar a implementar proyectos basados ​​en el aprendizaje automático y qué idioma es preferible para el mismo?