Estoy interesado en el aseguramiento de la calidad del software. Necesito entrar en el análisis de big data. ¿Cuáles son los cursos y certificaciones que necesito tomar?

Conozca Big Data, Data Science:

Únase al Encuentro Aegis-IBM Big Data & Data Science, Bangalore, el 26 de febrero de 2017.

Únase al Meetup de Aegis-IBM, Big Data Day: ¿Qué se necesita para ser un Data Scientist? Explore y aprenda todo lo que quería saber sobre Data Scientist, Data Science, Big Data, Business Analytics, Predictive analytics, ML, NLP, Cognitive Computing.

Cómo se usa en la vida real en diversas áreas funcionales como Finanzas, Operaciones, Marketing, Recursos Humanos, etc. en diferentes industrias Comercio electrónico, Telecomunicaciones, salud, banca, seguros, automóviles, etc. Conozca cómo diversas herramientas como Spark, Hadoop, R, Python, IBM Watson , SAS e IBM Infoshphre Big Insight pueden ayudarlo en su viaje de ciencia de datos.

Oradores:

1) Deepak Vinchhi – Cofundador y Director de Operaciones, Julia Computing, Inc. – Julia Computing, Inc.
2) Bhanu Ramgopal – Vicepresidente – Ingeniería y Análisis en Myntra
3) Subrat Parida – Fundador y CEO en racetrack.ai
4) Bhupesh Daheria – CEO, Aegis School of Data Science, Fundador – Big Data Product Factory, Data Science Congress, Bell Award, mUniversity

Agenda:

¿Qué es la ciencia de datos? ¿Qué es Business Analytics? ¿Qué es Big Data? ¿Qué es el análisis predictivo? IBM Watson? ¿Cómo la informática cognitiva, la ciencia de datos, el análisis de negocios y los grandes datos están cambiando el mundo? ¿Quién está usando?

¿Empleos, paquetes y oportunidades en Big Data, análisis y ciencia de datos?
¿Qué son las oportunidades profesionales? ¿Qué empresas están contratando? ¿Cuál es el rango de salario en este campo? ¿Cómo un chico más nuevo de BSc Stats obtuvo 11 paquetes de inicio de Lacs en AngelBroking? ¿Por qué el profesional de TCS S / W obtuvo un aumento del 100% en HDFC? ¿Por qué Paytm contrató a 8 científicos de datos con un paquete de USD 350,000?

¿Puedo hacer un cambio de carrera a esta edad?
Tengo 15 años de experiencia en gestión de proyectos. ¿Puedo cambiar mi carrera en Big Data? ¿Qué tipo de trabajos puedo conseguir? Tengo 5 años de experiencia en marketing y soy MBA. ¿Puedo cambiar mi carrera en Big Data, BA, Data Science? No tengo antecedentes técnicos o de codificación. ¿Puedo pasar a la analítica? ¡Traiga sus preguntas y obtenga respuestas de expertos!

¿Habilidades necesarias?
¿Qué habilidades y competencias se requieren en el mercado? ¿Puedo conseguir un trabajo en Big Data? ¿Cómo manejar la ciencia de big data, la computación cognitiva, la ola de big data? ¿Debo aprender R o Python? Hadoop o Spark? ¿Por qué necesito aprender Machine Learning?

¿Cómo Aegis e IBM pueden ayudarlo a comenzar una carrera?
¿Cómo Aegis e IBM pueden ayudarlo a comenzar una carrera en Data Science, Big Data y Business Analytics?

Fecha: domingo 26 de febrero de 2017
Lugar: Devaraj URS Bhavan, 8, Millers Rd, Govinda Chetty Colony, Kaverappa Layout, Vasanth Nagar, Bengaluru, Karnataka 560051
Mapa: https://goo.gl/xEOiJf
Horario: 1:30 PM – 6:00 PM

Para registrarse: haga clic aquí

La inscripción para participar es gratuita por orden de llegada.
Para cualquier consulta hable con Dhruv J. Kataria al + 91- 8422970037 / + 91- 9022137010 / + 91- 8422970034
correo electrónico: [correo electrónico protegido]

Además de mantenerse actualizado sobre el proyecto y la discusión sobre Kaggle, puede consultar cualquiera de estos cursos en los que no se siente más fuerte.

Se agregará la actualización con las herramientas y la tecnología que se enumeran a continuación:

aBigdata es como una combinación de un montón de temas. Principalmente requieren programación, análisis, nlp, MLP, matemáticas.

Aquí hay un montón de cursos que encontré:

  • Curso de Introducción al CS
    Notas: Curso de Introducción a la Informática que proporciona instrucciones sobre codificación.
    Recursos en línea:
    Udacity – introducción al curso de CS,
    Coursera – Informática 101
  • Código en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
    Recursos en línea para principiantes:
    Coursera – Aprender a programar: los fundamentos,
    Introducción del MIT a la programación en Java,
    Python Class de Google,
    Coursera – Introducción a Python,
    Libro electrónico de código abierto de Python

    Recursos en línea intermedios:
    Diseño de programas informáticos de Udacity,
    Coursera – Learn to Program: Crafting Quality Code,
    Coursera – Lenguajes de programación,
    Brown University – Introducción a los lenguajes de programación

  • Aprende otros lenguajes de programación
    Notas: Agregue a su repertorio: Java Script, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
    Recursos en línea: w3school.com – Tutorial HTML, Aprenda a codificar
  • Prueba tu código
    Notas: aprenda a detectar errores, crear pruebas y romper su software
    Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
  • Desarrollar razonamiento lógico y conocimiento de matemáticas discretas.
    Recursos en línea:
    MIT Matemáticas para Informática,
    Coursera – Introducción a la lógica,
    Coursera – Optimización lineal y discreta,
    Coursera – Modelos gráficos probabilísticos,
    Coursera – Teoría de juegos.
  • Desarrollar una sólida comprensión de los algoritmos y las estructuras de datos.
    Notas: Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.
    Recursos en línea:
    Introducción a los algoritmos del MIT,
    Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
    Wikipedia – Lista de algoritmos,
    Wikipedia – Lista de estructuras de datos,
    Libro: El manual de diseño de algoritmos
  • Desarrollar un sólido conocimiento de los sistemas operativos.
    Recursos en línea: UC Berkeley Computer Science 162
  • Aprenda recursos de inteligencia artificial en línea:
    Stanford University – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
  • Aprende a construir compiladores
    Recursos en línea: Coursera – Compiladores
  • Aprende criptografía
    Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
  • Aprender programación paralela
    Recursos en línea: Coursera – Programación paralela heterogénea

Herramientas y tecnologías para Bigdata:

Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en AMPLab en UC Berkeley. [1] Spark se adapta a la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

Canalización de bases de datos
Como notará, no se trata solo de procesar los datos, sino que involucra muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

SOLR : Solr para construir un motor de análisis de datos altamente escalable que permita a los clientes participar en el descubrimiento de conocimiento en tiempo real a la velocidad de la luz.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupación dinámica, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar búsqueda distribuida y replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por Amazon Web Services. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en grupos de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache construido y utilizado por una comunidad global de contribuyentes y usuarios. Tiene licencia de Apache License 2.0. Apache Hadoop

HBase: HBase es una base de datos distribuida, no relacional y de código abierto, inspirada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), proporcionando capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a fallas de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturadas dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el elementos distintos de cero que representan menos del 0.1% de una gran colección).

Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper era un subproyecto de Hadoop pero ahora es un proyecto de nivel superior por derecho propio.

Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es utilizado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en Amazon Web Services.

Mahout – Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones usan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas Java para operaciones matemáticas comunes (centradas en álgebra lineal y estadística) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero todavía faltan varios algoritmos.

NLTK: el Kit de herramientas de lenguaje natural , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Está acompañado por un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento de lenguaje admitidas por el kit de herramientas, además de un libro de cocina.

NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluida la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

Para Python
Scikit Learn

Numpy

Scipy

Freebase: Freebase es una gran base de conocimiento colaborativo que consta de metadatos compuestos principalmente por los miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales ‘wiki’.

DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.

Herramienta de visualización
ggplot en R
Tableu
Qlikview

Matemáticas : )

Cálculo, estadística, probabilidad, álgebra lineal y geometría coordinada

El reconocimiento de entidad con nombre (NER) NER etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y compañías, o nombres de genes y proteínas.

Búsqueda por facetas: la búsqueda por facetas, también llamada navegación por facetas o navegación por facetas, es una técnica para acceder a la información organizada según un sistema de clasificación por facetas, lo que permite a los usuarios explorar una colección de información mediante la aplicación de múltiples filtros. Un sistema de clasificación por facetas clasifica cada elemento de información a lo largo de múltiples dimensiones explícitas, llamadas facetas, lo que permite acceder a las clasificaciones y ordenarlas de varias maneras en lugar de en un solo orden taxonómico predeterminado.

Fuente: Wikipedia, la enciclopedia libre, autocompilación

Haga esta fuente más rica aquí: karimkhanp / bigdata_resource

Las aptitudes y capacidades de Big Information Analytics requeridas en el mercado. ¿Puedo obtener un lugar en Big Data? Ciencia de la ciencia, registro intelectual, enorme ola de información ¿Sería aconsejable para mí aprender R o Python? Garantía. http://www.hitekschool.com/cours

More Interesting

¿Cuáles son algunas bases de datos meteorológicas históricas?

¿Todos los científicos necesitarán saber ciencia de datos?

¿Es el Big Data el futuro? Actualmente estoy trabajando en Java con 1 año de experiencia. Estoy planeando cambiar mi dominio a big data. ¿Es aconsejable? En caso afirmativo, ¿qué paquete puedo esperar? ¿Seré tratado como más fresco? ¿Es necesaria la certificación?

¿De dónde puedo aprender XGBoost? Quiero aprenderlo desde cero y no solo la implementación.

¿Debería una persona aprender sobre ciencia de datos en general antes de entrar en el aprendizaje automático? ¿Por qué?

¿Cómo hacemos un envío de código en Kaggle?

En la era del aprendizaje automático, IA, big data, etc., ¿qué tan útil es estudiar campos ya maduros como CS teóricas y bases de datos relacionales a nivel de posgrado, y luego pasar a la industria del software?

¿Cuándo no debería usar un término constante en regresión lineal? ¿Alguien puede explicarlo con un ejemplo?

Cómo ver la pista de big data relacionada con su carrera objetivo

¿Cómo puede ayudar la ciencia de datos a impulsar a los países en desarrollo?

¿Cuál es la última versión de Talend Platform for Big Data?

Para los científicos de datos, ¿qué lenguaje es más exigente, R o Python?

¿Se ha trabajado en el uso del aprendizaje profundo para motores de recomendación?

Cómo validar las reglas de decisión individuales por separado en un árbol de decisión, en lugar de validar el modelo del árbol de decisión en su conjunto

¿Cuál es la diferencia entre las notaciones big oh, big omega y big theta?