Además de mantenerse actualizado sobre el proyecto y la discusión sobre Kaggle, puede consultar cualquiera de estos cursos en los que no se siente más fuerte.
Se agregará la actualización con las herramientas y la tecnología que se enumeran a continuación:
aBigdata es como una combinación de un montón de temas. Principalmente requieren programación, análisis, nlp, MLP, matemáticas.
Aquí hay un montón de cursos que encontré:
- Curso de Introducción al CS
Notas: Curso de Introducción a la Informática que proporciona instrucciones sobre codificación.
Recursos en línea:
Udacity – introducción al curso de CS,
Coursera – Informática 101
- Código en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
Recursos en línea para principiantes:
Coursera – Aprender a programar: los fundamentos,
Introducción del MIT a la programación en Java,
Python Class de Google,
Coursera – Introducción a Python,
Libro electrónico de código abierto de Python
Recursos en línea intermedios:
Diseño de programas informáticos de Udacity,
Coursera – Learn to Program: Crafting Quality Code,
Coursera – Lenguajes de programación,
Brown University – Introducción a los lenguajes de programación
- Aprende otros lenguajes de programación
Notas: Agregue a su repertorio: Java Script, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
Recursos en línea: w3school.com – Tutorial HTML, Aprenda a codificar
- Prueba tu código
Notas: aprenda a detectar errores, crear pruebas y romper su software
Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
- Desarrollar razonamiento lógico y conocimiento de matemáticas discretas.
Recursos en línea:
MIT Matemáticas para Informática,
Coursera – Introducción a la lógica,
Coursera – Optimización lineal y discreta,
Coursera – Modelos gráficos probabilísticos,
Coursera – Teoría de juegos.
- Desarrollar una sólida comprensión de los algoritmos y las estructuras de datos.
Notas: Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.
Recursos en línea:
Introducción a los algoritmos del MIT,
Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
Wikipedia – Lista de algoritmos,
Wikipedia – Lista de estructuras de datos,
Libro: El manual de diseño de algoritmos
- Desarrollar un sólido conocimiento de los sistemas operativos.
Recursos en línea: UC Berkeley Computer Science 162
- Aprenda recursos de inteligencia artificial en línea:
Stanford University – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
- Aprende a construir compiladores
Recursos en línea: Coursera – Compiladores
- Aprende criptografía
Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
- Aprender programación paralela
Recursos en línea: Coursera – Programación paralela heterogénea
Herramientas y tecnologías para Bigdata:
Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en AMPLab en UC Berkeley. [1] Spark se adapta a la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.
Canalización de bases de datos –
Como notará, no se trata solo de procesar los datos, sino que involucra muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.
SOLR : Solr para construir un motor de análisis de datos altamente escalable que permita a los clientes participar en el descubrimiento de conocimiento en tiempo real a la velocidad de la luz.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupación dinámica, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar búsqueda distribuida y replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL
S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por Amazon Web Services. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia
Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en grupos de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache construido y utilizado por una comunidad global de contribuyentes y usuarios. Tiene licencia de Apache License 2.0. Apache Hadoop
HBase: HBase es una base de datos distribuida, no relacional y de código abierto, inspirada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), proporcionando capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a fallas de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturadas dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el elementos distintos de cero que representan menos del 0.1% de una gran colección).
Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper era un subproyecto de Hadoop pero ahora es un proyecto de nivel superior por derecho propio.
Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es utilizado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en Amazon Web Services.
Mahout – Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones usan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas Java para operaciones matemáticas comunes (centradas en álgebra lineal y estadística) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero todavía faltan varios algoritmos.
NLTK: el Kit de herramientas de lenguaje natural , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Está acompañado por un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento de lenguaje admitidas por el kit de herramientas, además de un libro de cocina.
NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluida la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.
Para Python
Scikit Learn
Numpy
Scipy
Freebase: Freebase es una gran base de conocimiento colaborativo que consta de metadatos compuestos principalmente por los miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales ‘wiki’.
DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.
Herramienta de visualización
ggplot en R
Tableu
Qlikview
Matemáticas : )
Cálculo, estadística, probabilidad, álgebra lineal y geometría coordinada
El reconocimiento de entidad con nombre (NER) NER etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y compañías, o nombres de genes y proteínas.
Búsqueda por facetas: la búsqueda por facetas, también llamada navegación por facetas o navegación por facetas, es una técnica para acceder a la información organizada según un sistema de clasificación por facetas, lo que permite a los usuarios explorar una colección de información mediante la aplicación de múltiples filtros. Un sistema de clasificación por facetas clasifica cada elemento de información a lo largo de múltiples dimensiones explícitas, llamadas facetas, lo que permite acceder a las clasificaciones y ordenarlas de varias maneras en lugar de en un solo orden taxonómico predeterminado.
Fuente: Wikipedia, la enciclopedia libre, autocompilación
Haga esta fuente más rica aquí: karimkhanp / bigdata_resource