¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

Hay varios algoritmos con versiones en línea. La mayoría de los algoritmos basados ​​en gradientes se pueden ejecutar en línea a través del Descenso de gradiente estocástico o el descenso de gradiente minibatch.

– Regresión lineal
– Regresión logística
– Redes neuronales
– Autoencoders

Hay algunas versiones en línea para SVM (Pegasos).
Y Perceptron es por naturaleza un método en línea. La versión kernelized de Perceptron no está en línea, pero Forgetron sí.

K-Means el algoritmo de agrupación más utilizado también tiene una versión en línea en todas sus variantes: K-Means regulares, K-Means suaves, K-Means esféricos.

Todos estos y muchos otros que estoy seguro de haber olvidado son lo suficientemente rápidos como para manejar conjuntos de datos masivos. Vowpal Wabbit es una herramienta útil en la mayoría de los casos con grandes conjuntos de datos.

Luis

Cualquier algoritmo que pueda ser paralelo. Si se basa en el descenso de gradiente estocástico, debe asumir un solo procesador, memoria compartida. Existen algunas técnicas inteligentes que utilizan el paso de mensajes, pero en realidad son aproximaciones.

Siempre puedes ampliar tu hardware. A menos que esté trabajando a alta escala terabyte / petabyte, las grandes instancias ec2 deberían ser suficientes.

También considere el muestreo.

El aprendizaje automático consta de una amplia gama de algoritmos, algunos son más eficientes que otros. Es difícil elegir un algoritmo eficiente sin conocer el conjunto de datos en el que operará. La regresión lineal, por ejemplo, se puede resolver de forma iterativa o con ecuaciones normales. El proceso iterativo es más eficiente para los conjuntos de datos que exceden el rango variable de 10,000 porque la solución de ecuación normal se vuelve muy difícil de resolver en un tiempo eficiente. También hay algoritmos de aprendizaje automático para ayudar a reducir los datos sin pérdida de información. El escalado multidimensional es un ejemplo de esto y tiene como objetivo cuantificar las relaciones entre las variables en los datos de una manera más concisa.

Los algoritmos de aprendizaje automático basados ​​en Ensemble se pueden usar para big data. Por ejemplo, bosque aleatorio. El bosque aleatorio consta de muchos árboles de decisión pequeños donde un solo árbol de decisión pequeño realiza la clasificación de forma independiente.

More Interesting

Si hay investigaciones que muestran que una máquina interactúa con un humano dentro de la realidad a través de una conciencia cuántica, ¿cómo se recibirá?

PCA, 2DPCA vs PCA multilineal: ¿Por qué las imágenes se vectorizan antes de realizar PCA, ICA o LDA, etc.? ¿Por qué no simplemente concatenar imágenes 2D en una matriz?

¿Cuál es la forma más rápida de aprender matemáticas para el aprendizaje automático y el aprendizaje profundo?

¿Por qué hay tantas redes de aprendizaje profundo?

¿Cómo puede un programa determinar rápidamente si un tweet es negativo o positivo?

¿Cuáles son algunos ejemplos de empresas no tecnológicas que crean valor a través del uso de Big Data y qué tecnologías específicas están utilizando, por ejemplo, Hadoop, sistemas dedicados, SAP en formas novedosas, piratas informáticos, etc.

Cómo usar el aprendizaje automático para unir un patrón a partir de valores CSV

¿Cuál es una buena manera de convertir métrica discreta en métrica circular?

¿Cómo puedo comenzar a usar métodos de "generalización apilada" en Python para las competencias de Kaggle?

¿Quién ha explorado las aplicaciones del modelo Word2vec en datos que no sean lenguajes naturales?

¿Cuáles fueron algunos de los artículos de conferencias / revistas de investigación del discurso más interesantes / dignos de mención en 2012?

¿Alguien puede presentar un tutorial o un documento sobre cómo elegir el valor de 'C' en la función de regresión logística scikit-learn?

¿Es el aprendizaje automático el único campo de IA de interés para la academia y la industria?

¿Cuál es el propósito de usar la variable slack en SVM?

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?