¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

Hay varios algoritmos con versiones en línea. La mayoría de los algoritmos basados en gradientes se pueden ejecutar en línea a través del Descenso de gradiente estocástico o el descenso de gradiente minibatch.

– Regresión lineal
– Regresión logística
– Redes neuronales
– Autoencoders

Hay algunas versiones en línea para SVM (Pegasos).
Y Perceptron es por naturaleza un método en línea. La versión kernelized de Perceptron no está en línea, pero Forgetron sí.

K-Means el algoritmo de agrupación más utilizado también tiene una versión en línea en todas sus variantes: K-Means regulares, K-Means suaves, K-Means esféricos.

Todos estos y muchos otros que estoy seguro de haber olvidado son lo suficientemente rápidos como para manejar conjuntos de datos masivos. Vowpal Wabbit es una herramienta útil en la mayoría de los casos con grandes conjuntos de datos.

Luis

¿Cuáles son algunos temas inusuales en el aprendizaje automático que se pueden explorar como un proyecto de un mes?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

¿Es demasiado tarde para sumergirme en Data Science, ya que se están desarrollando poderosas herramientas de aprendizaje automático y ya hay muchos científicos de datos hábiles?

¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

En forma de estudios de caso, ¿cómo utilizan las empresas financieras el aprendizaje automático?

¿Cuál es la mejor manera de ejecutar una suite de seguridad? ¿Bajo que condiciones?

Cualquier algoritmo que pueda ser paralelo. Si se basa en el descenso de gradiente estocástico, debe asumir un solo procesador, memoria compartida. Existen algunas técnicas inteligentes que utilizan el paso de mensajes, pero en realidad son aproximaciones.

Siempre puedes ampliar tu hardware. A menos que esté trabajando a alta escala terabyte / petabyte, las grandes instancias ec2 deberían ser suficientes.

También considere el muestreo.

Sam Sachedina

El aprendizaje automático consta de una amplia gama de algoritmos, algunos son más eficientes que otros. Es difícil elegir un algoritmo eficiente sin conocer el conjunto de datos en el que operará. La regresión lineal, por ejemplo, se puede resolver de forma iterativa o con ecuaciones normales. El proceso iterativo es más eficiente para los conjuntos de datos que exceden el rango variable de 10,000 porque la solución de ecuación normal se vuelve muy difícil de resolver en un tiempo eficiente. También hay algoritmos de aprendizaje automático para ayudar a reducir los datos sin pérdida de información. El escalado multidimensional es un ejemplo de esto y tiene como objetivo cuantificar las relaciones entre las variables en los datos de una manera más concisa.

Sam Sachedina

Los algoritmos de aprendizaje automático basados en Ensemble se pueden usar para big data. Por ejemplo, bosque aleatorio. El bosque aleatorio consta de muchos árboles de decisión pequeños donde un solo árbol de decisión pequeño realiza la clasificación de forma independiente.

Sam Sachedina

More Interesting

Si hay investigaciones que muestran que una máquina interactúa con un humano dentro de la realidad a través de una conciencia cuántica, ¿cómo se recibirá?

PCA, 2DPCA vs PCA multilineal: ¿Por qué las imágenes se vectorizan antes de realizar PCA, ICA o LDA, etc.? ¿Por qué no simplemente concatenar imágenes 2D en una matriz?

¿Cuál es la forma más rápida de aprender matemáticas para el aprendizaje automático y el aprendizaje profundo?

¿Por qué hay tantas redes de aprendizaje profundo?

¿Cómo puede un programa determinar rápidamente si un tweet es negativo o positivo?

¿Cuáles son algunos ejemplos de empresas no tecnológicas que crean valor a través del uso de Big Data y qué tecnologías específicas están utilizando, por ejemplo, Hadoop, sistemas dedicados, SAP en formas novedosas, piratas informáticos, etc.

Cómo usar el aprendizaje automático para unir un patrón a partir de valores CSV

¿Cuál es una buena manera de convertir métrica discreta en métrica circular?

¿Cómo puedo comenzar a usar métodos de "generalización apilada" en Python para las competencias de Kaggle?

¿Quién ha explorado las aplicaciones del modelo Word2vec en datos que no sean lenguajes naturales?