¿Cómo se utilizan los modelos de aprendizaje automático en datos con una escala media como 10 a 15 GB? ¿Alguien puede compartir el recurso para eso?

Regularmente encontramos datos de este tamaño. Creemos que hay una brecha en este tipo de análisis. Existen varias soluciones basadas en clúster (como Spark) para datos mucho más grandes. También hay varias soluciones para datos más pequeños que caben fácilmente en la memoria. Para datos que son más grandes de lo que la memoria puede manejar pero más pequeños que el disco duro, no hay muchas soluciones. Por lo tanto, hemos desarrollado el aprendizaje automático interno utilizando monetdb como almacén de datos. Dichas soluciones se denominan soluciones fuera del núcleo. Aquí encontrará más detalles sobre lo que hacemos: análisis fuera del núcleo con MonetDB – Soluciones G-Square y https://www.linkedin.com/pulse/m…

Sci-kit learn (la biblioteca ML más popular para python) también ofrece una manera de hacer esto:

6. Estrategias para escalar computacionalmente: datos más grandes

PD: hemos creado un nombre elegante para dichos datos: NSBD (Not-so-big-data)

Aprendizaje automáticoinformáticaInteligencia Artificial

Related Content

¿Dónde empiezo a aprender sobre el aprendizaje automático si no tengo ningún conocimiento al respecto?

¿Es posible entrenar un modelo de aprendizaje automático si hay más características que muestras en el conjunto de datos?

Criptografía: ¿Cuáles son las ventajas y desventajas de AES sobre Triple-DES?

¿Cuáles son los cursos de CS más importantes para la biología computacional?

¿Por qué falla la búsqueda de amplitud primero si el gráfico tiene bordes que son de costos no unitarios?

¿Qué pasa si Internet muere? ¿Se respalda toda la información en alguna parte?

¿Cuál es mejor entre el empaque dual en línea (DIP) y el empaque de montaje en superficie (SMD / SMT)?

Hay varios algoritmos que puede usar para controlar el tamaño de los datos o al menos anticipar el tamaño. Simplemente tenga un cálculo de velocidad de flujo que mida la cantidad de datos recibidos y la cantidad de tiempo utilizado. Como los datos pueden fluir en fragmentos, debe elegir una hora de inicio y finalización arbitraria. Haga ese cálculo con la frecuencia que necesite.

Pero debo mencionar que 15 GB no son muchos datos. Si ese es un problema de ir-no-ir para usted, es posible que desee comprimir los datos utilizando rutinas de compresión.

Cree, cree y use su propia biblioteca de rutinas para realizar estas funciones usted mismo.

Gopi Suvanam

More Interesting

¿Qué hace que la computadora funcione?

¿Por qué los proveedores vps no proporcionan estimaciones de CPU en sus comparaciones?

¿Cuál es la contribución de los ingenieros informáticos al mundo?

¿La comprensión de nuestro universo está limitada por la potencia informática?

¿Qué tan importante es el conocimiento de las bases de datos en Machine Learning?

¿Qué significa RESTful y por qué es significativo?

¿Hay algún fenómeno observable en informática que no podamos explicar?

¿Cuál fue la respuesta inicial a la publicación de la criptografía de clave pública?

¿Cómo encuentro una pasantía en una empresa tecnológica francesa?

Cómo encontrar el máximo global y los valores que dan el máximo global para una función de 2 variables usando un algoritmo genético

Si el mundo en Minecraft está representado en el servidor, y suponemos que el servidor tiene gigabytes de memoria, ¿por qué el mundo no es mucho más grande de lo que es?

Memoria de la computadora: ¿Qué es una dirección?

¿Cuál es el significado de los gráficos planos en informática?

¿La programación es un subconjunto de las matemáticas?

¿Qué tan poderosa tiene que ser una computadora para ser considerada una supercomputadora?

Web Analytics