¿Cómo es ser un usuario de SAS en Hadoop?

Trabajo en SAS y uso SAS con Hadoop sin preocuparme por el precio, la instalación o la configuración … así que tenlo en cuenta.

Hay muchas maneras de usar SAS con Hadoop, todas con diferentes nombres y licencias … Creo que la mayoría de estos métodos pueden usar datos CSV / TSV, pero SAS tiene un formato de archivo para Hadoop llamado SAS HDAT.

Hay SAS / ACCESS a Hadoop. Esta es la idea más parecida a SAS trabajando en otras bases de datos. Tiene una instrucción libname para el clúster hadoop y luego puede escribir un código SAS bastante típico e incluso usar PROC SQL a través de Hive … Por supuesto, no hay magia, no puede simplemente insertar aleatoriamente en un conjunto de datos, las reglas de HDFS aún se aplican . Aquí su principal ventaja es no mover grandes conjuntos de datos de Hadoop.

Existen los procedimientos de análisis de alto rendimiento (HPA) que vienen con las versiones de alto rendimiento de SAS base, SAS / STAT, Enterprise Miner y algunos otros productos SAS. Estos extraen datos de HDFS a la memoria distribuida en el mismo clúster y ejecutan algoritmos sofisticados, como redes neuronales, SVD girado, agrupación, etc. libname local y PROC REG). Estos procedimientos extraen datos a la memoria distribuida, los ejecutan y devuelven los resultados al disco. Esa E / S puede llevar tiempo, pero puede utilizar toda la potencia informática del clúster Hadoop. Solo por ejemplo, he ajustado un clasificador Bayes ingenuo de un terabyte de datos en aproximadamente 15 minutos. utilizando 36 nodos de cálculo. (Los procedimientos HPA también funcionan con bases de datos MPP populares y también aprovechan sus arquitecturas distribuidas).

Existe el servidor SAS LASR, que funciona básicamente de la misma manera que los procedimientos de HPA aceptan que deja los datos en la memoria distribuida hasta que le pidas que los vuelva a colocar en el disco, por lo que hay menos E / S. La funcionalidad analítica del servidor LASR aparece principalmente a través de PROC IMSTAT y PROC RECOMMEND. PROC IMSTAT es como un nuevo mini lenguaje dentro de SAS.

Luego están las aplicaciones GUI como SAS Enterprise Miner, Visual Statistics y Visual Analytics que utilizan los productos anteriores.

Ahora se están fabricando más productos para Hadoop, pero no puedo hablar de ellos.

More Interesting

¿Hay alguna posibilidad de una B.Tech (CS) más fresca en trabajos de aprendizaje automático (ciencia de datos) en Bangalore?

¿Cómo puede la regularización simplificar las hipótesis?

Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto

¿Qué recursos sobre modelos gráficos se recomiendan para los estudiantes de aprendizaje automático que desean ingresar al campo?

Cómo elegir el conjunto de validación para poder representar mejor el conjunto de prueba

¿Cuál es el papel de la función de activación en una red neuronal? ¿Cómo funciona esto en un sistema de red neuronal humana?

¿Quién ha explorado las aplicaciones del modelo Word2vec en datos que no sean lenguajes naturales?

¿Se utiliza el álgebra abstracta y el análisis real en el aprendizaje automático? Si es así, ¿cómo se usan?

¿Por qué los pesos hacia adelante y hacia atrás son iguales en la máquina de Boltzmann restringida?

¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?

¿Qué algoritmos son buenos para usar en el procesamiento del lenguaje natural?

¿Podemos usar variador automático para aprender una representación como el autoencoder de vainilla?

¿Cuáles son las diferencias entre los algoritmos CHAID y CART para el crecimiento de los árboles de decisión?

Aprendizaje automático: ¿qué significa "abandono en el cerebro con respecto a todas las entradas, mientras que abandono en una red convolucional funciona con respecto a cada unidad individual"?