Trabajo en SAS y uso SAS con Hadoop sin preocuparme por el precio, la instalación o la configuración … así que tenlo en cuenta.
Hay muchas maneras de usar SAS con Hadoop, todas con diferentes nombres y licencias … Creo que la mayoría de estos métodos pueden usar datos CSV / TSV, pero SAS tiene un formato de archivo para Hadoop llamado SAS HDAT.
Hay SAS / ACCESS a Hadoop. Esta es la idea más parecida a SAS trabajando en otras bases de datos. Tiene una instrucción libname para el clúster hadoop y luego puede escribir un código SAS bastante típico e incluso usar PROC SQL a través de Hive … Por supuesto, no hay magia, no puede simplemente insertar aleatoriamente en un conjunto de datos, las reglas de HDFS aún se aplican . Aquí su principal ventaja es no mover grandes conjuntos de datos de Hadoop.
- Cómo comenzar a aprender redes neuronales y aprendizaje profundo
- ¿Cuáles son algunos de los desafíos y oportunidades sobresalientes en el análisis predictivo con respecto a la privacidad y la propiedad de los datos, el análisis de los datos del usuario, el escalado de algoritmos y los ecosistemas e intercambios de datos emergentes?
- ¿Es el aprendizaje automático una mejor forma o técnica para comprender los datos y hacer pronósticos que las estadísticas?
- ¿Qué es un 'descriptor' en el contexto de una transformación de característica invariante de escala (SIFT)?
- Soy doctora en ingeniería informática con experiencia en aprendizaje automático y optimización bayesiana. Me encantaría evolucionar mi investigación hacia la mecánica estadística y la biofísica. ¿Cómo podría lograr eso? ¿Qué colaboraciones vale la pena buscar?
Existen los procedimientos de análisis de alto rendimiento (HPA) que vienen con las versiones de alto rendimiento de SAS base, SAS / STAT, Enterprise Miner y algunos otros productos SAS. Estos extraen datos de HDFS a la memoria distribuida en el mismo clúster y ejecutan algoritmos sofisticados, como redes neuronales, SVD girado, agrupación, etc. libname local y PROC REG). Estos procedimientos extraen datos a la memoria distribuida, los ejecutan y devuelven los resultados al disco. Esa E / S puede llevar tiempo, pero puede utilizar toda la potencia informática del clúster Hadoop. Solo por ejemplo, he ajustado un clasificador Bayes ingenuo de un terabyte de datos en aproximadamente 15 minutos. utilizando 36 nodos de cálculo. (Los procedimientos HPA también funcionan con bases de datos MPP populares y también aprovechan sus arquitecturas distribuidas).
Existe el servidor SAS LASR, que funciona básicamente de la misma manera que los procedimientos de HPA aceptan que deja los datos en la memoria distribuida hasta que le pidas que los vuelva a colocar en el disco, por lo que hay menos E / S. La funcionalidad analítica del servidor LASR aparece principalmente a través de PROC IMSTAT y PROC RECOMMEND. PROC IMSTAT es como un nuevo mini lenguaje dentro de SAS.
Luego están las aplicaciones GUI como SAS Enterprise Miner, Visual Statistics y Visual Analytics que utilizan los productos anteriores.
Ahora se están fabricando más productos para Hadoop, pero no puedo hablar de ellos.