¿Por qué RandomForest en R muestra el error ‘los vectores largos (argumento 24) no son compatibles con .Fortran’?

El paquete randomForest utiliza una implementación de C + Fortran que solo admite índices enteros, por lo que cualquier marco de datos / tabla / matriz de datos con> 2 ^ 31 elementos (límite para enteros) da un error.

También randomForest calcula la matriz de proximidad para los datos que tiene n ^ 2 elementos de tamaño donde n es el no. de registros en sus datos, si obtiene este error en un conjunto de datos de menos de 2 ^ 31 elementos, mantener la proximidad y mantener los argumentos forestales como FALSO ayudaría.

PD: esta es una pregunta más adecuada para el desbordamiento de pila

Edición 1: si su modelo se ejecuta con éxito con pocos árboles, puede entrenar varios modelos con pocos árboles y combinarlos en paralelo para obtener un modelo con un no grande. de arboles

por ejemplo, la declaración a continuación entrena a 6 modelos con menos árboles que finalmente se combinan para obtener un bosque con 25000 árboles. Cada modelo en este contendría 4166–4167 árboles. Además, esto se ejecutará más rápido que una sola instrucción randomForest con 25k árboles, ya que utiliza múltiples núcleos.

rf <- foreach (ntree = rep (25000, 6), .combine = combine, .multicombine = TRUE, .packages = 'randomForest')% dopar% {randomForest (x, y, ntree = ntree)}

Análisis PredictivoAprendizaje automáticoBosques aleatoriosCiencia de datosClasificaciónR

Related Content

¿Cuáles son algunos algoritmos de aprendizaje automático que no pueden tolerar la falta de datos?

¿Cuáles son algunas aplicaciones de la ciencia de datos en neurociencia?

¿Cuál es el papel de un científico de datos en Quora?

¿Cuál es su viaje completo de aprendizaje / aplicación en Machine Learning / Data Science / NLP?

¿Cuándo debe un principiante en ciencia de datos comprender que ha elegido un campo equivocado?

¿Se considera que el WiFi de un área rural es una buena conexión a Internet?

¿Puedo construir una buena PC de programación por 600 $?

Primero, aprenda dónde colocar todas sus cosas en qué lugar.

Esta pregunta debe publicarse en stackExchange definitivamente, alguien marcará su pregunta como DUPLICADA o PREGUNTADA. 🙂

Abhishek Singh

More Interesting

¿Es SPSS una herramienta de minería de datos más apropiada que Weka?

¿Cuál es la fuente de datos perfecta para el análisis de sentimientos a nivel de documento?

Cómo entender los diferentes tipos de curtosis

¿Cuáles son algunos buenos libros / documentos sobre aprendizaje kernelized, en general y especialmente con SVM?

¿Qué aspectos del aprendizaje automático teórico y aplicado requieren una formación formal en qué subdisciplinas de las matemáticas y / o estadísticas?

¿Cómo manejan las soluciones de Big Data la heterogeneidad de los esquemas de datos dinámicos y a gran escala de varias fuentes?

¿Cuáles son los mejores recursos para aprender la visualización de datos?

¿Es cierto que la mayoría de los científicos de datos tienen al menos un título de maestría o doctorado?

¿Cuáles son los mitos del big data que afectan a las PYME?

¿Cuál es la forma más efectiva de estructurar un equipo de ciencia de datos?

¿Puedo comenzar a aprender ciencia de datos y ser digno de mercado en 6 meses? Acabo de terminar mi maestría en ingeniería mecánica y tengo habilidades de programación muy básicas (solo C) a partir de ahora.

¿El éxito del aprendizaje profundo es una noticia falsa?

¿Cuáles son los beneficios de tener una regularización de datos en tiempo real?

¿Cuáles son los buenos libros que proporcionan casos de estudio en ciencia de datos?

¿Es más probable que la minería de datos o la programación web generen altos salarios y oportunidades de empleo en el futuro cercano?

Web Analytics