¿Por qué mi modelo de regresión produce valores negativos para SalePrice en los datos de prueba?

A menos que esté utilizando un modelo restringido solo a números positivos, esto es de esperar cuando se utiliza la regresión lineal.

Una solución es una solución rápida y sucia: asigna todos los números negativos al precio más bajo que hayas observado hasta ahora.

Una forma mejor pero menos fácil es usar un modelo diferente. Por ejemplo, usando [math] \ hat {y} = e ^ {\ vec {w} ^ T \ cdot \ vec {x}} [/ math] como modelo. Esto significa que necesita escribir mucho código y hacer muchos cálculos usted mismo (¿cuál es la nueva función de pérdida y cómo encuentra el punto óptimo? ¿Existen técnicas de optimización y regularización que pueda resolver?)

De hecho, este modelo probablemente funcionará mejor cuando se trata del valor monetario de la propiedad. Una diferencia de $ 1000 puede ser trivial (la diferencia entre $ 1,000,000 y $ 1,001,000, por ejemplo) o muy grande (la diferencia entre $ 1 y $ 1,001). El modelo anterior captura esto.

EstadísticaMachine LearningRegresión

Related Content

¿Cómo funcionan las representaciones distribuidas de escasez fija defendidas e implementadas por Numenta?

¿Qué lenguaje de programación se usa para el aprendizaje automático?

¿Cuál es la mejor tarea para las redes neuronales en 2017 y tal vez para los próximos 5 años?

Mi experiencia con el rendimiento de las capacidades NLP de IBM Watson fue mala. ¿Como estuvo el tuyo?

¿Cuáles son algunos campos en los que las redes neuronales artificiales aún no se han utilizado?

Para que la IA describa una imagen tan buena como la humana, ¿cuál es la cantidad total de palabras en cuestión (sustantivos, adverbios, verbos, adjetivos)?

¿Qué métodos de aprendizaje automático lo llevarán al top 10 de las competencias de kaggle?

Probablemente no debería usar la regresión de crestas para analizar los datos de precios o, para el caso, cualquier información que sea monetaria. Ridge se basa en una regresión lineal y una suposición es que el DV puede tomar cualquier valor.

Por lo tanto, use una herramienta diseñada para datos con valores positivos o bien transforme los precios (por ejemplo, tomando registros).

Muchos valores monetarios deben analizarse en una escala logarítmica, de todos modos, porque los precios de las cosas son (al menos, para la mayoría de los propósitos) mejor pensados de forma multiplicativa que aditiva. Por ejemplo, una diferencia de $ 10,000 en una pequeña cabaña en medio de la nada es una gran diferencia. Una diferencia de $ 10,000 en un ático en la Quinta Avenida es un error de redondeo.

Peter Flom

usar regresión de Poisson

Peter Flom

Estandaricé las variables continuas usando la función scale () pero aún obteniendo valores negativos para las mismas filas en el resultado predicho. No estoy seguro de usar registros. ¿Debo usar log para variables dependientes e independientes?

Peter Flom

More Interesting

¿Qué tipos de algoritmos de aprendizaje automático se utilizan para resolver algunos problemas populares del mundo real?

Cómo interpretar una capa totalmente conectada como una capa convolucional para hacer predicciones densas de píxeles

¿Cuál es el significado de muchas sinapsis entre dos neuronas en la red neuronal?

¿Cómo tratan SVM y ANN los valores atípicos?

¿Cómo se calculan las curvas de recuperación de precisión?

Cómo construir un reconocimiento de objetos basado en dispositivos móviles utilizando técnicas de aprendizaje automático

¿Cuál es / son los métodos para iniciar / elegir filtros en redes neuronales convolucionales?

¿Cuándo se ajusta bien un modelo de mezcla gaussiana?

¿Pueden los algoritmos de aprendizaje automático de análisis de datos reemplazar el trabajo realizado por los científicos de datos?

¿Cuáles son las diferencias entre el enfoque basado en reglas y el enfoque de aprendizaje automático en el análisis de sentimientos?

¿Se aplica Occam's Razor en el aprendizaje automático?

¿Qué es el algoritmo de agrupación de Markov?

¿Cómo se usa el análisis de componentes principales en el procesamiento del lenguaje natural?

¿Cuáles son algunos buenos cursos y certificaciones en línea en aprendizaje automático e inteligencia artificial para un estudiante universitario de CS actual?

En el análisis de sentimiento binario, ¿es razonable tratar el texto de baja confianza como una tercera clase neutral?

Web Analytics