¿Por qué mi modelo de regresión produce valores negativos para SalePrice en los datos de prueba?

A menos que esté utilizando un modelo restringido solo a números positivos, esto es de esperar cuando se utiliza la regresión lineal.

Una solución es una solución rápida y sucia: asigna todos los números negativos al precio más bajo que hayas observado hasta ahora.

Una forma mejor pero menos fácil es usar un modelo diferente. Por ejemplo, usando [math] \ hat {y} = e ^ {\ vec {w} ^ T \ cdot \ vec {x}} [/ math] como modelo. Esto significa que necesita escribir mucho código y hacer muchos cálculos usted mismo (¿cuál es la nueva función de pérdida y cómo encuentra el punto óptimo? ¿Existen técnicas de optimización y regularización que pueda resolver?)

De hecho, este modelo probablemente funcionará mejor cuando se trata del valor monetario de la propiedad. Una diferencia de $ 1000 puede ser trivial (la diferencia entre $ 1,000,000 y $ 1,001,000, por ejemplo) o muy grande (la diferencia entre $ 1 y $ 1,001). El modelo anterior captura esto.

Probablemente no debería usar la regresión de crestas para analizar los datos de precios o, para el caso, cualquier información que sea monetaria. Ridge se basa en una regresión lineal y una suposición es que el DV puede tomar cualquier valor.

Por lo tanto, use una herramienta diseñada para datos con valores positivos o bien transforme los precios (por ejemplo, tomando registros).

Muchos valores monetarios deben analizarse en una escala logarítmica, de todos modos, porque los precios de las cosas son (al menos, para la mayoría de los propósitos) mejor pensados ​​de forma multiplicativa que aditiva. Por ejemplo, una diferencia de $ 10,000 en una pequeña cabaña en medio de la nada es una gran diferencia. Una diferencia de $ 10,000 en un ático en la Quinta Avenida es un error de redondeo.

usar regresión de Poisson

Estandaricé las variables continuas usando la función scale () pero aún obteniendo valores negativos para las mismas filas en el resultado predicho. No estoy seguro de usar registros. ¿Debo usar log para variables dependientes e independientes?