Cómo hacer ingeniería de características para la regresión no lineal correcta

Si entiendo correctamente, Data_Vol es su única característica. Intentó ajustar una línea a través de los datos agregando términos polinómicos.

Simplemente mirando los datos, debería ser bastante obvio que cualquier línea de regresión no tendrá sentido. En x = 4, su modelo pronosticará aproximadamente y = 5, pero el valor real podría ser igual a 0 o 10. Incluso los valores de y superiores a 20 no son improbables. Entonces no, esta no es la dirección correcta.

No hay mucho que pueda hacer en términos de modelos predictivos con solo estos datos. Tendría que volver a los datos sin procesar y encontrar otras características que podrían correlacionarse con su etiqueta.

Como dice Peter Flom, es difícil sugerir qué debe hacer con la información que ha proporcionado en la pregunta, pero tratar de ajustar una línea de regresión con solo esta característica claramente no lo es.

Está obteniendo un gran RMSE porque sus datos son desordenados. Ninguna línea se ajustará muy bien a los datos que tiene.

Sin saber mucho más (y probablemente tener sus datos para jugar) es difícil decir más que eso. Puede haber otros problemas también.

¿Por qué no prueba primero la transformación de características como tomar log o sqrt y escalar? Puede ayudar.

More Interesting

Andrew Ng: ¿Qué opinas de AlphaGo?

¿Qué tipos de carreras hay para los ingenieros informáticos que se concentran en la inteligencia artificial y la máquina?

¿Es el aprendizaje profundo una buena herramienta para resolver problemas de lenguaje natural?

¿Cuáles son algunos trabajos de investigación basados ​​en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?

¿Por qué es que los RNN con conexiones desde la salida al estado oculto pueden expresar menos máquinas de turing?

¿Sería posible entrenar una computadora para reconocer con precisión a escritores individuales en Quora analizando muestras escritas?

¿Por qué es difícil construir IA de autoaprendizaje?

Si se le da una opción entre el aprendizaje automático y el Internet de las cosas como una opción, ¿cuál es la mejor para elegir, teniendo en cuenta el alcance y el futuro?

Estamos viendo el comienzo de las máquinas que pueden codificar. ¿Aprender un lenguaje de programación aún sería útil en la carrera de ML?

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?

¿Cuál es la mejor red neuronal o SVM para la clasificación de texto de etiquetas múltiples?

¿Cuáles son las aplicaciones del procesamiento del lenguaje natural en una revista en línea?

¿Cuáles son algunas de las ventajas de usar modelos de proceso gaussianos frente a SVM?

¿Ha habido alguna investigación sobre cómo las pérdidas de capacitación en la convergencia de los algoritmos de aprendizaje profundo varían con el tamaño de los datos que ingresan?

¿Cómo se puede mejorar Google News?