Como [math] x_1 [/ math] y [math] x_2 [/ math] son independientes, no hay razón para optimizar [math] theta_1 [/ math] y [math] theta_2 [/ math] conjuntamente. Además, la forma en que ha definido [math] p (x_1) [/ math] implica que solo hay un valor particular de [math] theta_1 [/ math] que dará como resultado un [math] p (x_1) legal / mates]. Todos los demás tendrán el área debajo de [math] p (x_1) [/ math] será algo diferente a 1. Entonces, o me falta algo aquí, o hay un error tipográfico en la pregunta.
Al llegar a [math] theta_2 [/ math], el valor óptimo de [math] theta_2 [/ math] es simplemente [math] max (todos los valores conocidos de x_2) [/ math] porque el punto de datos desconocido no contiene absolutamente ninguna información sobre [matemáticas] p (x_2) [/ matemáticas]. Para los datos proporcionados, [math] theta_2 [/ math] es 5. Esto supone que no tiene antecedentes sobre theta_2 que no ha mencionado aquí. (No estoy seguro de lo que quieres decir con [matemáticas] theta_0 [/ matemáticas]).
- ¿Cuál es el tamaño mínimo de corpus para entrenar incrustaciones de palabras?
- ¿El filtrado colaborativo se considera aprendizaje automático?
- ¿En qué se diferencia el aprendizaje profundo del perceptrón multicapa?
- Cómo decidir el tema de mi interés de investigación para obtener un doctorado en visión artificial y aprendizaje automático
- ¿Cuáles son las ventajas de las máquinas de vectores de soporte (SVM) en comparación con la regresión lineal o la regresión logística?