Artículos

3.8.3: Ajuste de modelos lineales a datos - Matemáticas


Objetivos de aprendizaje

  • Dibujar e interpretar diagramas de dispersión.
  • Utilice una herramienta gráfica para encontrar la línea que mejor se ajuste.
  • Distinguir entre relaciones lineales y no lineales.
  • Ajuste una línea de regresión a un conjunto de datos y use el modelo lineal para hacer predicciones.

Un profesor está intentando identificar tendencias entre los puntajes de los exámenes finales. Su clase tiene una mezcla de estudiantes, por lo que se pregunta si existe alguna relación entre la edad y las calificaciones del examen final. Una forma de analizar los puntajes es creando un diagrama que relacione la edad de cada estudiante con el puntaje del examen recibido. En esta sección, examinaremos uno de esos diagramas conocido como diagrama de dispersión.

Dibujar e interpretar diagramas de dispersión

Un diagrama de dispersión es un gráfico de puntos trazados que puede mostrar una relación entre dos conjuntos de datos. Si la relación es de un Modelo lineal, o un modelo que es casi lineal, el profesor puede sacar conclusiones utilizando su conocimiento de funciones lineales. La figura ( PageIndex {1} ) muestra un diagrama de dispersión de muestra.

Observe que este diagrama de dispersión no indica un relación lineal. Los puntos no parecen seguir una tendencia. En otras palabras, no parece haber relación entre la edad del alumno y la puntuación en el examen final.

Ejemplo ( PageIndex {1} ): uso de un gráfico de dispersión para investigar los chirridos de críquet

La tabla muestra el número de chirridos de los grillos en 15 segundos, para diferentes temperaturas del aire, en grados Fahrenheit [1]. Grafique estos datos y determine si los datos parecen estar relacionados linealmente.

Tabla ( PageIndex {1} )
Chirridos443520.433313518.53726
Temperatura80.570.5576668725273.553

Solución

Trazar estos datos, como se muestra en la Figura ( PageIndex {2} ) sugiere que puede haber una tendencia. Podemos ver en la tendencia de los datos que el número de chirridos aumenta a medida que aumenta la temperatura. La tendencia parece ser más o menos lineal, aunque ciertamente no del todo.

Encontrar la línea de mejor ajuste

Una vez que reconocemos la necesidad de una función lineal para modelar esos datos, la pregunta de seguimiento natural es "¿cuál es esa función lineal?" Una forma de aproximar nuestra función lineal es trazar la línea que parece ajustarse mejor a los datos. Luego, podemos extender la línea hasta que podamos verificar la intersección con el eje y. Podemos aproximar la pendiente de la línea extendiéndola hasta que podamos estimar el ( frac { text {subida}} { text {correr}} ).

Ejemplo ( PageIndex {2} ): encontrar una línea de mejor ajuste

Encuentre una función lineal que se ajuste a los datos de la Tabla ( PageIndex {1} ) "observando" una línea que parezca encajar.

Solución

En un gráfico, podríamos intentar trazar una línea.

Usando los puntos inicial y final de nuestra línea dibujada a mano, los puntos ((0, 30) ) y ((50, 90) ), esta gráfica tiene una pendiente de

[m = dfrac {60} {50} = 1.2 ]

y una intersección con el eje y en 30. Esto da una ecuación de

[T (c) = 1.2c + 30 ]

donde (c ) es el número de chirridos en 15 segundos y (T (c) ) es la temperatura en grados Fahrenheit. La ecuación resultante se representa en la Figura ( PageIndex {3} ).

Análisis

Esta ecuación lineal se puede utilizar para aproximar las respuestas a varias preguntas que podríamos hacernos sobre la tendencia.

Si bien los datos para la mayoría de los ejemplos no caen perfectamente en la línea, la ecuación es nuestra mejor conjetura sobre cómo se comportará la relación fuera de los valores para los que tenemos datos. Usamos un proceso conocido como interpolación cuando predecimos un valor dentro del dominio y rango de los datos. El proceso de extrapolación se utiliza cuando predecimos un valor fuera del dominio y rango de los datos.

La Figura ( PageIndex {4} ) compara los dos procesos para los datos de cricket-chirp tratados en el Ejemplo ( PageIndex {2} ). Podemos ver que la interpolación ocurriría si usáramos nuestro modelo para predecir la temperatura cuando los valores de los chirridos están entre 18.5 y 44. La extrapolación ocurriría si usáramos nuestro modelo para predecir la temperatura cuando los valores de los chirridos son menores que 18.5 o mayores que 44 .

Existe una diferencia entre hacer predicciones dentro del dominio y rango de valores para los que tenemos datos y fuera de ese dominio y rango. Predecir un valor fuera del dominio y el rango tiene sus limitaciones. Cuando nuestro modelo ya no se aplica después de cierto punto, a veces se le llama desglose del modelo. Por ejemplo, predecir una función de costo para un período de dos años puede implicar examinar los datos donde la entrada es el tiempo en años y la salida es el costo. Pero si intentamos extrapolar un costo cuando (x = 50 ), es decir, en 50 años, el modelo no se aplicaría porque no podríamos tener en cuenta los factores de 50 años en el futuro.

Interpolación y extrapolación

Se utilizan diferentes métodos para realizar predicciones para analizar los datos.

  • El método de extrapolación implica predecir un valor fuera del dominio y / o rango de los datos.
  • Desglose del modelo ocurre en el momento en que el modelo ya no se aplica.

Ejemplo ( PageIndex {3} ): comprensión de la interpolación y la extrapolación

Utilice los datos de cricket de Table ( PageIndex {1} ) para responder las siguientes preguntas:

  1. ¿Predecir la temperatura cuando los grillos pitan 30 veces en 15 segundos sería una interpolación o una extrapolación? Haga la predicción y analice si es razonable.
  2. ¿Sería interpolación o extrapolación predecir el número de chirridos que harán los grillos a 40 grados? Haga la predicción y analice si es razonable.

Solución

una. El número de chirridos en los datos proporcionados varió de 18,5 a 44. Una predicción de 30 chirridos por 15 segundos está dentro del dominio de nuestros datos, por lo que sería la interpolación. Usando nuestro modelo:

[ begin {align} T (30) & = 30 + 1.2 (30) & = 66 text {grados} end {align} ]

Según los datos que tenemos, este valor parece razonable.
B. Los valores de temperatura variaron de 52 a 80,5ºC. Predecir el número de chirridos a 40 grados es una extrapolación porque 40 está fuera del rango de nuestros datos. Usando nuestro modelo:

[ begin {align} 40 & = 30 + 1.2c 10 & = 1.2c c & approx8.33 end {align} ]

Podemos comparar las regiones de interpolación y extrapolación usando Figure ( PageIndex {5} ).

Análisis

Nuestro modelo predice que los grillos pitarían 8,33 veces en 15 segundos. Si bien esto podría ser posible, no tenemos ninguna razón para creer que nuestro modelo sea válido fuera del dominio y rango. De hecho, generalmente los grillos dejan de piar por debajo de los 50 grados.

Ejercicio ( PageIndex {1} )

Según los datos de la Tabla ( PageIndex {1} ), ¿qué temperatura podemos predecir si contamos 20 chirridos en 15 segundos?

Solución

54 ° F

Encontrar la línea de mejor ajuste con una utilidad de gráficos

Si bien observar una línea a simple vista funciona razonablemente bien, existen técnicas estadísticas para ajustar una línea a los datos que minimizan las diferencias entre la línea y los valores de los datos [2]. Una de esas técnicas se llama regresión de mínimos cuadrados y puede ser calculado por muchas calculadoras gráficas, software de hoja de cálculo, software estadístico y muchas calculadoras basadas en la web [3]. La regresión de mínimos cuadrados es un medio para determinar la línea que mejor se ajusta a los datos, y aquí nos referiremos a este método como regresión lineal.

Dados los datos de entrada y las salidas correspondientes de una función lineal, encuentre la línea de mejor ajuste mediante regresión lineal.

  1. Ingrese la entrada en la Lista 1 (L1).
  2. Ingrese la salida en la Lista 2 (L2).
  3. En una utilidad de gráficos, seleccione Regresión lineal (LinReg).

Ejemplo ( PageIndex {4} ): encontrar una línea de regresión de mínimos cuadrados

Encuentre la línea de regresión de mínimos cuadrados usando los datos de cricket-chirp en la Tabla ( PageIndex {1} ).

Solución

Ingrese la entrada (chirridos) en la Lista 1 (L1).
Ingrese la salida (temperatura) en la Lista 2 (L2). Consulte la tabla ( PageIndex {2} ).

Tabla ( PageIndex {2} )
L1443520.433313518.53726
L280.570.5576668725273.553

En una utilidad de gráficos, seleccione Regresión lineal (LinReg). Usando los datos de chirrido de cricket de antes, con tecnología obtenemos la ecuación:

[T (c) = 30.281 + 1.143c ]

Análisis

Tenga en cuenta que esta línea es bastante similar a la ecuación que "observamos", pero debería ajustarse mejor a los datos. Tenga en cuenta también que el uso de esta ecuación cambiaría nuestra predicción de la temperatura al escuchar 30 chirridos en 15 segundos de 66 grados a:

[ begin {align} T (30) & = 30.281 + 1.143 (30) & = 64.571 & approx 64.6 text {grados} end {align} ]

El gráfico del diagrama de dispersión con la línea de regresión de mínimos cuadrados se muestra en la Figura ( PageIndex {6} ).

¿Alguna vez habrá un caso en el que dos líneas diferentes sirvan como el mejor ajuste para los datos?

No. Solo hay una línea de mejor ajuste.

Distinguir entre modelos lineales y no lineales

Como vimos anteriormente con el modelo cricket-chirp, algunos datos muestran fuertes tendencias lineales, pero otros datos, como los puntajes del examen final trazados por edad, son claramente no lineales. La mayoría de las calculadoras y los programas informáticos también pueden proporcionarnos la coeficiente de correlación, que es una medida de qué tan cerca se ajusta la línea a los datos. Muchas calculadoras gráficas requieren que el usuario active una selección de "diagnóstico activado" para encontrar el coeficiente de correlación, que los matemáticos etiquetan como (r ). El coeficiente de correlación proporciona una manera fácil de tener una idea de qué tan cerca de una línea caen los datos.

Debemos calcular el coeficiente de correlación solo para los datos que siguen un patrón lineal o para determinar el grado en que un conjunto de datos es lineal. Si los datos muestran un patrón no lineal, el coeficiente de correlación para una regresión lineal no tiene sentido. Para tener una idea de la relación entre el valor de (r ) y la gráfica de los datos, la Figura ( PageIndex {7} ) muestra algunos conjuntos de datos grandes con sus coeficientes de correlación. Recuerde, para todas las gráficas, el eje horizontal muestra la entrada y el eje vertical muestra la salida.

Coeficiente de correlación

La coeficiente de correlación es un valor, (r ), entre –1 y 1.

  • (r> 0 ) sugiere una relación positiva (creciente)
  • (r <0 ) sugiere una relación negativa (decreciente)
  • Cuanto más cercano esté el valor a 0, más dispersos estarán los datos.
  • Cuanto más cerca esté el valor de 1 o –1, menos dispersos estarán los datos.

Ejemplo ( PageIndex {5} ): encontrar un coeficiente de correlación

Calcule el coeficiente de correlación para los datos de cricket-chirp en la Tabla ( PageIndex {1} ).

Solución

Debido a que los datos parecen seguir un patrón lineal, podemos usar la tecnología para calcular (r ). Ingrese las entradas y salidas correspondientes y seleccione Regresión lineal. La calculadora también le proporcionará el coeficiente de correlación, (r = 0.9509 ). Este valor es muy cercano a 1, lo que sugiere una fuerte relación lineal creciente.

Nota: Para algunas calculadoras, los diagnósticos deben estar "activados" para obtener el coeficiente de correlación cuando se realiza la regresión lineal: [2nd]> [0]> [alpha] [x – 1], luego desplácese hasta DIAGNOSTICSON.

Predecir con una línea de regresión

Una vez que determinamos que un conjunto de datos es lineal usando el coeficiente de correlación, podemos usar la línea de regresión para hacer predicciones. Como aprendimos anteriormente, una línea de regresión es una línea que está más cerca de los datos en el diagrama de dispersión, lo que significa que solo una de esas líneas es la que mejor se ajusta a los datos.

Ejemplo ( PageIndex {6} ): uso de una línea de regresión para hacer predicciones

El consumo de gasolina en los Estados Unidos ha aumentado constantemente. Los datos de consumo de 1994 a 2004 se muestran en la Tabla ( PageIndex {3} ). Determine si la tendencia es lineal y, de ser así, busque un modelo para los datos. Utilice el modelo para predecir el consumo en 2008.

Tabla ( PageIndex {3} )
Año'94'95'96'97'98'99'00'01'02'03'04
Consumo (miles de millones de galones)113116118119123125126128131133136

El diagrama de dispersión de los datos, incluida la línea de regresión de mínimos cuadrados, se muestra en la Figura ( PageIndex {8} ).

Podemos introducir una nueva variable de entrada, (t ), que representa años desde 1994.

La ecuación de regresión de mínimos cuadrados es:

[C (t) = 113,318 + 2,209t ]

Utilizando tecnología, se calculó que el coeficiente de correlación era 0,9965, lo que sugiere una tendencia lineal creciente muy fuerte.

Usando esto para predecir el consumo en 2008 ((t = 14) ),

[ begin {align} C (14) & = 113.318 + 2.209 (14) & = 144.244 end {align} ]

El modelo predice 144.244 mil millones de galones de consumo de gasolina en 2008.

Ejercicio ( PageIndex {1} )

Use el modelo que creamos usando tecnología en el Ejemplo ( PageIndex {6} ) para predecir el consumo de gas en 2011. ¿Es esto una interpolación o una extrapolación?

Respuesta

150,871 mil millones de galones; extrapolación

Conceptos clave

  • Los gráficos de dispersión muestran la relación entre dos conjuntos de datos.
  • Los gráficos de dispersión pueden representar modelos lineales o no lineales.
  • La línea de mejor ajuste puede estimarse o calcularse utilizando una calculadora o software estadístico.
  • La interpolación se puede usar para predecir valores dentro del dominio y rango de los datos, mientras que la extrapolación se puede usar para predecir valores fuera del dominio y rango de los datos.
  • El coeficiente de correlación, (r ), indica el grado de relación lineal entre los datos.
  • Una línea de regresión se ajusta mejor a los datos.
  • La línea de regresión de mínimos cuadrados se encuentra minimizando los cuadrados de las distancias de los puntos desde una línea que pasa a través de los datos y puede usarse para hacer predicciones con respecto a cualquiera de las variables.

Ajustar modelos a datos¶

que "se ajusta mejor" a los datos. Hay diferentes formas de cuantificar lo que significa "mejor ajuste", pero el método más común se llama regresión lineal de mínimos cuadrados. En la regresión lineal de mínimos cuadrados, queremos minimizar la suma de errores cuadrados

entonces la suma de los errores cuadrados se puede expresar como

Resolvemos los coeficientes ( mathbf = [c_0, c_1] ^ T ) que minimizan ( Vert mathbf - A mathbf Vert ^ 2 ) de 2 dos formas:

Ecuaciones normales¶

El vector de coeficientes ( mathbf) es la solución única del sistema

Descomposición QR¶

Sea (A = Q_1R_1 ) la descomposición QR (delgada) de (A ) (donde (R_1 ) es un triángulo superior cuadrado). El vector de coeficientes ( mathbf) es la solución única del sistema

Ejemplo: datos lineales ruidosos falsos¶

Hagamos un ejemplo con algunos datos falsos. Construyamos un conjunto de puntos aleatorios basados ​​en el modelo.

para alguna elección arbitraria de (c_0 ) y (c_1 ). El factor ( epsilon ) representa un ruido aleatorio que modelamos usando la distribución normal. Podemos generar números aleatorios muestreados a partir de la distribución normal estándar utilizando la función NumPy numpy.random.randn.

El objetivo es demostrar que podemos usar la regresión lineal para recuperar los coeficientes (c_0 ) y (c_1 ) del cálculo de la regresión lineal.

Usemos la regresión lineal para recuperar los coeficientes (c_0 ) y (c_1 ). Construya la matriz (A ):

Veamos las primeras 5 filas de (A ) para ver que está en la forma correcta:

Usa scipy.linalg.solve para resolver ( left (A ^ T A right) mathbf = left (A ^ T right) mathbf) para ( mathbf) :

¡Hemos recuperado los coeficientes del modelo casi exactamente! Tracemos los puntos de datos aleatorios con la regresión lineal que acabamos de calcular.


Regresión simple: ajustar a una línea

En la forma de regresión más simple pero común, nos gustaría ajustar una línea (y: x mapsto a + bx ) a un conjunto de puntos ((x_j, y_j) ), donde (x_j ) y (y_j ) son escalares. Suponiendo que tenemos dos matrices dobles para xey, podemos usar Fit.Line para evaluar los parámetros (a ) y (b ) del ajuste por mínimos cuadrados:

¿Qué tan bien se ajustan estos parámetros a los datos? Los puntos de datos están colocados exactamente en una línea. De hecho, el coeficiente de determinación confirma el ajuste perfecto:


Ejemplos de valores de coeficientes de correlación

Ejemplo 5

Calcula el coeficiente de correlación de nuestros datos de cricket.

Debido a que los datos parecen seguir un patrón lineal, podemos usar la tecnología para calcular
r = 0,9509. Dado que este valor es muy cercano a 1, sugiere una fuerte relación lineal creciente.

Ejemplo 6

El consumo de gasolina en los EE. UU. Ha aumentado de manera constante. Los datos de consumo de 1994 a 2004 se muestran a continuación.
3 Determine si la tendencia es lineal y, de ser así, busque un modelo para los datos. Utilice el modelo para predecir el consumo en 2008.

Año 󈨢 󈨣 󈨤 󈨥 󈨦 󈨧 󈧄 󈧅 󈧆 󈧇 󈧈
Consumo (miles de millones de gas) 113 116 118 119 123 125 126 128 131 133 136

Para simplificar las cosas, se introduce una nueva variable de entrada, t, que representa años desde 1994.

Utilizando tecnología, se calculó que el coeficiente de correlación era 0,9965, lo que sugiere una tendencia lineal creciente muy fuerte.

La ecuación de regresión de mínimos cuadrados es:
C(t) = 113.318 + 2.209t

Usando esto para predecir el consumo en 2008 (t = 14), C(14) = 113,318 + 2,209 (14) = 144,244 miles de millones de galones

El modelo predice que se consumirán 144.244 millones de galones de gasolina en 2008.

Pruébelo ahora 2

Utilice el modelo creado por la tecnología en el ejemplo 6 para predecir el consumo de gas en 2011. ¿Es esto una interpolación o una extrapolación?


3.8.3: Ajuste de modelos lineales a datos - Matemáticas

    • Ingeniería, I + D + i
    • Finanzas, estadísticas y análisis empresarial amp
    • Educación
    • Software y amp Web
      • Aprendiendo
      • ¿Necesitas ayuda?
      • Soporte Premium
        • Acerca de
        • Trabaja con nosotros
        • Iniciativas

        Ajustar datos a modelos lineales

        por técnicas de mínimos cuadrados

        Una de las funciones más utilizadas de Analista de datos experimentales (EDA) está ajustando datos a modelos lineales, especialmente líneas rectas y curvas. Este capítulo analiza la realización de estos tipos de ajustes utilizando la técnica más común: minimización de mínimos cuadrados.

        La siguiente sección proporciona información básica sobre este tema. Aunque usa algunas funciones de EDA A modo de ilustración, el propósito de la sección no es ser una introducción a esas funciones, sino que esta sección pretende ser una introducción a los problemas de ajuste lineal que el EDA implementar funciones.

        Las secciones siguientes de este capítulo presentan y discuten los EDA funciones que hacen ajustes lineales por mínimos cuadrados.

        Este capítulo analiza una de las funciones más utilizadas de EDA: ajuste de datos a modelos lineales. Llamar a la variable dependiente y y a la independiente X, se puede dar una representación general de dicho modelo.

        Aquí el a [ k ] son ​​los parámetros que se deben ajustar, y X[x, k] se denominan funciones de "base".

        Como veremos, todo el tema del ajuste de datos a modelos es a menudo sorprendentemente sutil.

        Con mucho, la elección más común de funciones base son los polinomios. Imagina que estamos tratando de encajar y versus X a una línea recta.

        Estamos tratando de determinar a[0] y a[1], y las dos funciones básicas son 1 y X.

        Imagina que ajustamos los datos a un polinomio de segundo orden.

        Ahora estamos tratando de encajar a [0] , a [1] y a [2], y las funciones base son 1, X, y .

        El uso de la palabra "lineal" es a veces confuso en el contexto del ajuste. Significa que el modelo que se ajusta es lineal en los parámetros a los que nos ajustamos (es decir., la a [1] en la notación recién introducida).

        No existe tal restricción en las funciones básicas. Por ejemplo, podemos ajustar datos de y versus x a funciones trigonométricas.

        y = a [0] + a [1] Sin [2 x] + a [2] Sin [4 x]

        Este es un ajuste lineal, por lo que se pueden usar las técnicas discutidas en este capítulo. El hecho de que las funciones base no sean lineales no tiene relevancia en este contexto.

        Ahora suponga que nos ajustamos a una función exponencial.

        Este no es un ajuste lineal, ya que el parámetro a [2] no es lineal. Tenga en cuenta que, en este ejemplo, la relación se puede hacer lineal mediante la transformación.

        Escritura aprime[1] = Registro[a[1]] aclara un poco la relación.

        Por lo tanto, ajustando el logaritmo de y versus X a una línea recta se ajusta efectivamente a la ecuación original y es lineal. Un pequeño punto acerca de este tipo de transformación es que introduce sesgos en los parámetros, pero a menudo esos sesgos pueden ignorarse. Este tema se analiza en la Sección 8.2.2.

        Finalmente, imagina que nos ajustamos a una exponencial más compleja.

        No existe una transformación simple que linealice esta forma. Se requieren las técnicas discutidas en el Capítulo 5 sobre técnicas no lineales.

        4.1.2 Técnicas de mínimos cuadrados

        La técnica estándar para realizar un ajuste lineal es la regresión de mínimos cuadrados. Este capítulo analiza los programas que utilizan ese algoritmo.

        Sin embargo, como señalan Emerson y Hoaglin, la técnica no está exenta de problemas.

        Se han desarrollado varios métodos para ajustar una línea recta del formulario:

        El método más conocido y más utilizado es la regresión por mínimos cuadrados, que implica cálculos algebraicamente simples, encaja perfectamente en el marco de inferencia construido sobre la distribución gaussiana y solo requiere una derivación matemática sencilla. Desafortunadamente, la línea de regresión de mínimos cuadrados no ofrece resistencia. Un punto de datos salvaje puede tomar fácilmente el control de la línea ajustada y hacer que dé un resumen totalmente engañoso de la relación entre y y x.

        Referencia: John D. Emerson y David C. Hoaglin, "Resistant Lines for y versus x", en David C. Hoaglin, Frederic Mosteller y John W. Tukey, Understanding Robust and Exploratory Data Analysis (John Wiley, 1983, ISBN: 0-471-09777-2), pág. 129.

        La idea central del algoritmo es que buscamos una función F[X] que se acerca lo más posible a los datos experimentales reales. Dejamos que los datos consistan en norte <X, y> pares.

        Luego, para cada punto de datos, el residuo se define como la diferencia entre el valor experimental de y y el valor de y dado por la función f evaluada en el valor correspondiente de X.

        Primero, definimos la suma de los cuadrados de los residuos.

        Entonces, la técnica de mínimos cuadrados minimiza el valor de SumOfSquares.

        He aquí un ejemplo sencillo. Imagina que tenemos una sucesión de X valores, que es el resultado de mediciones repetidas.

        Deseamos encontrar una estimación del valor esperado de X a partir de estos datos. Llame a ese valor estimado. Entonces, simbólicamente, podemos escribir la suma de los cuadrados.

        Para que sea mínimo, la derivada con respecto a debe ser igual a cero.

        Pero esto es solo el medio (es decir., promedio) de la xi. La media no tiene resistencia y un solo punto de datos contaminado puede afectar la media en un grado arbitrario. Por ejemplo, si X 1 - & gt infinito, entonces también lo hace. Es exactamente en este sentido en el que la técnica de mínimos cuadrados en general no ofrece resistencia.

        No obstante, aunque EDA proporciona funciones que son resistentes, los ajustadores de mínimos cuadrados discutidos aquí suelen ser los primeros en probar.

        Por lo general, ajustamos datos a un modelo para el que hay más de un parámetro.

        La técnica de mínimos cuadrados luego toma la derivada de la suma de los cuadrados de los residuos con respecto a cada uno de los parámetros a los que nos ajustamos y establece cada uno en cero.

        La solución analítica de este conjunto de ecuaciones, entonces, es el resultado del ajuste.

        Si el ajuste fuera perfecto, entonces el valor resultante de SumOfSquares sería exactamente cero. Cuanto mayor sea el valor de SumOfSquares, menos se ajustará el modelo a los datos reales.

        4.1.3 Ajuste a datos con errores experimentales

        Como se discutió en el Capítulo 3, en un contexto experimental en las ciencias físicas, casi todas las cantidades medidas tienen un error porque no existe un aparato experimental perfecto. El Capítulo 3 también proporciona algunas pautas para determinar cuáles son los valores de esos errores.

        No obstante, con demasiada frecuencia, los datos experimentales reales en las ciencias y la ingeniería no tienen errores explícitos asociados con los valores de las variables dependientes o independientes. En este caso, se suelen utilizar las técnicas de ajuste por mínimos cuadrados discutidas en la subsección anterior. Como ya veremos, EDA también proporciona extensiones a este método estándar con algunas heurísticas de reponderación.

        Si hay errores asignados en los datos experimentales, diga erry, estos errores se utilizan para ponderar cada término en la suma de los cuadrados. Si los errores son estimaciones de la desviación estándar, dicha suma ponderada se denomina "chi cuadrado", del ajuste.

        La técnica de mínimos cuadrados toma las derivadas de ChiSquared con respecto a los parámetros del ajuste, establece cada ecuación en cero y resuelve el conjunto de ecuaciones resultante. Por lo tanto, la única diferencia entre esta situación y la discutida en la sección anterior es que ponderamos cada residuo con la inversa del error.

        Algunas referencias se refieren a los pesos w[[I]] de un ajuste, mientras que otros llaman a los errores erry las desviaciones estándar.

        Además, algunas personas se refieren a la "varianza", que es el error o la desviación estándar al cuadrado.

        Si los datos tienen errores tanto en la variable independiente como en la dependiente, digamos errx y erry, respectivamente, los programas de adaptación en EDA utilizar lo que se llama una "técnica de varianza efectiva". Por ejemplo, imagina que estamos ajustando datos a a[2], y tenemos un punto de datos donde x = 3 +/- 0.1.

        Para una buena aproximación, la incertidumbre en y, debido a los errores en X, es el error en X veces la pendiente de la línea.

        Por tanto, si podemos suponer que los errores en X son independientes de los errores en y, podemos combinar erry y este término en cuadratura para obtener un error efectivo en y.

        Usando estos errores en lugar de erry se denomina "técnica de varianza efectiva". En general, si estamos modelando

        entonces el algoritmo implica reemplazar erry con

        El cuadrado del error erry es la "varianza efectiva".

        Observe que dado que esta varianza efectiva contiene al menos algunos de los valores de los parámetros a los que nos ajustamos, el chi-cuadrado no es lineal en estos parámetros. Esto implica que, en principio, se requiere una técnica de ajuste no lineal. Sin embargo, cuando los errores son pequeños, las no linealidades también son pequeñas y casi siempre LinearFit puede iterar con éxito hacia una solución razonable.

        También hay algunas sutilezas sobre el valor de la variable independiente para usar en la evaluación de las derivadas de la función. En casi todos los casos, las diferencias en los valores ajustados utilizando diferentes formas de hacer la evaluación son pequeñas en comparación con los errores en esos valores. Por lo tanto, LinearFit solo evalúa las derivadas en los valores observados de la variable independiente.

        Cuando el ajuste es en línea recta, una forma particularmente efectiva de aplicar la técnica de varianza efectiva es un algoritmo llamado minimización de Brent. Este es el valor predeterminado de LinearFit. La sección 4.4.1.2 analiza esto con más detalle.

        4.1.4 Evaluación de la bondad de un ajuste

        Como ya se mencionó, cuando los datos no tienen errores, la estadística SumOfSquares mide qué tan bien se ajustan los datos al modelo. Aunque un SumOfSquares más pequeño significa un mejor ajuste, no hay a priori definición de lo que significa la palabra "pequeño" en este contexto. En muchos casos, los analistas utilizarán intervalos de confianza para tratar de caracterizar la bondad del ajuste para este caso. Hay muchas advertencias en este enfoque, algunas de las cuales se analizan en la Sección 8.2.1. No obstante, el paquete Statistics`ConfidenceIntervals`, que es estándar con Mathematica, puede calcular este tipo de estadísticas.

        Cuando los datos tienen errores, el estadístico ChiSquared proporciona información sobre lo que significa "pequeño" porque los datos se ponderan con la estimación del experimentador de los errores en los datos.

        El número de grados de libertad de un ajuste se define como el número de puntos de datos menos el número de parámetros a los que nos ajustamos. Si estamos haciendo, digamos, un ajuste en línea recta a dos puntos de datos, los grados de libertad son cero en este caso, el ajuste tampoco es bastante interesante.

        Si conocemos el chi cuadrado y los grados de libertad para un ajuste, entonces se puede definir la probabilidad de chi cuadrado.

        Aquí Gamma es un Mathematica función incorporada.

        Como conveniencia, EDA proporciona una función ChiSquareProbability.

        La interpretación de esta estadística es un poco sutil. Suponemos que los errores experimentales son aleatorios y estadísticos. Por lo tanto, si repetimos el experimento, es casi seguro que obtendríamos datos ligeramente diferentes y, por lo tanto, obtendríamos un resultado ligeramente diferente si ajustamos los nuevos datos al mismo modelo que los datos antiguos. Como indica el mensaje de uso, la probabilidad de chi-cuadrado es la posibilidad de que el ajuste a los nuevos datos tenga un ChiSquared mayor que el ajuste que hicimos a los datos antiguos.

        Si nuestro ajuste arrojó un ChiSquared de cero, entonces es casi seguro que cualquier medición repetida produciría un ChiSquared más grande.

        Si el Chi Cuadrado es igual al número de grados de libertad, entonces la probabilidad depende del Chi Cuadrado.

        Las probabilidades oscilan entre el 32% y el 48%. Estos son los tipos de probabilidades que esperaríamos si nuestras estimaciones de incertidumbres experimentales fueran razonables y los datos se ajustaran razonablemente bien al modelo.

        Si tenemos un Chi Cuadrado de 100 para 10 grados de libertad, la probabilidad es muy pequeña.

        Este número indica que es probable que ningún experimento repetido se ajuste tan mal al modelo. La conclusión puede ser que, de hecho, los datos no están relacionados con el modelo que se utiliza en el ajuste.

        Si el ChiSquared es mucho menor que el DegreesOfFreedom, el ajuste es casi demasiado bueno para ser verdad.

        Una posibilidad es que el experimentador haya sobreestimado los errores experimentales en los datos.

        Si el Chi Cuadrado es, digamos, el doble del número de grados de libertad, la probabilidad depende del número de grados de libertad.

        Para dos grados de libertad, la probabilidad es del 14%, lo que no es demasiado irrazonable e indica un ajuste bastante razonable. Para 20 grados de libertad, la probabilidad cae al 0,5%, lo que indica un ajuste muy deficiente.

        Resumimos el uso de ChiSquared para evaluar el resultado de un ajuste.

        Un buen ajuste debe tener un Chi Cuadrado cercano al número de grados de libertad del ajuste. Cuanto mayor sea el número de grados de libertad, cuanto más cerca debería estar el ChiSquared.

        Dicho esto, digamos que tenemos buenos datos, incluidas buenas estimaciones de sus errores, y que nos ajustamos a un modelo que coincide con los datos. Si repetimos el experimento y el ajuste muchas veces y formamos un histograma de la probabilidad ChiSquare para todos los ensayos, debería ser plano, esperamos que algunos ensayos tengan probabilidades muy pequeñas o grandes, aunque no haya ningún problema con los datos o el modelo. Por lo tanto, si un solo ajuste tiene una probabilidad chi-cuadrado muy grande o muy pequeña, tal vez sea una coincidencia y no haya nada de malo en los datos o el modelo. En este caso, sin embargo, repetir la medición probablemente sea una buena idea.

        A pesar de sus limitaciones, el análisis estadístico es muy útil. Sin embargo, una de las mejores formas de evaluar un ajuste es gráficamente. Suministrado con EDA es un famoso cuarteto de datos inventados por Anscombe que ilustra esto.

        Todos los conjuntos de datos suministrados con EDA tener un mensaje de uso.

        Cada conjunto de datos consta de 11 <x, y> pares.

        Los promedios de ambos X y y porque los cuatro son casi iguales.

        Podemos usar el EDA función LinearFit para ajustar cada conjunto de datos a una línea recta. LinearFit se presenta en la siguiente sección, y los detalles de las opciones utilizadas a continuación no son importantes aquí por ahora, simplemente notamos que la función devuelve la intersección y el error estimado en la intersección como a[0], y la pendiente y su error como a[1].

        El comando también almacenó la intersección y la pendiente de cada ajuste en adaptable.

        Tenga en cuenta que los resultados de estos ajustes, incluido el SumOfSquares, son casi idénticos. Entonces, con solo mirar los números, podríamos concluir que los cuatro ajustes son igualmente razonables.

        Ahora hacemos una matriz de gráficos 2 2, cada gráfico contiene tanto el resultado del ajuste a los datos como los datos en sí.

        Finalmente, mostramos las gráficas.

        El gráfico 1 muestra que modelar AnscombeData [[1]] en línea recta es razonable, mientras que el gráfico 2 muestra el peligro de utilizar un modelo incorrecto. Los gráficos 3 y especialmente 4 ilustran el hecho, discutido anteriormente, de que los ajustes por mínimos cuadrados no son resistentes a la influencia de un punto de datos "salvaje".

        Philip R. Bevington, Reducción de datos y análisis de errores (McGraw-Hill, 1969), págs. 134 y sigs. Y 204 y sigs. Una introducción clásica al ajuste por mínimos cuadrados.

        Gene H. Golub y James M. Ortega, Computación científica y ecuaciones diferenciales (Academic Press, 1992), págs. 89 y sigs. Y 139 y sigs. Otra buena introducción que también analiza el uso de factorización QR.

        Matthew Ly Lebanon, Revista estadounidense de física 51, (1984), pág. 22. Analiza una técnica de varianza efectiva modificada y mejorada.

        Jay Orear, Revista estadounidense de física 50, (1982) p 912. Introduce la técnica de varianza efectiva.

        William H. Press, Brian P. Flannery, Saul A. Teukolsky y William T. Vetterling, Recetas numéricas en C (Cambridge Univ., 1988), Capítulo 14. El código de la LinearFit package utiliza en gran medida la notación de este libro, que también analiza la descomposición de valores singulares.

        William H. Press y Saul A. Teukolsky, Computadoras en física 6, (1992) pág. 274. A discussion of fitting when the data has errors in both coordinates, with an example of the Brent method.

        J. R. Taylor, An Introduction to Error Analysis (University Science Books, 1982), p. 158 ff. A good discussion of least-squares techniques, this also discusses the "statistical assumption" used by LinearFit when the data has no errors and the Reweight option is set to True .

        4.2 Curve Fitting When the Data Have No Explicit Errors

        In this section we discuss the Mathematica Fit function and then introduce the EDA function LinearFit .

        We will use GanglionData , which is supplied with EDA.

        Like all data supplied with EDA, information about the data is included.

        In this graph, CP denotes central to peripheral cell density ratio and área denotes retinal area.

        We can also use the EDA function EDAListPlot .

        Lia, et al., who took the data, also fit it to a straight line and from that fit deduced information about the growth of the retina.

        We fit the data to a straight line using the built-in Mathematica Fit function.

        Next, we plot the result of the fit.

        We display both the data and fit together.

        We calculate a list of the residuals.

        For less experienced Mathematica users, this calculation is "unwound" in Section 4.2.1. We examine the residuals.

        For a good fit (es decir., good data fit to a correct model) we expect the residuals to be randomly distributed about zero. This does not appear to be the case for the residuals of our straight-line fit to GanglionData .

        The sum of the squares of the residuals can be calculated.

        The smaller this number, the "better" the fit.

        By default LinearFit , which is supplied by EDA, fits to polynomials. Using it, we can similarly fit GanglionData to a straight line.

        The <0, 1>in the call to LinearFit tells the program that we are fitting to two parameters. The basis function of the first parameter is , and the basis function of the second parameter is . The a in the call to LinearFit is an arbitrary symbol that is used the present the result of the fit.

        By default LinearFit returns a set of rules. The first rule states that the value of the parameter for a[0], the intercept, is 0.03 LinearFit has also estimated the error in that parameter to be ± 0.72. The second rule states that the value of the parameter for a[1], the slope, is 0.107 ± 0.01. The function also returns the SumOfSquares and the DegreesOfFreedom .

        LinearFit has used a "statistical assumption" about the errors in the independent variable of the dataset and returns the value of that error as PseudoErrorY . The behavior can be controlled with the Reweight option discussed in Section 4.4.1.13.

        Note that by default LinearFit displays some graphical information about the fit. The large graph displays the data and the results of the fit since the parameters of the fit have errors, these maximum and minimum values of the fit are also displayed. The small insert also displays the residuals this plot seems to confirm the indication of the previous residual plot for this data that the data point for the largest área is pulling the value of the slope up from the value consistent with the other data.

        This graphic object is not returned by LinearFit the function returns the numerical rules only.

        The ShowLinearFit function, which is used internally by LinearFit , can be accessed directly and does return the graphic object. Section 4.4.2.1 provides further details.

        Perhaps the suspicious appearance of the residual plot is not due to a slightly wild data point maybe the model that CP versus área is linear in área is incorrect. Let's look at a fit to a second-order polynomial.

        The graph indicates no systematic problems with the residuals. However, note that the error in the slope a[1] is larger than the value of the slope itself.

        The fact that the errors in the a[1] term are larger than the value of the a[1] term suggests that perhaps we should be fitting to a parabola.

        Doing the fit seems to affirm that suggestion.

        It is tempting to accept this as the "best" fit to the data. We will find yet another good fit to the data in Section 8.2.1.

        It is important to emphasize that the above analysis, although suggestive, certainly does not prove that this data should not be modeled by a straight line. Many of the problems with the straight-line fit were due to the last data point. We repeat some of the fits we have just done, but this time dropping that data point.

        Now it is much more difficult to choose between the two models, although the only difference is one data point. The residuals for the straight-line fit still look slightly suspicious, and the SumOfSquares for the second fit is about half the values for the straight-line fit. As we have already stated, analyzing the fit of data to a model is sometimes very subtle.

        As mentioned, Lia et al. used their straight-line fit to deduce information about the growth of the retina. Cleveland is certainly harsh when he states, "Astonishingly, the three experimenters who gathered and analyzed the data, fitted a line." (Reference: William S. Cleveland, Visualizing Data (AT&T Bell Laboratories, 1993), p. 91). You may, of course, explore this data further and draw your own conclusions.

        We will explore the ganglion data further in Sections 6.1.3, 6.2.3, 7.1.1, and especially in 8.2.1.

        4.2.1 Unwinding the Residual Calculation

        The residual was calculated in the previous section.

        Here the command is "unwound" for less experienced Mathematica users. First, look at the data itself.

        Then we extract the independent variable, area .

        Similarly, we extract the dependent variable, CP .

        The variable result is the result of using Fit .

        We can evaluate the value of CP predicted by this fit for each value of área.

        We subtract these values from the experimental values of CP.

        These are the residuals for each data point. Finally, we form a list where each element is .

        This is the command we have been unwinding.

        Often a command such as this is written by building up to it in stages often identical to the way we have unwound it.

        4.3 Curve Fitting When the Data Have Explicit Errors

        In this section we discuss fitting to data where the experimenter has provided errors in one or both of the coordinates.

        We begin by looking at calibration data for a thermocouple, a temperature measuring device.

        We begin by fitting the data to a straight line.

        Although the errors in the fitted parameters, the ChiSquared per DegreesOfFreedom , the plot of the data, and the results of the fit all look fairly reasonable, the plot of the residuals shows clearly that something is wrong with this fit.

        We fit to the data again, this time adding a quadratic term.

        Now the residuals appear to have zero slope, and the errors in the fitted parameters are all smaller than the values of those parameters. However, the ChiSquared is much smaller than the DegreesOfFreedom . This appears too small and, in fact, the probability is essentially 100%.

        The data was taken by Bevington and when we examine the details of how he collected the data, we discover that his claimed errors are not an estimate of his reading error or the amount of fluctuation of the needle of the voltmeter. Rather they are just a guess made by the experimenter. The ChiSquareProbability indicates that the guess was fairly pessimistic.

        Not only was Bevington careful enough to supply the above information, he also tells us that the measurements were made on two scales of the voltmeter, the 1 mV and the 3 mV scales. Let us assume that the error of precision, either due to reading error or fluctuations in the needle, is 1% of the value of the scale being used. We can form a new data set using these errors.

        A fit to a second-order polynomial looks more reasonable.

        Comparing the values of the parameters of the fit to the ones we obtained using Bevington's original errors in the voltage, we see that the values have changed somewhat but the two fits are the same within estimated errors in those parameters. Further, the errors in the parameters for this second fit are, perhaps expectedly, much smaller than for the first. It may be reasonable to use this fit as our "final" calibration result.

        LinearFit can also handle data in which there are errors in both coordinates. Pearson's data from 1901 with York's weights, although made up and not from a real experiment, are often used to test fitters.

        We fit PearsonYorkData to a straight line.

        In this fit an "effective variance technique" discussed in Section 4.1.3 has been used.

        One of the features of the errors in the coordinates that makes these fits interesting to statisticians is that for small values of X the error in y dominates, while for large X it is the error in X that dominates. An option to LinearFit allows us to examine the values of the effective variance we also use the ShowFit option to suppress the graphs of the fit.

        Note that the square root of the effective variances are the errors in the dependent variable used by LinearFit .

        We can also examine the effect of these errors in the independent variable on the fit by forming a data set containing only the error in the dependent variable and fitting to a straight line.

        The ChiSquared is large compared to the DegreesOfFreedom . In fact, it is difficult to find a fit to newData with a reasonable ChiSquareProbability . The following tries a number of powers and prints the probability.

        We end this section by looking at some real data for a plastic ball in free fall.

        Without air resistance we expect the distance s to be related to the time t according to a second-order polynomial.

        Therefore, we try a second-order polynomial first.

        The ChiSquared per DegreesOfFreedom is large. In addition, there is a clear sign of a systematic problem in the residuals.

        One simple, but approximate, way to incorporate the effects of air resistance on this data is to add a cubic term to the polynomial.

        La a[2] term should be nearly equal to 1/2 gramo, dónde gramo is the acceleration due to gravity. From this experiment, then, gramo can be calculated.

        This is in m per . We re-cast as m per .

        Thus, Professor Key has performed a better than 1% determination of gramo. In the location in Toronto where this data was collected, the accepted local value of gramo is 9.8012 ± 0.0010 m/, which is consistent with this result.

        4.4 Options, Utilities, and Details

        This section discusses the LinearFit package in more detail.

        There are many options to LinearFit that control both how it performs the fit, and what values and formats it returns these are discussed in Section 4.4.1.

        The LinearFit package also includes functions that are used by LinearFit but may also be used directly these are the topic of Section 4.4.2.

        These are the options to LinearFit and their default values.

        Below we discuss these in order.

        The default values of these options have been set so that LinearFit will do the "right thing" for most simple analysis problems, while providing sufficient flexibility for more sophisticated problems.

        In addition, if ShowFit is set to True (the default) LinearFit uses the function ShowLinearFit . This function is discussed in Section 4.4.2. Options to ShowLinearFit given to LinearFit are passed to that function.

        If LinearFit is called with ReturnFunction set to True , or the ShowFit option is set to True ( the default) then the function ToLinearFunction is called this function is also discussed in Section 4.4.2. Options to ToLinearFunction given to LinearFit are passed to that function.

        The default basis function for LinearFit is the Mathematica function Power , which causes LinearFit to fit to polynomials. It may be changed to a user-supplied function using the Basis option.

        Our first illustration will use some made-up data that is a linear combination of three Bessel functions with a small noise.

        The order of the input arguments to BesselJ is the reverse of what we require for LinearFit , so we define a convenience function myBesselJ .

        Now we can fit to the data.

        Finally, we illustrate the Basis option with some real mass spectrometer data.

        After folding in calibration and resolution numbers from the mass spectrometer, the two peaks can be approximated as Gaussians. The center of the first peak is 326.155 amu with standard deviation 0.0240 amu the center of the second peak is 327.255 amu with a standard deviation of 0.0276 amu. These values are included in the following definition of the basis function.

        Note that the input arguments are the same as for Power : the first is the value of the independent variable and the second is the factor.

        We fit the MassSpecData .

        The residuals show that modeling this spectra as Gaussians is not perfect.

        Note also that this is a linear fit, since we are only fitting to the amplitudes of the two peaks: to fit to the center values and/or widths of the peaks would require using FindFit , which is discussed in Chapter 5.

        For fitting to a straight line with powers <0, 1>, if there are errors in both coordinates and the ReturnCovariance option discussed below is set to False (the default) then, by default, LinearFit uses a Brent minimization algorithm.

        We begin by repeating a fit we have done before.

        The algorithm used here differs from the "standard" one that we see in many references, in which one simply iterates the solution recalculating the effective variance at each iteration. This "standard" technique may be used by setting Brent to False .

        For this data the exact solutions are known. The intercept is 5.47991025 and the slope is -.480533415.

        Notice that both methods return the same values within their claimed errors, and they are both within errors of the exact values, although the Brent algorithm gives results that are closer.

        For lines with very large slopes, Brent tends to do a more realistic job of estimating the errors in the fitted parameters. We illustrate with some made-up data, mydata .

        Compared to Brent's calculation, the non-Brent method seems to have errors that are too small.

        The disadvantages of the Brent method are: (1) it is only available for straight-line fits, (2) it is about an order of magnitude slower than the standard method, and (3) it cannot return the full covariance matrix. We illustrate the last point using the ReturnCovariance option discussed below.

        The central idea of the Brent algorithm is that we weight the sum of the squares of the residuals with the effective variance errors.

        Here the X s are the basis functions and the effvar is the effective variance error. In general, this is not linear in the parameters to which we are fitting. But in the case of a straight line, the derivative of the sum of the squares with respect to the intercept is linear, and we can set the derivative to zero.

        For further information on this algorithm, see Press and Teukolsky, Computers en Physics 6, (1992), p. 274.

        4.4.1.3 The BrentTolerance Option

        The tolerance used by Brent minimization is controlled by the BrentTolerance option. We examine once again the fit to PearsonYorkData , this time turning off significant figure adjustment in the result using the UseSignificantFigures option discussed below.

        The values compare well with the known exact solution, which is an intercept of 5.47991025 and slope of -.480533415.

        We can decrease the tolerance used by the Brent minimization from its default value of 0.001.

        This yields an answer a bit closer to the exact values. Considering the size of the calculated errors in the fit parameters, these two results are essentially the same.

        4.4.1.4 The ConvergenceTest Option

        The ConvergenceTest option allows the user to control when the fit is considered to have converged.

        For example, here is a fit we have performed before, but this time we use the EDA ShowProgress option discussed below to follow its progress.


        3.8.3: Fitting Linear Models to Data - Mathematics

        Curve Fitting Toolbox™ software uses the method of least squares when fitting data. Fitting requires a parametric model that relates the response data to the predictor data with one or more coefficients. The result of the fitting process is an estimate of the model coefficients.

        To obtain the coefficient estimates, the least-squares method minimizes the summed square of residuals. The residual for the Ith data point rI is defined as the difference between the observed response value yI and the fitted response value ŷI, and is identified as the error associated with the data.

        r i = y i − y ^ i residual=data − fit

        The summed square of residuals is given by

        S = ∑ i = 1 n r i 2 = ∑ i = 1 n ( y i − y ^ i ) 2

        where norte is the number of data points included in the fit and S is the sum of squares error estimate. The supported types of least-squares fitting include:

        Weighted linear least squares

        Error Distributions

        When fitting data that contains random variations, there are two important assumptions that are usually made about the error:

        The error exists only in the response data, and not in the predictor data.

        The errors are random and follow a normal (Gaussian) distribution with zero mean and constant variance, σ 2 .

        The second assumption is often expressed as

        The errors are assumed to be normally distributed because the normal distribution often provides an adequate approximation to the distribution of many measured quantities. Although the least-squares fitting method does not assume normally distributed errors when calculating parameter estimates, the method works best for data that does not contain a large number of random errors with extreme values. The normal distribution is one of the probability distributions in which extreme random errors are uncommon. However, statistical results such as confidence and prediction bounds do require normally distributed errors for their validity.

        If the mean of the errors is zero, then the errors are purely random. If the mean is not zero, then it might be that the model is not the right choice for your data, or the errors are not purely random and contain systematic errors.

        A constant variance in the data implies that the “spread” of errors is constant. Data that has the same variance is sometimes said to be of equal quality.

        The assumption that the random errors have constant variance is not implicit to weighted least-squares regression. Instead, it is assumed that the weights provided in the fitting procedure correctly indicate the differing levels of quality present in the data. The weights are then used to adjust the amount of influence each data point has on the estimates of the fitted coefficients to an appropriate level.

        Linear Least Squares

        Curve Fitting Toolbox software uses the linear least-squares method to fit a linear model to data. A linear model is defined as an equation that is linear in the coefficients. For example, polynomials are linear but Gaussians are not. To illustrate the linear least-squares fitting process, suppose you have norte data points that can be modeled by a first-degree polynomial.

        To solve this equation for the unknown coefficients pag1 y pag2, you write S as a system of norte simultaneous linear equations in two unknowns. Si norte is greater than the number of unknowns, then the system of equations is overdetermined .

        S = ∑ i = 1 n ( y i − ( p 1 x i + p 2 ) ) 2

        Because the least-squares fitting process minimizes the summed square of the residuals, the coefficients are determined by differentiating S with respect to each parameter, and setting the result equal to zero.

        ∂ S ∂ p 1 = − 2 ∑ i = 1 n x i ( y i − ( p 1 x i + p 2 ) ) = 0 ∂ S ∂ p 2 = − 2 ∑ i = 1 n ( y i − ( p 1 x i + p 2 ) ) = 0

        The estimates of the true parameters are usually represented by B. Sustituyendo B1 y B2 por pag1 y pag2, the previous equations become

        ∑ x i ( y i − ( b 1 x i + b 2 ) ) = 0 ∑ ( y i − ( b 1 x i + b 2 ) ) = 0

        where the summations run from I = 1 to norte. La normal equations are defined as

        b 1 ∑ x i 2 + b 2 ∑ x i = ∑ x i y i b 1 ∑ x i + n b 2 = ∑ y i

        b 1 = n ∑ x i y i − ∑ x i ∑ y i n ∑ x i 2 − ( ∑ x i ) 2

        As you can see, estimating the coefficients pag1 y pag2 requires only a few simple calculations. Extending this example to a higher degree polynomial is straightforward although a bit tedious. All that is required is an additional normal equation for each linear term added to the model.

        In matrix form, linear models are given by the formula

        y es un norte-by-1 vector of responses.

        β is a metro-by-1 vector of coefficients.

        X es el norte-por-metro design matrix for the model.

        ε is an norte-by-1 vector of errors.

        For the first-degree polynomial, the norte equations in two unknowns are expressed in terms of y, X, and β as

        [ y 1 y 2 y 3 . . . y n ] = [ x 1 1 x 2 1 x 3 1 . . . x n 1 ] × [ p 1 p 2 ]

        The least-squares solution to the problem is a vector B, which estimates the unknown vector of coefficients β. The normal equations are given by

        where X T is the transpose of the design matrix X. Resolviendo para B,

        Use the MATLAB ® backslash operator ( mldivide ) to solve a system of simultaneous linear equations for unknown coefficients. Because inverting X T X can lead to unacceptable rounding errors, the backslash operator uses QR decomposition with pivoting, which is a very stable algorithm numerically. Refer to Arithmetic Operations for more information about the backslash operator and QR decomposition.

        You can plug B back into the model formula to get the predicted response values, ŷ.

        A hat (circumflex) over a letter denotes an estimate of a parameter or a prediction from a model. The projection matrix H is called the hat matrix, because it puts the hat on y.

        The residuals are given by

        Weighted Least Squares

        It is usually assumed that the response data is of equal quality and, therefore, has constant variance. If this assumption is violated, your fit might be unduly influenced by data of poor quality. To improve the fit, you can use weighted least-squares regression where an additional scale factor (the weight) is included in the fitting process. Weighted least-squares regression minimizes the error estimate

        s = ∑ i = 1 n w i ( y i − y ^ i ) 2

        where wI are the weights. The weights determine how much each response value influences the final parameter estimates. A high-quality data point influences the fit more than a low-quality data point. Weighting your data is recommended if the weights are known, or if there is justification that they follow a particular form.

        The weights modify the expression for the parameter estimates B in the following way,

        b = β ^ = ( X T W X ) − 1 X T W y

        where W is given by the diagonal elements of the weight matrix w.

        You can often determine whether the variances are not constant by fitting the data and plotting the residuals. In the plot shown below, the data contains replicate data of various quality and the fit is assumed to be correct. The poor quality data is revealed in the plot of residuals, which has a “funnel” shape where small predictor values yield a bigger scatter in the response values than large predictor values.

        The weights you supply should transform the response variances to a constant value. If you know the variances of the measurement errors in your data, then the weights are given by

        Or, if you only have estimates of the error variable for each data point, it usually suffices to use those estimates in place of the true variance. If you do not know the variances, it suffices to specify weights on a relative scale. Note that an overall variance term is estimated even when weights have been specified. In this instance, the weights define the relative weight to each point in the fit, but are not taken to specify the exact variance of each point.

        For example, if each data point is the mean of several independent measurements, it might make sense to use those numbers of measurements as weights.

        Robust Least Squares

        It is usually assumed that the response errors follow a normal distribution, and that extreme values are rare. Still, extreme values called outliers do occur.

        The main disadvantage of least-squares fitting is its sensitivity to outliers. Outliers have a large influence on the fit because squaring the residuals magnifies the effects of these extreme data points. To minimize the influence of outliers, you can fit your data using robust least-squares regression. The toolbox provides these two robust regression methods:

        Least absolute residuals (LAR) — The LAR method finds a curve that minimizes the absolute difference of the residuals, rather than the squared differences. Therefore, extreme values have a lesser influence on the fit.

        Bisquare weights — This method minimizes a weighted sum of squares, where the weight given to each data point depends on how far the point is from the fitted line. Points near the line get full weight. Points farther from the line get reduced weight. Points that are farther from the line than would be expected by random chance get zero weight.

        For most cases, the bisquare weight method is preferred over LAR because it simultaneously seeks to find a curve that fits the bulk of the data using the usual least-squares approach, and it minimizes the effect of outliers.

        Robust fitting with bisquare weights uses an iteratively reweighted least-squares algorithm, and follows this procedure:

        Fit the model by weighted least squares.

        Calcule el adjusted residuals and standardize them. The adjusted residuals are given by

        rI are the usual least-squares residuals and hI are leverages that adjust the residuals by reducing the weight of high-leverage data points, which have a large effect on the least-squares fit. The standardized adjusted residuals are given by

        K is a tuning constant equal to 4.685, and s is the robust standard deviation given by MAD/0.6745 where MAD is the median absolute deviation of the residuals.

        Compute the robust weights as a function of tu. The bisquare weights are given by

        Note that if you supply your own regression weight vector, the final weight is the product of the robust weight and the regression weight.

        If the fit converges, then you are done. Otherwise, perform the next iteration of the fitting procedure by returning to the first step.

        The plot shown below compares a regular linear fit with a robust fit using bisquare weights. Notice that the robust fit follows the bulk of the data and is not strongly influenced by the outliers.

        Instead of minimizing the effects of outliers by using robust regression, you can mark data points to be excluded from the fit. Refer to Remove Outliers for more information.

        Nonlinear Least Squares

        Curve Fitting Toolbox software uses the nonlinear least-squares formulation to fit a nonlinear model to data. A nonlinear model is defined as an equation that is nonlinear in the coefficients, or a combination of linear and nonlinear in the coefficients. For example, Gaussians, ratios of polynomials, and power functions are all nonlinear.

        In matrix form, nonlinear models are given by the formula

        y es un norte-by-1 vector of responses.

        F is a function of β and X.

        β is a metro-by-1 vector of coefficients.

        X es el norte-por-metro design matrix for the model.

        ε is an norte-by-1 vector of errors.

        Nonlinear models are more difficult to fit than linear models because the coefficients cannot be estimated using simple matrix techniques. Instead, an iterative approach is required that follows these steps:

        Start with an initial estimate for each coefficient. For some nonlinear models, a heuristic approach is provided that produces reasonable starting values. For other models, random values on the interval [0,1] are provided.

        Produce the fitted curve for the current set of coefficients. The fitted response value ŷ es dado por

        and involves the calculation of the Jacobian de F(X,b), which is defined as a matrix of partial derivatives taken with respect to the coefficients.

        Adjust the coefficients and determine whether the fit improves. The direction and magnitude of the adjustment depend on the fitting algorithm. The toolbox provides these algorithms:

        Trust-region — This is the default algorithm and must be used if you specify coefficient constraints. It can solve difficult nonlinear problems more efficiently than the other algorithms and it represents an improvement over the popular Levenberg-Marquardt algorithm.

        Levenberg-Marquardt — This algorithm has been used for many years and has proved to work most of the time for a wide range of nonlinear models and starting values. If the trust-region algorithm does not produce a reasonable fit, and you do not have coefficient constraints, you should try the Levenberg-Marquardt algorithm.

        Iterate the process by returning to step 2 until the fit reaches the specified convergence criteria.

        You can use weights and robust fitting for nonlinear models, and the fitting process is modified accordingly.

        Because of the nature of the approximation process, no algorithm is foolproof for all nonlinear models, data sets, and starting points. Therefore, if you do not achieve a reasonable fit using the default starting points, algorithm, and convergence criteria, you should experiment with different options. Refer to Specifying Fit Options and Optimized Starting Points for a description of how to modify the default options. Because nonlinear models can be particularly sensitive to the starting points, this should be the first fit option you modify.

        Robust Fitting

        This example shows how to compare the effects of excluding outliers and robust fitting. The example shows how to exclude outliers at an arbitrary distance greater than 1.5 standard deviations from the model. The steps then compare removing outliers with specifying a robust fit which gives lower weight to outliers.

        Create a baseline sinusoidal signal:

        Add noise to the signal with nonconstant variance.

        Fit the noisy data with a baseline sinusoidal model, and specify 3 output arguments to get fitting information including residuals.


        Regresión lineal

        Let us first start with the idea of ‘learning’. In Machine Learning, the process of learning involves finding a mathematical function that maps the inputs to the outputs.

        In the simplest case, that function is linear

        What is a Linear Relationship?

        A linear relationship means that you can represent the relationship between two sets of variables with a straight line. Many phenomena represent a linear relationship. For example, the force involved in stretching a rubber band. We can represent this relationship in the form of a linear equation in the form:

        “m” is the slope of the line,

        “x” is any point (an input or x-value) on the line,

        and “b” is where the line crosses the y-axis.

        In linear relationships, any given change in an independent variable produces a corresponding change in the dependent variable. Linear regression is used in predicting many problems like sales forecasting, analysing customer behaviour etc.

        It can be represented as below:

        The linear regression model aims to find a relationship between one or more features (independent variables) and a continuous target variable (dependent variable). We refer to the above as Ordinary Linear Regression, i.e. the simplest form of Linear Regression

        Let us now consider three models which we can infer from Ordinary Linear Regression

        1) Multiple Linear Regression

        The first obvious variant of the simple Linear Regression is multiple linear regression. When there is only one feature, we have Uni-variate Linear Regression, and if there are multiple features, we have Multiple Linear Regression. For Multiple linear regression, the model can be represented in a general form as

        This equation is a more generic form of the equation y = mx + c

        Training of the model involves finding the parameters so that the model best fits the data. The line for which the error between the predicted values and the observed values is minimum is called the best fit line or the regression line. These errors are also called as residuals. The residuals can be visualised by the vertical lines from the observed data value to the regression line.

        To define and measure the error of our model we define the cost function as the sum of the squares of the residuals. The cost function is denoted by

        Multiple linear regression can be illustrated in the commonly used Boston Housing Dataset

        The description of the features in the Boston Housing Dataset is as below:

        CRIM: Per capita crime rate by town

        ZN: Proportion of residential land zoned for lots over 25,000 sq. ft

        INDUS: Proportion of non-retail business acres per town

        CHAS: Charles River dummy variable (= 1 if tract bounds river 0 otherwise)

        NOX: Nitric oxide concentration (parts per 10 million)

        RM: Average number of rooms per dwelling

        AGE: Proportion of owner-occupied units built prior to 1940

        DIS: Weighted distances to five Boston employment centers

        RAD: Index of accessibility to radial highways

        TAX: Full-value property tax rate per $10,000

        PTRATIO: Pupil-teacher ratio by town

        LSTAT: Percentage of lower status of the population

        MEDV: Median value of owner-occupied homes in $1000s

        The prices of the house indicated by the variable MEDV is the target variable, and the remaining are the feature variables based on which we predict the value of a house.

        There are a number of good solutions to the Boston Housing Dataset problem

        2) Generalised Linear Model

        Let us now look at a second model that we can infer from Ordinary Linear Regression, i.e. Generalized Linear Regression. In Ordinary Linear Regression, we can predict the expected value of the response variable (the Y term) as a linear combination of a set of predictors (the X terms). As we have seen before, this implies that a constant change in a predictor leads to a constant change in the response variable. However, this is appropriate only when the response variable has a normal distribution. Normal distributions apply when the response variables change by relatively small amounts around a peak value (for example in the case of human heights).

        The requirement that the response variable is of normal distribution excludes many cases such as:

        1. Where the response variable is expected to be always positive and varying over a wide range or
        2. Constant input changes lead to geometrically varying, rather than continually varying, output changes.

        We can illustrate these using examples:

        • Suppose we have a model which predicts that a 10 degree temperature decrease would lead to 1,000 fewer people visiting the beach. This model does not work over small and large beaches. (Here, we could consider a small beach as one where expected attendance is 50 people and a large beach as one where the expected attendance was 10,000.). For the small beach (50 people), the model implies that -950 people would attend the beach. This prediction is obviously not correct
        • This model would also not work if we had a situation where we had an output that was bounded on both sides – for example in the case of a yes/no choice. This is represented by a Bernoulli variable where the probabilities are bounded on both ends (they must be between 0 and 1). If our model predicted that a change in 10 degrees makes a person twice as likely to go to the beach. As temperatures increase by 10 degrees, probabilities cannot be doubled.

        Generalised linear models cater to these situations by

        1. Allowing for response variables that have arbitrary distributions (other than only normal distributions), and
        2. Using an arbitrary function of the response variable (the link function) to vary linearly with the predicted values (rather than assuming that the response itself must vary linearly).

        Thus, in a generalised linear model (GLM), each outcome Y of the dependent variables is assumed to be generated from the exponential family of distributions (which includes distributions such as the normal, binomial, Poisson and gamma distributions, among others). GLM uses the maximum likelihood estimation of the model parameters. (Note the section adapted from Wikipedia)

        3) Polynomial Regression

        Having looked at the Multiple Regression and the GLM, let us now look at another model that we can infer from Ordinary Linear Regression, i.e. Polynomial Regression. Many relationships do not fit the Linear format at all. In polynomial regression, the relationship between the independent variable x and the dependent variable y is modelled as an nth degree polynomial in x. Polynomial regression has been used to describe nonlinear phenomena such as the growth rate of tissues, the distribution of carbon isotopes in lake sediments, and the progression of disease epidemics.

        Fourier: Theta1 * cos(X + Theta4) + (Theta2 * cos(2*X + Theta4) + Theta3


        Using Least Square Regression on X,Y values

        Let’s see how the prediction y changes when we apply y = 19.2x + (-22.4) on all x values.

        Let’s plot this particular straight line graph against the standard values.

        As we can see that these values are nearer to the actual line as compared to direct straight line values between starting and end points. If we compare this with the straight line graph we visualize the difference


        R²( R square )→ Coefficient of determination

        The coefficient of determination → This metric is used after building the model, to check how reliable the model is.

        R² →It is equal to the variance explained by regression (Regression Error or SSR) divided by Total variance in y (SST)

        R² → It describes how much of the total variance in y is explained by our model.
        Si Error(unexplained error or SSE)<Variance (SST) means the model is good.
        The best fit is the line in which unexplained error (SSE) is minimized.