lunes, 16 de mayo de 2016

REGRESIÓN Y CORRELACIÓN

REGRESIÓN LINEAL

Expresándolo en forma simple, la regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos variables, cuya tendencia general es rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del mejor ajuste” de la forma:
y = a + bx
En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto; en tanto que el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión.

TABLA 1

Serie de datos para el cálculo de una regresión (“a” y “b”) y del coeficiente de correlación (“r”)
NUMERO
VALORES DE X
VALORES DE Y
1
9.0
0.50
2
9.4
0.50
3
7.4
1.23
4
9.7
1.00
5
10.4
0.30
6
5.0
1.50
7
6.7
6.7
8
8.4
8.4
9
8.0
8.0
10
10.0
10.0
11
9.2
9.2
12
6.2
6.2
13
7.7
7.7


El procedimiento para obtener valores de “a” y “b” para una serie de pares de datos de “x” y de “y” (tal como la presentada en la Figura 1 y/o en la Tabla 1) es como sigue:
Paso 1 Calcule, para cada par de valores de “x” e “y”, las cantidades “x²”, “y²”, y “x.y”.
Paso 2 Obtenga las sumas (∑) de estos valores para todos los pares de datos de “x” e “y”, así como las sumas del total de los valores de “x” e “y”. Los resultados de los Pasos 1 y 2 aparecerán en forma similar a la siguiente:


Número de pares de datos
x
y
x.y
1
..
..
..
..
..
2
..
..
..
..
..
3
..
..
..
..
..
.





.





.





n
..
..
..
..
..
Monto de la Suma
∑x
∑x²
∑y
∑y²
∑x•y


Paso 3 Estime la pendiente (b) por medio de la relación:

 


Paso 4   Estime el intercepto (a) por medio de la relación:


 


               
CORRELACIÓN

El análisis de correlación se encuentra estrechamente vinculado con el análisis de regresión y ambos pueden ser considerados de hecho como dos aspectos de un mismo problema.

La correlación entre dos variables es - otra vez puesto en los términos más simples - el grado de asociación entre las mismas. Este es expresado por un único valor llamado coeficiente de correlación (r), el cual puede tener valores que ocilan entre -1 y +1. Cuando “r” es negativo, ello significa que una variable (ya sea “x” o “y”) tiende a decrecer cuando la otra aumenta (se trata entonces de una “correlación negativa”, correspondiente a un valor negativo de “b” en el análisis de regresión). Cuando “r” es positivo, en cambio, esto significa que una variable se incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo de “b” en el análisis de regresión).

Los valores de “r” pueden calcularse fácilmente en base a una serie de pares de datos de “x” e “y”, utilizando la misma table y montos que se indican en el Paso 2 de la sección “regresión” de este capítulo. De este modo “r” puede ser obtenido - indirectamente - a partir de la relación:

Figura 1a
Figura 1a  Diagrama de puntos dispersos correspondientes a pares de valores de “x” y de “y”. Nótese que “y” tiende a decrecer con el aumento de “x”, lo cual sugiere coeficientes de regresión y de correlación negaticos (basado en la Tabla 1)

Figura 1b
Figura 1b  Los mismos datos que en 1a Fig. 1a, pero ajustados en base a la regresión y = 2,16 - 0,173x, con r = 0,75 la cual proporciona el valor del “coeficiente de determinación” (r²). Entonces, lo único necesario es calcular


es decir, tomar la raíz indicada del coeficiente de determinación a los fines de obtener el valor absoluto de “r”, y luego agregar el signo (+ o -) de acuerdo a que la correlación sea positiva o negativa (lo cual puede ser establecido visualmente a partir del gráfico, o bien en base al cálculo del valor de “b” de la correspondiente regresión y utilizando para “r” el mismo signo).

Cuando se calculan los valores de “r” se querrá saber, sin embargo, hasta qué punto la correlación identificada pudiera haber surgido únicamente por casualidad. Esto puede ser establecido verificando si el valor estimado de “r” es “significativo”, es decir si el valor absoluto de “r” es mayor o igual que un valor “crítico” de “r” indicado en las tablas estadísticas (ver Tabla de valores críticos de “r” en el Apéndice 1).


Ejercicio: Calcule “a”, “b” y “r” a partir de los datos presentados en la Tabla 1 y verifique, por medio de la Tabla del Apéndice 1, hasta qué punto el valor estimado de “r” es significativo para valores de P = 0,01 y de P = 0,05

No hay comentarios:

Publicar un comentario