martes, 17 de mayo de 2016

TEORÍA DE MUESTREO

Teoría Elemental de Muestreo.

La teoría del muestreo es el estudio de las relaciones existente entre una población y muestras extraídas de la misma. Tiene gran interés en muchos aspectos de la estadística. Por ejemplo permite estimar cantidades desconocidas de la población (tales como la media población, la varianza, etc.), frecuentemente llamada parámetros poblacionales o brevemente parámetros, a partir del conocimiento, de las correspondientes cantidades muestrales (tales como la media muestral, la varianza , etc.), a ,menudo llamadas estadísticos muestrales o brevemente estadísticos.

La teoría de muestreo es también útil para determinar si la diferencias que se puedan observar entre dos muestras son debidas a la aleatoriedad de las mismas o si por el contrario son solamente significativas. Tales preguntas surgen por ejemplo, al ensayar un nuevo suero para el tratamiento de una enfermedad, o al decir si un proceso de producción es mejor que otro. Estas decisiones envuelven a los llamados ensayos e hipótesis de significación, que son de gran importancia en la teoría de la decisión.

Ventajas de la utilización de las muestras

1) El costo es menor y se puede obtener un mejor rendimiento del dinero invertido.

2) Se obtiene una disminución notable del tiempo necesario para alcanzar la información Cuando una muestra posee 30 o más datos se denomina grandes muestras y si la muestra tiene menos de 30 observaciones se denomina pequeñas muestras. Al procedimiento utilizado para elegir una muestra se denomina Muestreo.

Tipos de muestreo

Muestreo de juicio o no probabilístico. (opinático). Se basa en el conocimiento de la población por parte de alguien, quien hace a la muestra representativa, dependiendo de su intención, por lo tanto es subjetiva.

Probabilístico(Errático): Todos los elementos de la población tienen la posibilidad de pertenecer a la muestra. Muestreo Aleatorio:

1. Muestreo aleatorio simple

2. Muestreo Sistemático.

3. Muestreo Estratificado

4. Muestreo por Conglomerado

Muestreo de juicio: A través del conocimiento y la opinión personal, basada en la experiencia del investigador, se identifican los elementos de la población que van a formar parte de la muestra. Una muestra seleccionada por muestreo de juicio se basa en el conocimiento de la población por parte de alguien. Por ejemplo, un guardabosques tomará una muestra de juicio si decide con antelación que parte de una gran zona reforestada deberá recorrer para estimar el total de metros de madera que pueden cortarse. En ocasiones el muestreo de juicio sirve de muestra piloto para decidir cómo seleccionar después una muestra aleatoria.

Muestreo aleatorio: Cuando se conoce la probabilidad de que un elemento de la población figure o no en la muestra, puede ser: Muestreo Aleatorio Simple (Irrestrictamente Aleatorio): Un muestreo es aleatorio cuando cada elemento de la población tiene la misma probabilidad de ser escogido para formar parte de la muestra. Este tipo de muestreo evita que la muestra sea sesgada evitando por lo tanto que se realice una mala inferencia estadística. Por ejemplo, supóngase que un investigador quiera estimar el módulo de ruptura promedio de un material determinado formado por una población de tamaño N = 500; por ser ensayos destructivos este quiere seleccionar una muestra de tamaño n = 10 que le permita realizar la inferencia, ahora bien el criterio que usó el investigador para seleccionar dicha muestra fue el de tomar 10 materiales que estaban más próximos a él; evidentemente esta muestra no es representativa de la población, se dice que esta sesgada, por lo que la inferencia estadística que se realice será errónea. Por lo tanto, una muestra se dice que esta sesgada cuando los elementos seleccionados tenían mayor probabilidad de pertenecer a la misma.

Cómo hacer el muestreo aleatorio

forma más fácil de realizarlo es usando números aleatorios, para esto se puede recurrir a una tabla o a un generador de números aleatorios. Actualmente, se recurre a computadora.

Muestreo Sistemático o Secuencial. Los elementos se seleccionan de la población con un intervalo uniforme en el tiempo, en el orden o en el espacio. Por ejemplo, supongamos que se quiere estudiar una determinada característica de un producto fabricado en serie y se decide seleccionar a cada veinte producto hasta formar la muestra, para esto se escoge un punto aleatorio de arranque en los primeros veinte productos y luego se escoge cada vigésimo producto hasta completar la muestra. Una de las ventajas de este muestreo es cuando los elementos presentan un patrón secuencial, tal vez requiera menos tiempo y algunas veces cuesta menos que el método de muestreo aleatorio.

Muestreo Estratificado. Para aplicar el muestreo estratificado, se divide la población en grupos homogéneos, llamados estratos, los cuales son heterógeneos entre si. Después se recurre a uno de dos métodos posibles: a) Se selecciona al azar en cada estrato un número especificado de elementos correspondientes a la proporción del estrato de la población total b) Se extrae al azar un número igual de elementos de cada estrato y damos un peso a los resultados de acuerdo a la proporción del estrato en la población total El muestreo estratificado es adecuado cuando la población ya está dividida en grupos de diferentes tamaños y queremos reconocer este hecho. La ventaja de las muestras estratificadas, es que cuando se diseñan bien, reflejan más exactamente las características de la población de donde se extrajeron que otras clases de muestreo.

Muestreo por Conglomerado. En el muestreo por conglomerados, se divide la población en grupos o conglomerados de elementos heterogéneos, pero homogéneos con respecto a los grupos entre si. Un procedimiento bien diseñado, de muestreo por conglomerados, puede producir una muestra más precisa a un costo mucho menor que el de un simple muestreo aleatorio. Se usa el muestreo estratificado cuando cada grupo presenta una pequeña variación en su interior, pero existe una amplia variación entre ellos. Se usa el muestreo por conglomerado en el caso contrario, cuando hay considerable variación dentro de cada grupo pero los grupos son esencialmente semejantes entre sí.

Tamaño de la muestra

es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población.

Objetivos de la determinación del tamaño adecuado de una muestra

Estimar un parámetro determinado con el nivel de confianza deseado.
Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mínimo de garantía.
Reducir costes o aumentar la rapidez del estudio.

Por ejemplo, en un estudio de investigación epidemiológico la determinación de un tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así:

Si el número de sujetos es insuficiente habría que modificar los criterios de selección, solicitar la colaboración de otros centros o ampliar el período de reclutamiento. Los estudios con tamaños muestrales insuficientes, no son capaces de detectar diferencias entre grupos, llegando a la conclusión errónea de que no existe tal diferencia.
Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vista económico y humano. Además es poco ético al someter a más individuos a una intervención que puede ser menos eficaz o incluso perjudicial.

El tamaño de una muestra es el número de individuos que contiene.

Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra para datos globales es la siguiente:

$n=\frac{{Z}^{2}_{\alpha}Npq}{e^2(N-1)+{Z}^{2}_{\alpha}pq}$

N: es el tamaño de la población o universo (número total de posibles encuestados).

Z_α: es una constante que depende del nivel de confianza que asignemos. El nivel de confianza indica la probabilidad de que los resultados de nuestra investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con una probabilidad del 4,5%. Los valores de Z_α se obtienen de la tabla de la distribución normal estándar N(0,1).

Los valores de Z_α más utilizados y sus niveles de confianza son:

Valor de Z_α	1,15	1,28	1,44	1,65	1,96	2,24	2,58
Nivel de confianza	75%	80%	85%	90%	95%	97,5%	99%

(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la fórmula Z_α=1.96)

e: es el error muestral deseado, en tanto por ciento. El error muestral es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la población y el que obtendríamos si preguntáramos al total de ella. Ejemplos:

Ejemplo 1: si los resultados de una encuesta dicen que 100 personas comprarían un producto y tenemos un error muestral del 5% comprarán entre 95 y 105 personas.

Ejemplo 2: si hacemos una encuesta de satisfacción a los empleados con un error muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarán.

Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje real de votos estará en el intervalo 52-58% (55% +/- 3%).

p: proporción de individuos que poseen en la población la característica de estudio. Este dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opción más segura.

q: proporción de individuos que no poseen esa característica, es decir, es 1-p.

n: tamaño de la muestra (número de encuestas que vamos a hacer).

Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de mayor confianza o esté más libre de error necesariamente; antes es preciso minimizar la principal fuente de error que tiene lugar en la recogida de datos.

Otra fórmula para calcular el tamaño de la muestra es:

$n={{N\sigma^{2}Z^{2}_{\alpha}} \over {e^2(N-1)+\sigma^{2}Z^{2}_{\alpha}}}$

Donde: n = el tamaño de la muestra.

N = tamaño de la población.

\sigma

= Desviación estándar de la población, que generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5.

Z_α: Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a criterio del encuestador.

e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.

lunes, 16 de mayo de 2016

DISTRIBUCIONES DE LA PROBABILIDAD

Una distribución de probabilidad indica toda la gama de valores que pueden representarse como resultado de un experimento si éste se llevase a cabo.
Es decir, describe la probabilidad de que un evento se realice en el futuro, constituye una herramienta fundamental para la prospectiva, puesto que se puede diseñar un escenario de acontecimientos futuros considerando las tendencias actuales de diversos fenómenos naturales

Toda distribución de probabilidad es generada por una variable (porque puede tomar diferentes valores) aleatoria x (porque el valor tomado es totalmente al azar), y puede ser de dos tipos:

VARIABLE ALEATORIA DISCRETA (x).

Porque solo puede tomar valores enteros y un número finito de ellos. Por ejemplo:
X Variable que nos define el número de alumnos aprobados en la materia de probabilidad en un grupo de 40 alumnos (1, 2 ,3…ó los 40).

PROPIEDADES DE UNA VARIABLE ALEATORIA DISCRETA (X)

p(xi)<1 Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o iguales a cero y menores o iguales a 1.

E p(xi) = 1 La sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe ser igual a 1.

EJEMPLO

Para variable aleatoria discreta

Tenemos una moneda que al lanzarla puede dar sólo dos resultados: o cara (50%), o cruz (50%).
La siguiente tabla nos muestra los posibles resultados de lanzar dos veces una moneda:

Al realizar la tabla de distribución del número posible de caras que se obtiene al lanzar una moneda dos veces, obtenemos:

VARIABLE ALEATORIA CONTINUA (x).

Porque puede tomar tanto valores enteros como fraccionarios y un número infinito de ellos dentro de un mismo intervalo. Por ejemplo:
x es la Variable que nos define la concentración en gramos de plata de algunas muestras de mineral (14.8 gr, 12.1, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8, …, n)

PROPIEDADES DE UNA VARIABLE ALEATORIA DISCRETA (X)

p(x) Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o iguales a cero. Dicho de otra forma, la función de densidad de probabilidad deberá tomar solo valores mayores o iguales a cero.

El área definida bajo la función de densidad de probabilidad deberá ser de 1.

ESPERANZA MATEMATICA O VALOR ESPERADO

El valor esperado de una Variable Aleatoria X es el promedio ponderado de todos los valores posibles de la misma. DNode los pesos son las probabilidades asociadas con los valores.

Para calcular el valor esperado de una variable aleatoria por su correspondiente probabilidad y luego sumar los términos resultante.

La esperanza matemática o valor esperado de una variable aleatoria tiene sus orígenes en los juegos de azar, debido a que los apostadores deseaban saber cuál era su esperanza de ganar repetidamente un juego, por lo tanto, el valor esperado representa la cantidad de dinero promedio que el jugador está dispuesto a ganar o perder después de un número grande de apuestas.

E(x) = µ = E xf (x)

VARIANZA

Es un promedio ponderado de las de las desviaciones al cuadrado.

Varianza = E ( x - µ )² f ( x)

DISTRIBUCIÓN BINOMIAL

La distribución Binomial es un caso particular de probabilidad de variable aleatoria discreta, y por sus aplicaciones, es posiblemente la más importante.

Esta distribución corresponde a la realización de un experimento aleatorio que cumple con las siguientes condiciones:

* Al realizar el experimento sólo son posible dos resultados: el suceso A, llamado éxito, y el suceso B, llamado fracaso.
* Al repetir el experimento, el resultado obtenido es independiente de los resultados obtenidos anteriormente.

* La probabilidad del suceso A es constante, es decir, no varía de una prueba del experimento a otra.

* En cada experimento se realizan n pruebas idénticas.

Todo experimento que tenga estas características se dice que sigue el modelo de la distribución Binomial o distribución de Bernoulli.

En general, si se tienen n ensayos Bernoulli con probabilidad de éxito p y de fracaso q, entonces la distribución de probabilidad que la modela es la distribución de probabilidad binomial y su regla de correspondencia es:

Dónde:

P(X)= es la probabilidad de ocurrencia del
evento

p = es la probabilidad de éxito del evento (en un intento)

q = es la probabilidad de fracaso del evento (en un intento) (se define como q = 1 – p)

X = ocurrencia del evento o éxitos deseados

n = número de intentos

EJEMPLO

¿Cuál es la probabilidad de obtener exactamente 2 caras al lanzar una misma moneda 6 veces?

Dónde:

P(X)= Probabilidad de que ocurra el evento

p = (0.5)

q = (se define como q = 1 – p ) (0.5)

X = 2

n = 6

La posibilidad de obtener dos caras al lanzar una moneda 6 veces es de 0.234375

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que nos facilitan el trabajo (Ver las tablas de la función de probabilidad Binomial).

Para una combinación de n y p, la entrada indica una probabilidad de obtener un valor específico de r.
Para localizar la entrada, cuando p8804;0.50, localice p a lo largo del encabezado de la tabla, y en la columna correspondiente localice n y r en el margen izquierdo; cuando p8805;0.50, localice el valor de p en la parte inferior de la tabla, y n y r arriba, en el margen derecho.

Tenemos p = 0.50, n = 6 y r = 2 obteniendo resultado directo de tablas
P(2 caras) = 0.2344

DISTRIBUCIÓN DE POISSON

La distribución de POISSON es también un caso particular de probabilidad de variable aleatoria discreta, el cual debe su nombre a Siméon Denis Poisson (1781-1840), un francés que la desarrolló a partir de los estudios que realizó durante la última etapa de su vida.

Es útil cuando tratamos con cantidades de ocurrencia de un evento a lo largo de un intervalo de tiempo o espacio especificado.

Esta distribución se utiliza para describir ciertos procesos.

Características:
En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc.
- # de bacterias por cm2 de cultivo
- # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.
- # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.

Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o producto, la fórmula a utilizar sería:

dónde:

p(X) = probabilidad de que ocurran x éxitos, cuando el número promedio de ocurrencia de ellos es /
/= media o promedio de éxitos por unidad de tiempo, área o producto
e = 2.718 (base de logaritmo neperiano o natural)
X = variable que nos denota el número de éxitos que se desea que ocurra

Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra área dada y cada producto es independiente de otro producto dado.

EJEMPLO

Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos? (e= 2.718281828)

Resolviendo para :
a) x = 4; / = 6 cheques sin fondo por día

Comprobando (sustituyendo en la fórmula):

Por lo tanto la probabilidad de que el banco reciba cuatro

cheques sin fondo en un día dado es de 0.133853 (13.39%)

Valores directos para determinar probabilidades de Poisson.

Para un valor dado de /, la entrada indica la probabilidad de

obtener un valor específico de X

DISTRIBUCIÓN NORMAL

La distribución normal es también un caso particular de probabilidad de variable aleatoria continua, fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se le conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media (µ) y su desviación estándar (σ). Con esta notación, la densidad de la normal viene dada por la ecuación:

Que determina la curva en forma de campana que tan bien conocemos.

USO DE LA TABLA DE DISTRIBUCIÓN NORLAM DE PROBABILIDAD NORMAL STANDAR

Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el mismo número de desviaciones estándar a partir de la media contendrán la misma fracción del área total bajo la curva para cualquier distribución de probabilidad normal. Esto hace que sea posible usar solamente una tabla (Apéndice Tabla 1) de la distribución de probabilidad normal estándar.

NOCIONES BÁSICAS DE LA PROBABILIDAD

OBJETIVOS DE APRENDIZAJE:

Conocer los conceptos de experimento aleatorio y espacio muestral.

Distinguir los distintos tipos de sucesos que forman parte del espacio muestral y las operaciones fundamentales que con ellos pueden realizarse.

Adquirir un concepto preciso de probabilidad.

Saber resolver aquellos problemas en que se nos presentan probabilidades condicionadas.

INTRODUCCIÓN

En cualquier investigación intentamos aceptar o rechazar una hipótesis con un determinado nivel de probabilidad y, asimismo, procedemos a generalizar nuestros resultados a la población (Inferencia Estadística) y esta generalización siempre es probabilística. Lo probable (que puede suceder) implica que disponemos de datos suficientes para suponer que determinado suceso ocurrirá. La probabilidad se aplica a la probabilidad de ocurrencia de determinadas proposiciones, juicios o acontecimientos.

CONCEPTOS PREVIOS:

EXPERIMENTO ALEATORIO O ESTOCÁSTICO: Cualquier experimento realizado al azar que se puede repetir indefinidamente en las mismas condiciones y cuyo resultado no se puede predecir con certeza (ejemplo: lanzar una moneda o un dado al aire).

Condiciones básicas de un experimento aleatorio:

· Se puede repetir indefinidamente en las mismas condiciones.

· El resultado de cada ensayo pertenece al conjunto de todos los resultados posibles.

· Antes de cada ensayo no se puede predecir con certeza el resultado que obtendremos.

· Al aumentar el número de ensayos la frecuencia relativa o proporción de cada resultado tiende a aproximarse a un valor fijo.

ESPACIO MUESTRAL: Conjunto formado por todos los resultados posibles de un experimento aleatorio. (E = Universo o población del experimento) Lanzar un dado: E = {1, 2, 3, 4, 5, 6}; Lanzar una moneda: E = {cara, cruz).

SUCESOS: Los distintos resultados de un experimento aleatorio (subconjunto del espacio muestral).

Tipos de sucesos:

· Elementales o Simples: (implican un solo resultado del espacio muestral E). Lanzar un dado: Obtener un tres (elemental o simple) A = {3}

· Compuestos: (implican dos o más resultados del espacio muestral). Obtener un número par (compuesto) A = {2, 4, 6}

Los sucesos también se pueden clasificar atendiendo a las siguientes características:

· Suceso Seguro: Siempre se verifica (Lanzar un dado y obtener puntuación menor que siete)

· Suceso imposible: Nunca se verifica (conj. vacío Ø). (Lanzar un dado y obtener diez puntos)

Operaciones con sucesos:

· Unión de sucesos A ó B = P (aparezca A ó aparezca B ó ambos a la vez) = P (A U B)

· Intersección de sucesos A y B = P (aparezca A y aparezca B) = P (A ∩ B). Cuando no contiene ningún elemento, los sucesos son incompatibles o excluyentes y no pueden ocurrir simultáneamente.

· Complementario de A: Subconjunto formado por los sucesos que no pertenecen a A: (No A).

MAPA MENTAL

EJEMPLO

Lanzar un dado es una experiencia aleatoria (nunca podemos asegurar el valor que se obtiene al lanzarlo). El conjunto de los resultados posibles constituye el Espacio Muestral.

Espacio Muestral: E = {1, 2, 3, 4, 5 y 6}

Sucesos:

A = {cifra par} A U B = {2, 3, 4, 5, 6}

B = {número primo} A ∩ B = {2} Complementario de A = {1, 3, 5}

A y B son Compatibles: A ∩ B = {2}

Dados los conjuntos A, B y C (resultados del lanzamiento de un dado) determinar los elementos que pertenecen a cada una de las expresiones siguientes:

A = {1, 2, 3, 4} B = {2, 3, 5} C = {1, 3, 5, 6}

(A ∩ C) ∩ B = {1, 2, 3, 4} ∩ {1, 3, 5, 6} ∩ {1, 4, 6} = {1, 3} ∩ {1, 4, 6} = {1}

(A ∩ C) - B = {1, 3} - {2, 3, 5} = {1} (Suprimo en A ∩ C los sucesos de B)

C ∩ (A U B) = {1, 3, 5, 6} ∩ {6} = {6}

C - (A U B) = {1, 3, 5, 6} - {1, 2, 3, 4, 5} = {6}

JUEGO

Cruzar el río Para el trabajo con sucesos equiprobables y no equiprobables, comenzamos con el siguiente juego cuyo objetivo final es cruzar un río como se observa en la Figura 1:

Descripción del material didáctico: La franja central que se observa en la Figura 1 representa un río y a cada lado doce casillas numeradas del 1 al 12. Para este juego se necesitan 24 fichas y dos dados. Instrucciones y objetivo del juego: En este juego han de participar dos jugadores; cada uno de los cuales dispone de 12 fichas. Se debe colocar cada ficha en cada una de las doce casillas (una ficha por casilla). El primer jugador lanzará dos dados, sumará los puntos obtenidos en las caras superiores de los mismos y pasará al otro lado del río la ficha que esté situada en la casilla que tenga el número que ha obtenido al realizar la suma. A continuación lanzará los dos dados el segundo jugador quien deberá repetir el mismo proceso. Así se deberá continuar hasta que alguno de los jugadores pase todas sus fichas al otro lado del río. ¿Es esto posible? No, el objetivo de pasar todas las fichas no se cumple para la primera posición, nunca pasará el río. Propuesta para los alumnos: En primera instancia, a los alumnos se les plantea la actividad con el objetivo (imposible) que se ha mencionado con anterioridad.

Cuando 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 4 identifiquen la imposibilidad de la propuesta, los alumnos volverán a jugar buscando el mismo objetivo pero ahora situando las fichas donde ellos quieran (desde situarlas cada una en un lugar hasta ponerlas todas en la misma casilla). Realizarán el juego varias veces de manera que ellos mismos puedan descubrir que hay posiciones desde las que es más fácil pasar al otro lado (mayor probabilidad de ocurrencia) y posiciones menos probables o imposibles (casilla 1). Objetivos didácticos del juego: Los aspectos más importantes tratados en este juego son los de no equiprobabilidad de sucesos, suceso imposible y suceso más o menos probable. También se puede trabajar la introducción a la representación gráfica de los resultados obtenidos del juego, como por ejemplo el histograma

REGRESIÓN Y CORRELACIÓN

REGRESIÓN LINEAL

Expresándolo en forma simple, la regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos variables, cuya tendencia general es rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del mejor ajuste” de la forma:

y = a + bx

En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto; en tanto que el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión.

TABLA 1

Serie de datos para el cálculo de una regresión (“a” y “b”) y del coeficiente de correlación (“r”)

*NUMERO*	*VALORES DE X*	*VALORES DE Y*
1	9.0	0.50
2	9.4	0.50
3	7.4	1.23
4	9.7	1.00
5	10.4	0.30
6	5.0	1.50
7	6.7	6.7
8	8.4	8.4
9	8.0	8.0
10	10.0	10.0
11	9.2	9.2
12	6.2	6.2
13	7.7	7.7

El procedimiento para obtener valores de “a” y “b” para una serie de pares de datos de “x” y de “y” (tal como la presentada en la Figura 1 y/o en la Tabla 1) es como sigue:

Paso 1 Calcule, para cada par de valores de “x” e “y”, las cantidades “x²”, “y²”, y “x.y”.

Paso 2 Obtenga las sumas (∑) de estos valores para todos los pares de datos de “x” e “y”, así como las sumas del total de los valores de “x” e “y”. Los resultados de los Pasos 1 y 2 aparecerán en forma similar a la siguiente:

Número de pares de datos	x	x²	y	y²	x.y
1	..	..	..	..	..
2	..	..	..	..	..
3	..	..	..	..	..
.
.
.
n	..	..	..	..	..
Monto de la Suma	∑x	∑x²	∑y	∑y²	∑x•y

Paso 3 Estime la pendiente (b) por medio de la relación:

Paso 4 Estime el intercepto (a) por medio de la relación:

CORRELACIÓN

El análisis de correlación se encuentra estrechamente vinculado con el análisis de regresión y ambos pueden ser considerados de hecho como dos aspectos de un mismo problema.

La correlación entre dos variables es - otra vez puesto en los términos más simples - el grado de asociación entre las mismas. Este es expresado por un único valor llamado coeficiente de correlación (r), el cual puede tener valores que ocilan entre -1 y +1. Cuando “r” es negativo, ello significa que una variable (ya sea “x” o “y”) tiende a decrecer cuando la otra aumenta (se trata entonces de una “correlación negativa”, correspondiente a un valor negativo de “b” en el análisis de regresión). Cuando “r” es positivo, en cambio, esto significa que una variable se incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo de “b” en el análisis de regresión).

Los valores de “r” pueden calcularse fácilmente en base a una serie de pares de datos de “x” e “y”, utilizando la misma table y montos que se indican en el Paso 2 de la sección “regresión” de este capítulo. De este modo “r” puede ser obtenido - indirectamente - a partir de la relación:

Figura 1a Diagrama de puntos dispersos correspondientes a pares de valores de “x” y de “y”. Nótese que “y” tiende a decrecer con el aumento de “x”, lo cual sugiere coeficientes de regresión y de correlación negaticos (basado en la Tabla 1)

Figura 1b Los mismos datos que en 1a Fig. 1a, pero ajustados en base a la regresión y = 2,16 - 0,173x, con r = 0,75 la cual proporciona el valor del “coeficiente de determinación” (r²). Entonces, lo único necesario es calcular

es decir, tomar la raíz indicada del coeficiente de determinación a los fines de obtener el valor absoluto de “r”, y luego agregar el signo (+ o -) de acuerdo a que la correlación sea positiva o negativa (lo cual puede ser establecido visualmente a partir del gráfico, o bien en base al cálculo del valor de “b” de la correspondiente regresión y utilizando para “r” el mismo signo).

Cuando se calculan los valores de “r” se querrá saber, sin embargo, hasta qué punto la correlación identificada pudiera haber surgido únicamente por casualidad. Esto puede ser establecido verificando si el valor estimado de “r” es “significativo”, es decir si el valor absoluto de “r” es mayor o igual que un valor “crítico” de “r” indicado en las tablas estadísticas (ver Tabla de valores críticos de “r” en el Apéndice 1).

Ejercicio: Calcule “a”, “b” y “r” a partir de los datos presentados en la Tabla 1 y verifique, por medio de la Tabla del Apéndice 1, hasta qué punto el valor estimado de “r” es significativo para valores de P = 0,01 y de P = 0,05