|
|
Aplicaciones de la Estadística en Producción y Sanidad Animal II. |
||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Alberto Morillo Alujas (Veterinario) Tests & Trials, S.L. Contrastes de hipótesisIntroducciónEn el primer capítulo de esta serie dedicada a la estadística, vimos conceptos muy generales asociados a la estadística. Definimos el término estadística, vimos para qué servía y la problemática de no poder medir una población entera sino que usábamos las muestras. Vimos, también, como podíamos caracterizar los datos. Objetivo de los contrastes de hipótesisCentrémonos en la problemática de no poder medir toda la población. Como ya se dijo en el anterior artículo, no poder medir la totalidad de la población suponía una pérdida de información de la misma. La forma de actuar era la siguiente; nos quedábamos con una parte de la población (muestra) y a partir de ella calculábamos unos estadísticos o hacíamos una representación gráfica de los datos, y extraíamos unas primeras conclusiones. Esta forma de actuar está sujeta a la aleatorización, que también comentamos. Toda muestra de una población debe tener la misma probabilidad de ser escogida que cualquier otra. Si obviamos esto, nos veremos abocados a cometer errores. No pensemos en errores como equivocaciones, sino en errores como variaciones inevitables, debidas al azar. Es decir, si en vez de escoger una muestra se escoge otra, ¿varían los resultados? A grandes rasgos esta es la filosofía al hacer un contraste de hipótesis o test de hipótesis, es hacernos la siguiente pregunta: ¿la muestra que he escogido es representativa de la población que quiero estudiar? La parte de la estadística que nos dice cosas de una población, a partir de una pequeña parte de ella misma, es la INFERENCIA estadística. La inferencia nos plantea un problema, que es la determinación de ciertos parámetros de la población (por ejemplo, la media, la desviación típica,...) a partir de la observación de las muestras. Para ello existen diferentes formas de actuar:
La estimación se puede considerar como un caso particular de contraste de hipótesis. Sea cual sea la forma de actuar, los pasos a seguir serán plantear unas hipótesis, escoger un estadístico concreto, conocer la distribución del estadístico y, entonces, podremos decidir si, con los datos que poseemos de la muestra, estamos caracterizando a la población. Herramientas para contrastar hipótesisBien, hasta ahora hemos visto cual es la finalidad de un contraste de hipótesis pero, ¿cuáles son las herramientas para llevarlo a cabo? En el apartado anterior ya hemos dejado entrever cuáles eran los pasos a seguir para contrastar hipótesis y a partir de ahora, iremos desgranando las diferentes partes de las que consta un test de hipótesis. Distribución del estadístico Lo primero que haremos será explicar a grandes rasgos los dos tipos de distribuciones más importantes, que no únicos, en el contraste de hipótesis que son las distribuciones Normal y T-Student. Distribución Normal Es una de las distribuciones más importantes. Muchas de las variables que aparecen en la naturaleza se comportan como si su distribución fuese Normal o aproximadamente Normal. Tiene forma de campana. Es una curva simétrica. La localización del centro de la curva la da la media, mientras que la cantidad de dispersión viene dada por el tamaño de la desviación (Figura 1).
Figura 1. Ejemplos de curvas Normal con la misma media pero diferente desviación típica Un caso particular de distribución Normal es la que cuenta con media 0 y desviación 1, llamada distribución Normal tipificada [N(0,1)] . La importancia de este caso particular radica en que las probabilidades de esta distribución están tabuladas y se pueden encontrar en cualquier libro de estadística. Distribución T-Student Comparte con la distribución Normal, entre otras propiedades, la simetría. Se diferencian en que la distribución T-Student adopta formas diferentes en función del número de grados de libertad. El número de grados de libertad varía entre 1 y infinito, y corresponden al número de datos de la muestra menos 1 (por ejemplo, si la muestra cuenta con 25 datos, el número de grados de libertad será de 24). A medida que aumenta el número de grados de libertad (es decir, aumenta el tamaño de la muestra) la T-Student se aproxima a una distribución Normal. Con más de 30 grados de libertad no se diferencian las distribuciones T-Student y Normal. Las probabilidades de distribución TStudent también están tabuladas; estas tablas se diferencian de las de la Normal en que encontraremos una columna donde aparecen los grados de libertad. Estas tablas también aparecen en cualquier libro de estadística. Planteamiento de las hipótesis El contraste de las hipótesis es un conjunto de reglas que nos permitirán decidir cuál de entre dos hipótesis debe aceptarse como cierta en base a los resultados obtenidos de la observación muestral. Se conocen como hipótesis nula (Ho) e hipótesis alternativa (Ha). La hipótesis nula se mantendrá mientras los datos no indiquen su falsedad; nunca se puede afirmar la hipótesis nula, solo la podremos aceptar o rechazar. Por tanto se tratará de decidir si la información muestral está en consonancia con Ho, o bien permite rechazar esa creencia con lo que se aceptará Ha. Se puede distinguir entre dos tipos de hipótesis:
Región crítica. Tipos de errores En la práctica el Contraste de Hipótesis consiste en estudiar si un estadístico que es función de las observaciones de la muestra está dentro de una región llamada de aceptación, o se encuentra en la región de rechazo o región crítica, de tal forma que si el estadístico se encuentra en la región de aceptación se aceptará la hipótesis nula, mientras que si cae en la región de rechazo se rechazará dicha hipótesis. El estadístico muestral es un fenómeno aleatorio, por lo que pudiera pasar que aunque la Ho fuera cierta, el estadístico se encontrara en la región de rechazo, en esta situación estaríamos cometiendo un Error de Tipo I (a ). Otra posible situación sería encontrar el estadístico en la región de aceptación siendo la Ho falsa, con lo que cometeríamos un Error Tipo II (b ). La forma de paliar este problema es mediante muestras de tamaño grande. Generalmente se procede fijando una probabilidad de error a . Al valor a se le denomina nivel de significación y habitualmente es del 5%. Aunque existen varios tipos de contrastes de hipótesis, en este artículo únicamente explicaremos y pondremos ejemplo de dos tipos de ellos, que son los contrastes de medias y el contraste de diferencias de medianas. Contraste de medias Antes de empezar, habría que especificar la notación que habitualmente se utiliza en el contraste de hipótesis. Así tenemos que m es la media de la población, s como la desviación típica de la población, s es la desviación típica de la muestra, n es el tamaño de muestra, C como la media de la muestra, Z o t es el estadístico. Tenemos dos posibilidades con relación al contraste de medias. Por un lado podemos hacer tests unilaterales que tienen una estructura como la siguiente:
Por otro lado podemos hacer tests bilaterales, los cuales tienen una estructura como la siguiente:
Después de plantear los posibles tests con sus peculiaridades, creemos que lo mejor será realizar unos ejemplos, con el fin de aclarar cada uno de los conceptos. Ejemplo 1. Un laboratorio farmacéutico afirma que el antiinflamatorio de su fabricación elimina la inflamación en 14 minutos en los casos corrientes. Con la finalidad de comprobar estadísticamente esta afirmación, se elige al azar 18 cerdas con inflamaciones varias y se toma como variable de respuesta el tiempo transcurrido entre la administración del antiinflamatorio y el momento en que desaparece la inflamación. Además, nos dicen que la variable tiempo transcurrido entre la administración del antiinflamatorio y el momento en que desaparece la inflamación sigue una distribución normal de media 14 y desviación 7. El tiempo medio de respuesta de la muestra fue de 19 minutos. Se pide comprobar la afirmación del laboratorio a un nivel de significación de 0.05. Solución. Primero reconozcamos los datos que poseemos. Planteemos ahora las hipótesis de este test. La hipótesis nula es la que queremos contrastar, así en el enunciado se nos dice que la empresa afirma que la inflamación desaparece en 14 minutos, pues tendremos que:
La hipótesis alternativa será el caso desfavorable, en este caso para la empresa, y será:
El nivel de significación nos dicen que es 0.05, el estadístico, la región crítica y el criterio de aceptación para este test vimos que eran:
La forma de proceder será aceptar de entrada la hipótesis nula (m = 14), calcular el estadístico y observar si se sitúa en la región crítica. Si así sucediera, rechazaríamos la creencia inicial de aceptación de la hipótesis nula. Sustituimos los parámetros de la población y de la muestra en el estadístico: Z = 3.03, podemos observar que el estadístico se sitúa en la región crítica, por tanto no sigue el criterio de aceptación de la hipótesis nula. De esta manera, rechazaríamos la hipótesis Ho de que la m = 14 y concluimos que a un nivel 0.05 el tiempo medio de eliminar la inflamación por este antiinflamatorio es superior a 14 minutos. Ejemplo 2. Se quiere comprobar , con un nivel de significación de 0.05, si una muestra de tamaño n = 20 con media C = 10, procede de una población que se distribuye según una Normal N(14,3). Solución.
Procedamos de la misma forma que anteriormente. Aceptemos la hipótesis nula (m = 14), calculemos el estadístico sustituyendo los parámetros poblacionales y muestrales, y observemos en que región (aceptación o rechazo) se sitúa. Z = -5.96, lo que nos indica que no se sitúa dentro de la región de aceptación de la Ho, rechazamos dicha hipótesis y podemos concluir que la muestra en concreto no procede de una distribución Normal N(14,3).
Contraste de diferencia de medias Sean C 1 y C 2 dos medias muestrales de dos poblaciones. El tamaño de cada una de estas muestras son n1 y n2 respectivamente. Queremos observar si la diferencia entre las medias es significativa o no, es decir, comprobar si podemos aceptar que m 1 = m 2. Así tenemos que:
En el caso que las desviaciones de las poblaciones sean desconocidas, es decir, sólo conozcamos las desviaciones muestrales, tendremos que:
Ejemplo 3. Se conocen los datos de dos muestras de dos poblaciones, que son los siguientes:
Se pide contrastar estadísticamente si existe diferencia entre las dos poblaciones, a un nivel de significación del 0.05. Las dos poblaciones siguen una distribución Normal N(m 1,s 1) y N(m 2,s 2) Solución. Sabemos que las distribuciones de las dos poblaciones son Normales, pero desconocemos el valor de su desviación, sólo conocemos el valor de la desviación típica de las muestras. Por ahora, planteemos las hipótesis:
No usaremos el estadístico que correspondería a este test, ya que el tamaño de las muestras es elevado y como dijimos anteriormente, una distribución T-Student con muchos grados de libertad se aproximaba mucho a una Normal, utilizaremos el siguiente estadístico:
El nivel de significación nos dice el enunciado que es de 0.05, y para el criterio de aceptación tenemos que:
Empecemos actuando como siempre, es decir, calculando el estadístico con los datos de la población y de la muestra, aceptando, por ahora, la hipótesis nula (m 1 = m 2), y observemos en que región se sitúa el estadístico. Z = -1.38, como podemos ver el estadístico se sitúa en la región de aceptación de la hipótesis nula, con lo que aceptaríamos la Ho (m 1 = m 2), y podríamos concluir que, a un nivel de significación de 0.05, las dos poblaciones se pueden considerar iguales estadísticamente. Ejemplo 4. Para determinar si un nuevo suero presentaba algún efecto sobre una nueva enfermedad, se seleccionaron 9 ratones que presentaban esa enfermedad. Cinco ratones recibieron el tratamiento y cuatro no. El tiempo de supervivencia, en años, fue el siguiente:
¿Presenta algún efecto? Asumir que el nivel de significación es de 0.05, que las distribuciones son Normal. Solución. Definiremos X1 como los años de vida con el tratamiento y X2 como los años de vida sin tratamiento. Las hipótesis a plantear son las siguientes:
El estadístico que usaremos :
La resolución de este test la haremos mediante el programa EXCEL. Antes de nada, ordenaremos los datos de forma que en el rango de celdas de A2 a A6 se encuentren los cinco datos de los ratones con tratamiento, mientras que en el rango de celdas de B2 a B5 se encuentren los datos de los ratones con tratamiento. La resolución propiamente dicha la haremos mediante la aplicación Análisis de datos del menú herramientas. En dicha aplicación seleccionamos la opción Prueba t para dos muestras suponiendo varianzas desiguales, como se muestra en la figura 2.
Figura 2. Cuadro desplegable en la opción Análisis de datos Una vez hayamos selecciona la opción deseada, se desplegará otro cuadro como el que se muestra en la figura 3.
Figura 3. Cuadro desplegable para la opción Prueba t para dos muestras suponiendo varianzas desiguales El Rango para la variable 1 corresponde a los datos para los ratones con tratamiento, mientras que el Rango para la variable 2 corresponde a los datos para los ratones sin tratamiento. Alfa sería el nivel de significación, que es de 0.05. Por último, se ha seleccionado el lugar donde aparecerán los resultados, concretamente en una hoja nueva.
Figura 4. Resultado de la Prueba t para dos muestras suponiendo varianzas desiguales La figura 4 nos muestra los resultados de la prueba t. Vayamos a los datos que nos interesan. En primer lugar nos da el resultado de la media y la varianza (que es la raíz cuadrada de la desviación típica) de las dos variables, y el número de observaciones (tamaño de la muestra). Los grados de libertad corresponden al valor v de la distribución T-Student del estadístico. A continuación calcula el valor del estadístico que es de 0.635. El Valor crítico de t (una cola) correspondería a un test unilateral donde plantearíamos la hipótesis que los ratones tratados con el nuevo suero viven más años que los ratones no tratados con el nuevo suero. Pero estas no son las hipótesis que nosotros planteamos. Por tanto, debemos fijarnos en el Valor crítico de t (dos colas). Este valor es de 2.364 y de 2.364 ya que así definimos al criterio de aceptación de la hipótesis nula. Debido a que el valor del estadístico se encuentra dentro de la región de aceptación de la hipótesis Ho, aceptamos que la administración del nuevo suero presenta algún efecto. Ejercicio para resolver Un veterinario especialista en ganado vacuno ha realizado una nueva dieta para mejorar la calidad de la leche. Para analizarla, toma dos muestras de 16 vacas. A una de las muestras le da la nueva dieta, mientras que a la otra muestra le suministra la antigua dieta. El resultado se mide mediante un índice que sigue una distribución Normal, de manera que a menor valor del índice le corresponde mayor calidad. Los resultados fueron los siguientes:
Se pide:
Para contestar correctamente al apartado c), se deben plantear las hipótesis adecuadas, escoger el estadístico apropiado y tener en cuenta la región de aceptación.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||
|
© www.exopol.com - mail |