LA PRECISIÓN DE LOS RESULTADOS: ERRORES DE
MUESTREO
Las estimaciones de
una encuesta pueden ser afectadas por dos tipos de errores: (1) errores
no muestrales que consisten en errores hechos en la recolección
y procesamiento de datos y (2) errores de muestreo, resultan del hecho
de haberse entrevistado solo una muestra y no la población
completa.
El primer tipo de error incluye la falta de cobertura de todas las
mujeres seleccionadas, errores en localizar y entrevistar la vivienda
correcta, errores en la formulación de las preguntas,
confusión o incapacidad de las mujeres para dar la
información y errores de codificación o de procesamiento.
En el presente estudio se trató de reducir a un mínimo
este tipo de error a través de una serie de procedimientos que
se emplean en toda encuesta bien diseñada y ejecutada, como son:
el diseño cuidadoso y numerosas pruebas del cuestionario,
intensa capacitación y procesamiento de los datos y limpieza
cuidadosa del archivo con retroalimentación a las supervisoras,
críticas y entrevistadoras a partir de los cuadros de control de
calidad. Los elementos de juicio disponibles señalan que este
tipo de errores se mantuvo dentro de márgenes mínimos en
la ENDSSR 2004.
Error de muestreo es una medida de la variabilidad que se
observaría entre todas las muestras posibles si fueran
seleccionadas usando el mismo diseño de muestra. Para toda la
población de la muestra y para subgrupos mayores, la muestra de
la ENDSSR 2004 es lo suficientemente grande de manera tal que el error
de muestreo para la mayoría de las estimaciones es
pequeño. Para subgrupos pequeños los errores de muestreo
son mayores y pueden afectar la seguridad de las estimaciones.
El error de muestreo se mide por medio del error estándar de una
estadística, cual es la raíz cuadrada de la varianza de
la estadística. El error estándar puede ser usado para
calcular intervalos de confianza para medir el grado de
precisión con que el porcentaje o estadística basado en
la muestra, se aproxima al resultado que se habría obtenido si
se hubiera entrevistado a todas las mujeres de la población bajo
las mismas condiciones. Si es
el estimador del parámetro θ,
el error estándar
de está dado por la
expresión:
Por ejemplo, el intervalo de confianza de 95 por ciento para un valor
puede ser calculado si se le suma y resta a este mismo valor 1.96 veces
su error estándar.
El error estándar de una estimación estadística,
usando un diseño multietápico como el usado para la
ENDSSR 2004, es más complejo que el error estándar basado
en el muestreo al azar simple y tiende a ser mayor que el error
estándar producido por una muestra al azar simple. El incremento
en el error estándar debido al uso de un diseño
multietápico es conocido como el efecto del diseño y se
define como la razón entre la varianza de la estimación
con el diseño actualmente usado y la varianza de la
estimación que resultaría si se usara una muestra al azar
simple. Cuando toma el valor de 1.0, indicará que el
diseño utilizado es tan eficiente (proporciona varianzas
mínimas) como uno simple al azar, y mientras que un valor mayor
a 1.0 que el diseño utilizado produce una varianza mayor a la
que se obtendría con una muestra simple al azar.
Si las mujeres incluidas en la muestra hubieran sido seleccionadas en
forma simple al azar, podrían utilizarse directamente las
fórmulas muy conocidas que aparecen en los textos de
estadísticas para el cálculo de errores estándar y
límite de confianza y para la realización de pruebas de
hipótesis, Sin embargo como se ha señalado, el
diseño empleado es complejo, por lo cual se requiere utilizar
fórmulas especiales que consideran los efectos de la
estratificación y la conglomeración.
Ha sido posible realizar estos cálculos para un cierto grupo de
variables de interés especial, empleando la metodología
incorporada en el programa de análisis Intercooled STATA 8.0 de
la Universidad de Princeton de los Estados Unidos de
Norteamérica, apropiada para el análisis
estadístico de muestras complejas como la de la ENDSSR 2004.
Cuadros de Errores de
Muestreo
En el Cuadro
B.1 se listan las variables para las cuales se han
calculado los errores de muestreo. Se indica allí el tipo de
estimador utilizado y la población de referencia. Los
errores de muestreo para las estimaciones de las variables
seleccionadas para el total se muestran en el Cuadro
B.2 y por
área de residencia y regiones se presentan en los B.3 a
B.8 (Cuadro
B.3, Cuadro
B.4, Cuadro
B.5, Cuadro
B.6, Cuadro
B.7, Cuadro
B.8.) Para cada una de estas variables se incluye el
correspondiente
valor estimado V (porcentaje),
el error estándar EE,
el
coeficiente de variación (EE/V)
y el intervalo con 95 por ciento
de confianza que contenga el verdadero valor, aparecen también
el efecto de diseño (EDIS)
y el número de casos (sin
ponderar) para los cuales se investigó la característica
considerada.
El examen de los cuadros revela que, en general, los errores
estándar son pequeños y que por ello la muestra puede
calificarse como bastante precisa; esto es especialmente claro en la
tercera columna donde aparecen los errores relativos o coeficiente de
variación (CV).
Para ilustrar el uso de las cifras en los cuadros de B.2 a B.8
(Cuadro
B.2, Cuadro
B.3, Cuadro
B.4, Cuadro
B.5, Cuadro
B.6, Cuadro
B.7, Cuadro
B.8.)considérese
la variable usa actualmente anticonceptivos, la cual
tiene un valor estimado de 0.728 (73 por ciento) con un error
estándar de 0.009 para la población total de mujeres de
15 a 44 años de edad en el Cuadro
B.2. Si se desea un intervalo
de confianza del 95 por ciento, lo que se hace es sumarle y restarle al
valor estimado dos veces el error estándar: 0.728 ± (2 x
0.009), lo que produce el intervalo de 0.710 a 0.746 de la cuarta y
quinta columna. Esto significa que se tiene una confianza de 95 por
ciento de que el valor de usa actualmente anticonceptivos para el total
de la población se encuentra entre esos valores que arroja la
muestra.
En el Cuadro
B.9 se muestra ejemplos del intervalo de confianza del 95
por ciento del estimado de una proporción bajo diferentes
tamaños de la muestra, asumiendo un efecto del diseño de
1.6. Presenta la mitad de la longitud para intervalos de 95 por ciento
de confianza para tamaños de la muestra entre 25 y 7400 y
correspondientes a proporciones estimadas desde 0.05/0.95 a 0.50/0.50.
La fórmula usada para calcular la mitad de la longitud de
intervalos para el 95 por ciento de confianza es:
(Media longitud del
intervalo de confianza del 95%) = (1.96)
SQRT { (1.6) (P) (1 - P) / n)
donde P es el estimado de la
proporción, n es el
número
de casos (no ponderados) usados para calcular la proporción y
1.6 es el efecto del diseño. Puede ocurrir que para una
proporción estimada de 0.30 y un tamaño de la muestra de
200, la mitad del rango del intervalo de confianza es 0.08, por lo que
el intervalo de confianza por 95 por ciento para el estimado de la
proporción será entre 0.22 y 0.38. Si el tamaño de
la muestra hubiera sido 3200 en vez de 200, el intervalo de confianza
del 95 por ciento sería de 0.28 a 0.32.
|