Вы находитесь на странице: 1из 8

ndice nacional de satisfaccin de clientes:

ausencia de respuesta, pseudo-rplicas y respuestas repetidas


Rodrigo Morrs, Vctor Leiva, Camillo Lillo
Universidad Adolfo Ibez, Chile
1. Introduccin
Una caracterstica comn de los estudios de encuestas es la despreocupacin en el
diseo del cuestionario y la ausencia de respuestas. En muchos estudios se comienza a
recopilar datos sin tomar en cuenta los problemas potenciales de esta recopilacin. Es
importante descubrir por qu ocurren estos problemas y cmo resolverlos antes de iniciar el
estudio; ver Dillman et al. (1995a) y Hidiroglou et al. (1993). La figura 1 muestra algunos
factores que pueden afectar la ausencia de respuesta. Los factores son propuestos por Platek
(1977), algunos de los cuales estn relacionados al diseo del cuestionario, su contenido, su
tiempo de respuesta, el entrevistador y el mtodo de recopilacin de datos. En algunas
ocasiones, quienes responden el cuestionario (encuestados) contestan muchas preguntas.
Entonces, adems de factores mencionados, se debe tener en cuenta el agobio y el
cansancio que podran presentar los encuestados. Entonces, se sugiere que el cuestionario
sea breve para reducir el cansancio de quien responde; ver DeVries et al. (1966).

Figura 1: factores que afectan la ausencia de respuesta en el cuestionario de un estudio de encuestas.

Cuando los estudios estn basados en muestreo, es importante tener claro cules
son las unidades de muestreo. De esto depender que la inferencia a realizar sea correcta.
Un supuesto bsico para hacer inferencia es que las unidades de muestreo deben ser
independientes entre s. Esto significa que el resultado proporcionado en un dato no es
influenciado por otro. Sin embargo, este supuesto es algunas veces violado debido a un
concepto denominado "pseudo-rplica". El concepto se presenta cuando las respuestas no
son independientes debido a que una unidad de muestreo responde ms de una vez el
mismo cuestionario. La repercusin de las pseudo-rplicas ha tenido impacto en reas de
biologa y ciencias. Algunos artculos relacionados al tema son atribuidos a Hulbert (1984),
Millar & Anderson (2004) y Ruxton & Colegrave (2003). A modo de ejemplo, suponga que
se quiere determinar la cantidad de insectos por hoja de cierta especie de planta. Se cuenta
la cantidad de insectos en tres, cinco y siete hojas de tres plantas de la misma especie. No
obstante, sera un error pensar que se tienen quince datos, ya que las hojas de una misma
planta tienen ms en comn entre ellas que las hojas de otra planta (si una planta ha sido
infectada o colonizada, es probable que presente altas densidades en todas sus hojas).
El cuestionario usado para calcular el ndice nacional de satisfaccin de clientes
(INSC) pregunta por la percepcin acerca del servicio proporcionado por las industrias y
marcas (IM) ms importantes de Chile. El INSC se calcula semestralmente desde el primer
semestre del ao 2000 con el mismo cuestionario preguntando por diferentes marcas. Esto
produce la opcin que un encuestado (cliente) evale el servicio de, por ejemplo, tres IMs,
otro evale cinco IMs y otro evale siete IMs. Esto es similar al caso de los insectos en las
hojas, generando pseudo-rplicas. Adems, aplicar el mismo cuestionario para preguntar
por diferentes IMs en un mismo periodo de tiempo podra generar cansancio o agobio al
responder, provocando una posible no respuesta a ciertas preguntas. Ms an, debido al
tiempo que el encuestado demora en responder, y al cansancio que esto produce, se
presenta el problema de respuestas repetidas. Esto quiere decir que, como la mayora de las
preguntas del cuestionario apuntan al servicio que la IM entrega al cliente, el encuestado da
la misma respuesta a todas las preguntas.
El objetivo de este trabajo es evaluar estadsticamente problemas de ausencia de
respuesta, pseudo-rplicas y respuestas repetidas, en el cuestionario usado para calcular el
INSC. Los resultados de esta evaluacin podran ayudar a mejorar la informacin general o
sectorial entregada cada semestre sobre el tema.
El resto del trabajo se organiza de la siguiente forma. En la Seccin 2 se
introducen los mtodos utilizados en este estudio. En la Seccin 3 se evalan los problemas
de pseudo-rplicas, ausencia de respuesta y respuestas repetidas. En la Seccin 4 se
presentan las conclusiones de este trabajo y futuras posibles investigaciones sobre el tpico.
2. Mtodos
El INSC neto de la variable (pregunta) j se calcula mediante la frmula

INSC =
, (1)
donde es la cantidad de respuestas (telefnicas) y es una variable codificada desde una
pregunta j del cuestionario (en escala de 1 a 7) correspondiente al individuo i dada por
1, si el encuestado evalu la pregunta con nota 6 7;
0, si el encuestado evalu la pregunta con nota 5;
=
1, si el encuestado evalu la pregunta con nota 1, 2, 3 4.
2

Los mtodos estadsticos usados en este trabajo son principalmente descriptivos. Se


establecer cuntos encuestados han respondido ms de una vez el cuestionario usado para
calcular el INSC definido en (1), cuntas pseudo-rplicas existen y qu efectos podra
provocar esto en el clculo de este ndice.
El problema de las pseudo-rplicas no es fcil de tratar. Tampoco existe una
solucin definitiva cuando nos enfrentamos a este problema. Las pseudo-rplicas a menudo
conducen a resultados cuyo respaldo estadstico no es correcto. Por ejemplo, a medida que
el nmero de pseudo-rplicas aumenta, la probabilidad de error de tipo I aumenta tambin.
Para ms detalles sobre los problemas estadsticos generados por las pseudo-rplicas, ver
Freeberg & Lucas (2009) y Millar & Anderson (2004). Se ha propuesto comparar los
resultados de los estudios con y sin pseudo-rplicas; ver Ragame et al. (2013).
Con respecto a la ausencia de respuesta y a las respuestas repetidas, en este trabajo
se realizan anlisis exploratorios de datos.
3. Resultados
El INSC para cada variable calculado para el segundo semestre de 2014 consider
un tamao muestral de n = 23.403 respuestas telefnicas.
La tabla 1 presenta la cantidad de datos duplicados existentes en la muestra (un dato
duplicado es una pseudo-rplica). Note que 74 de los 23.403 registros estn una sola vez en
la muestra, es decir, el 99,6% de la muestra est conformada por encuestados pseudoreplicados con distintas frecuencias. El total de encuestados diferentes fue de 7.499
individuos.
Tabla1: distribucin de la cantidad de duplicados en la muestra.
Nmero de duplicados Frecuencia
Porcentaje
Total de encuestados
0
74
0,32
74
1
4.520
19,31
2.260
2
5.553
23,73
1.851
3
13.256
56,64
3.314
Total
23.403
100
7.499
La tabla 2 presenta el tamao muestral para cada una de las industrias ( ) evaluadas
mediante el INSC, la cantidad de veces que un encuestado est duplicado y el nmero de
encuestados. Desde esta tabla es posible notar que, para cada industria, el nmero de
encuestados corresponde aproximadamente al 30% del total de respuestas obtenidas por
industria ( ). Entonces, no existen industrias con mayor porcentaje de pseudo-rplicas que
otras.
Para efectos de este estudio, se analizan las variables del cuestionario: satisfaccin
( ), satisfaccin dado el precio ( ), confianza ( ) y transparencia ( ). En la expresin
(2) se presenta la matriz de correlacin entre estas variables, independientemente de la
industria a la que los encuestados se refirieron.

Tabla 2: distribucin de la cantidad de duplicados por industria.


Industria
AFPs
Sanitarias
Bancos
Educacin
Energa elctrica
Estaciones de servicio
Farmacias
Banca retail
Internet
Isapres y Fonasa
Prestadores de salud
Servicios pblicos
Supermercados
Telefona fija
Telefona mvil
Tiendas por departamento
Transporte pblico
Televisin pagada
Tarjetas comerciales
Municipios
Cajas de compensacin
Mejoramiento del hogar
Autopistas urbanas
Clnicas
Triple pack
Gas cilindro
Gas caera
Centros de salud
Pago de cuentas
Lneas areas
Buses interurbanos
Total

600
450
1650
450
451
600
600
750
450
900
450
451
751
451
450
600
450
602
901
7344
150
300
600
900
151
450
150
450
300
301
300
23403

0
0
0
41
0
0
1
0
31
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
74

1.00
0.78
0.74
0.70

Nmero de pseudo-rplicas
1
2
3
72
202
326
42
124
284
437
618
554
24
78
348
34
113
304
45
92
462
32
86
482
274
224
221
30
110
310
170
321
409
22
75
353
26
75
350
37
135
579
43
97
311
46
109
295
22
103
475
69
45
335
72
175
355
235
282
384
2.228
1.802
3.314
22
42
86
11
39
250
73
131
396
294
123
483
29
37
85
21
71
358
17
35
98
53
76
321
9
47
244
15
41
245
16
45
239
4.520
5.553
13.256

0.78
1.00
0.72
0.71

0.74
0.72
1.00
0.84

Nmero de encuestados
185
133
604
125
131
170
165
298
129
294
124
126
208
132
133
164
134
183
308
2.542
47
81
179
309
48
124
45
132
81
82
83
7.499

0.70
0.71 . (2)
0.84
1.00

Desde (2), note que, utilizando los 23.403 datos (es decir, utilizando todas las pseudorplicas), las cuatros variables estn altamente correlacionadas en forma positiva. No
obstante, esta tendencia positiva es ms clara cuando se asignan puntales ms altos que
bajos; ver Figura 2. Esto quiere decir que, si un encuestado asigna una buena calificacin a
una variable (pregunta) para una industria, entonces esa buena calificacin es replicada para
todas las otras variables de la misma industria. Esto puede deberse a que el encuestado ya
tiene una buena opinin global de la industria y, por cansancio u otra razn, solamente
repite el puntaje.

Figura 2: grfico de dispersin entre la satisfaccin general con la marca y satisfaccin


dado precio, utilizando pesos de frecuencias.
Es necesario saber cmo afectan las pseudo-rplicas a la correlacin entre las
variables consideradas. Entonces, calculamos la matriz de correlacin eliminando los
encuestados duplicados (considerando slo los resultados del primer cuestionario que el
encuestado contest). Esto nos permite obtener la matriz de correlacin dada en expresin
(3), desde la cual se puede notar que la diferencia entre
y
es prcticamente nula. Por
lo tanto, podemos concluir que la relacin entre las variables usadas para calcular el INSC,
estudiadas en este trabajo, no es afectada por las pseudo-rplicas.

1.00
0.78
0.74
0.71

0.78 0.74 0.71


1.00 0.72 0.71 . (3)
0.72 1.0 0.83
0.71 0.83 1.0

Tambin, podemos comparar el INSC de los encuestados pseudo-replicados con


respecto a la muestra sin estos pseudo-replicados. Es posible hallar la distribucin del INSC
para
en las 38 industrias evaluadas. La tabla 3 muestra la media, la desviacin estndar
(DE), el coeficiente de asimetra (CA), el coeficiente de curtosis (CC) del INSC para
en
las 38 industrias. Tambin, el p-valor de la correspondiente prueba Shapiro-Wilk para
normalidad es proporcionado. La figura 3 muestra un histograma para ambos casos.
Tabla 3: distribucin del INSC para
(de todas las industrias).
Distribucin del INSC
Media
DE
CA
CC
p-valor
Con pseudo-rplicas
51,89%
16,21%
-0,26
2,65
0,451
Sin pseudo-rplicas
52,23%
18,64%
-0.26
2.30
0.747
5

Figura 3: histograma para el INSC medio de la Satisfaccin por Industria con


pseudo-replicados (a) y sin pseudo-replicados (b)
Desde la tabla 3 y la figura 3, note que las medias de las dos distribuciones (encuestados
pseudo-replicados o no) son estadsticamente iguales (para probar esta hiptesis se utiliz
un test-t para diferencias de medias de las dos distribuciones, arrojando un valor-p igual a
0.97). Adems, note que el p-valor pare el caso sin pseudo-rplicas es mucho mayor que
para el caso de con pseudo-rplicas. Entonces, se puede afirmar que, para efectos de
estimacin del INSC de , no existen diferencias significativas al usar un muestreo con o
sin pseudo-rplicas.
Otro resultado a analizar es la ausencia de respuesta. La tabla 4 contiene las
frecuencias de no respuestas de los encuestados pseudo-replicados.
Tabla 4: distribucin de las ausencias de datos.
Duplicados

Satisfaccin

Satisfaccin precio

Confianza

Transparencia

Total duplicados
74

67 (1%)

2.368 (52%)

2.368 (52%)

4.520 (100%)

108 (2%)

2.216 (40%)

2.216 (40%)

5.553 (100%)

495 (4%)

4.564 (35%)

4.564 (35%)

13.256 (100%)

Total

670 (3%)

9.148 (40%)

9.148 (40%)

23.403 (100%)

Note que la variable satisfaccin no tiene ausencia de respuestas. El porcentaje de


no-respuestas no aumenta cuando la cantidad de pseudo-rplicas aumenta. Por lo tanto, las
pseudo-rplicas no afectan la ausencia de respuesta.
Para realizar inferencia sobre el INSC es necesario calcular el efecto del alto
porcentaje de ausencia de respuesta. La tabla 5 muestra la distribucin de frecuencias de las
respuestas repetidas (una respuesta repetida equivale a dar el mismo valor a cada variable
en el cuestionario). Note que se tiene mayormente respuestas repetidas para las
calificaciones 6 y 7. Esto se podra deber a que la mayora de los encuestados responde
positivamente el cuestionario. Adems, note que, a medida que la cantidad de pseudorplicas aumenta, el porcentaje de medidas repetidas se mantiene muy cercano al 39%. Por
lo tanto, las pseudo-rplicas no afectan la cantidad de respuestas repetidas entregadas por
los encuestados.

Tabla 5: frecuencias de las respuestas repetidas por pseudo-rplicas.


Duplicados
Respuesta
0
1
2
3
Total
1
4
56
70
167
297
2
0
187
199
408
794
3
0
493
468
1.005
1.966
4
1
43
79
224
347
5
2
118
285
732
1.137
6
13
293
455
1.173
1.934
7
30
532
581
1.510
2.653
Total
50
1.722
2.137
5.219
9.128
Total de duplicados
74
4.520
5.553
13.256
23.403
Porcentaje
67,57% 38,1%
38,48% 39,37%
39%

4. Conclusin y trabajos futuros


La estimacin de parmetros estadsticos utilizando muestras con pseudo-rplicas
debe ser cuidadosamente analizada en forma previa a la realizacin del estudio. Se debe
verificar que las pseudo-rplicas no afecten la inferencia. Los resultados de este trabajo
muestran que las pseudo-rplicas no tienen efectos estadsticamente significativos en
relacin a la correlacin, la estimacin del ndice nacional de satisfaccin de consumidores,
la ausencia de respuestas y las respuestas repetidas. Por lo tanto, utilizar pseudo-rplicas es
un camino conveniente para alcanzar el tamao muestral requerido por las industrias y
marcas.
Este trabajo ha permitido analizar las correlaciones de las variables satisfaccin,
satisfaccin dado el precio, confianza y transparencia del cuestionario mediante el cual se
calcula el ndice nacional de satisfaccin de consumidores. Todas estas variables estn
correlacionadas. Entonces, no es recomendable realizar estudios futuros para regresin con
variables del cuestionario mediante el cual se calcula el ndice de satisfaccin de
consumidores debido a los problemas de multicolinealidad que podran presentar estas
variables al ser usadas como covariables en algn modelo de regresin.
Los resultados de ausencia de respuesta indicaron que es necesario su anlisis
exhaustivo, calculando efectos por no respuesta, relaciones entre no respuesta y respuestas
repetidas, adems de verificar los pesos para las variables con no respuesta usando, por
ejemplo, factores de expansin.
Para las respuestas repetidas, se concluye que el problema no se debe al cansancio o
agotamiento de los encuestados al contestar varios cuestionarios para diversas marcas. Por
lo tanto, se debe resolver el problema desde un punto de vista no muestral.
Algunos trabajos futuros podran estudiar el efecto de agregar ms variables en el
cuestionario mediante el cual se calcula el ndice nacional de satisfaccin de consumidores.
Esto podra agregar el efecto por ausencia de respuesta y resolver el tema de ausencia de
respuestas y respuestas repetidas, desde un punto de vista estratgico, comercial o
direccional.
7

5. Referencias
DeVries W, Keller W & Willeboordse A (1996) Reducing the response burden: some
developments in the Netherlands. International Statistical Review, 64, 199-213.
Dillman D, Clark J & Sinclair M (1995a) How prenotice letters, stamped return envelopes
and reminder postcards affect mailback response rates for census questionaries. Survey
Methodology, 21, 159-165.
Freeberg T & Lucas J (2009) Pseudoreplication is (still) a problem. Journal of Comparative
Psychology, 123, 450-451.
Hidiroglou M, Drew J & Gray G (1993) A framework for measuring and reducing
nonresponse in surveys. Survey Methodology, 19, 81-94.
Hulbert S (1984) Pseudoreplication and the design of ecological field experiments.
Ecological Monographs, 4, 187-211.
Millar R & Anderson M (2004) Remedies for pseudoreplication. Fisheries Research, 70,
397-407.
Platek R (1977) Some factors affecting non-response. Survey Methodolog, 31, 191-214.
Ramage B, Sheil D, Salim H, Fletcher C, Mustafa NZ, Luruthusamay J, Harrison R, Butod
E, Dzulkiply A, Kassim A & Potts M (2013) Pseudoreplication in tropical forest and the
resulting effects on biodiversity conservation. Conservation Biology, 27, 364-372.
Ruxton G & Colegrave N (2003) Experimental Design for the Life Science. Oxford
University Press, Oxford.

Вам также может понравиться