Вы находитесь на странице: 1из 46

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza

Diplomatura en Ciencias Empresariales Tercer Curso 1



Algunos conceptos de la teora del muestreo

Muestra
Se denomina muestra a una parte de las unidades que forman la poblacin. A partir de una muestra se pueden
inferir o estimar las caractersticas de la poblacin. Generalmente se trata de estimar medias, proporciones y
totales.

Unidad de muestreo
Es el elemento o elementos que se encuentran disponibles para su seleccin.

Marco
Es toda aquella informacin que pueda ser utilizada para elegir la muestra produciendo resultados semejantes
a los de una lista. Por ejemplo: listas de clientes, gua alfabetica de telfonos, etc.







Tipos de muestreo









Error aleatorio
Se denomina tambin error de muestro (error muestral) o error estndar y surge del propio proceso de
muestreo, por el hecho de utilizar una muestra aleatoria. Este error nuenca desaparece pero si puede acotarse.
Cuando se estima que el porcentaje de familias que va a consumir un producto es el 20%, ms-menos un 2%,
con una confianza de un 95,5%, se est expresando que una confianza del 95,5% de que el verdadero valor
est realmente en ese intervalo. El 2% representa el error de la estimacin o error muestral.

Otras fuentes de error no controlables ni medibles

- La muestra no es representativa, bien porque no se pueden localizar a unas unidades (malas
instrucciones, direcciones inexistentes, etc.) o porque se niegan a responder.
- Existen ambigedades en las preguntas, bien opr mala redaccin o por el trabajo del entrevistador, que
introduce pistas que pueden producir sesgos.
- Falta de exactitud de las respuestas por incapacidad para emitir una respuesta por mala memoria,
suposiciones sesgadas, mentiras, etc.
- Errores de anotaciones, de acotaciones, de correcciones, etc.

Recomendaciones para evitarlas

- Planificar bien la seleccin de la muestra, instrucciones claras y precisas.
- Cuestionarios redactados con precisin y fciles de responder.
- Seleccionando personal muy cualificado, etc.

Afijacin
Proceso de reparto de las unidades muestrales que comprenden la muestra entre los distintos estratos
seleccionados.

Aleatoriedad muestral
Cuando todas las unidades muestrales de la poblacin tienen la misma probabilidad de salir seleccionadas en
la muestra.
Muestreo probabilstico,

La seleccin de la muestra es
aleatoria y las unidades de
poblacin tienen la misma
probabilidad de ser selec-
cionadas. Se puede acotar el
error muestral.
Muestreo no probabilstico,

La seleccin de la muestra no es
aleatoria y se basa en el juicio del
investigador. No es posible
calcular los errores
Muestreo aleatorio con y sin reposicin
Muestreo estratificado
Muestreo por conglomerados o reas
Muestreo bietpico
Muestreo polietpico
Muestreo doble o bifsico
Muestreo por conveniencia
Muestreo segn criterio
Muestreo bola de nieve
Muestreo por cuotas

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 2


Briefing
Proceso de formacin de los entrevistadores, que se lleva a cabo de forma especfica para cada uno de los
estudios o investigaciones a realizar.

Cuestionario
Soporte de la informacin recogida mediante encuesta, en ocasiones recibe el nombre de formulario, sobre
todo cuando se refiere a observacin estructurada.

Cuestionario Estructurado
Cuestionario en el que las preguntas y posibles respuestas estn formalizadas y estandarizadas, es decir, las
preguntas se formularn en le mismo orden cada vez y ofrecern al entrevistado una opcin entre varias
alternativas, de modo que el entrevistador tendr que atenerse a las preguntas tal y como estn escritas.

Cuestionario semiestructurado
Cuestionario que suele constar exclusivamente de preguntas generales centradas en el tema de investigacin y
se presenta a modo de guin en sentido amplio.

Curvas de estabilidad
Se trata de un tipo de control muy sofisticado que usa diversas tcnicas estadsticas para comparar las
tendencias de respuesta entre los distintos entrevistadores y el conjunto de la muestra o zonas especficas,
observando la concordancia de las mismas con los datos que se poseen del conjunto de la poblacin. Variables
de tipo socio- demogrfico incluidas en el cuestionario y que no estn sujetas a cuotas o restricciones por el
diseo de la muestra pueden compararse con los datos facilitados por los diversos anuarios estadsticos.

Descriptivo, Anlisis
Es el ms usado en investigacin de mercados. Tiene como finalidad describir las caractersticas de ciertos
grupos, determinar la frecuencia con que ocurre algo, estimar la relacin entre dos o ms variables o efectuar
predicciones. Los estudios descriptivos son ms formales que los exploratorios y establecen modelos basados
en hiptesis. La investigacin descriptiva puede ser longitudinal o transversal

Elemento muestral
Cada uno de los orgenes de la informacin o suceso que se intenta medir mediante una accin de muestreo.

Error experimental
Variaciones asociadas a los estimadores de las distintas muestras que se pueden obtener de un poblacin.

Error muestral
Es el asociado a la diferencia entre un estimador concreto de una muestra y el parmetro calculado en la
poblacin.

Error no controlable
Error debida a factores no considerados en el proceso y que estn generalmente contemplados en los errores
tipo I o nivel de error.

Error sistemtico
Ver error muestral.

Escala
Formas de medir o cuantificar las respuestas contenidas en una entrevista.

Escala de Likert
Este tipo de escalas se basa en la eleccin de un conjunto de enunciados que sean capaces en su conjunto de
medir lo que se desea (generalmente actitudes). En este caso se le presentan al individuo una serie de
declaraciones, tanto positivas como negativas, y se le pide que muestre su grado de acuerdo o desacuerdo
respecto a cada una de ellas.

Estilos de Vida
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 3

Los estilos de vida se conocen por las siglas AIO, que corresponden a las iniciales de actividades, intereses
y opiniones de los individuos de una poblacin. Son tiles para discriminar a los individuos en distintos
comportamientos de consumo.

Estadstico
Ver estimador.

Estimador
Es el valor de una variable que se calcula sobre los datos de la muestra para aproximarse al parmetro de la
poblacin que estima.

Evaluacin
Parte del trabajo de campo encargada de medir al efectividad del mismo, se pueden llevar a cabo distintos
tipos de evaluacin basados en diferentes criterios como el econmico, o el de cantidad de informacin
recogida.

Exploratorio, Anlisis
Es un estudio preliminar, muy flexible y poco formal, que se basa en el estudio de datos ya existentes, en
entrevistas con personas expertas y en el examen de situaciones anlogas, mediante casos de estudio y
simulaciones. La finalidad principal del estudio exploratorio es el descubrimiento de ideas y conocimientos.
Trata de identificar los problemas o de formularlos de modo ms preciso, incluyendo la identificacin de
variables relevantes. Los estudios exploratorios son tiles para desmenuzar grandes problemas, de tipo
general, en problemas de investigacin ms precisos. Ayudan al investigador a formular hiptesis o a clarificar
conceptos y le permiten familiarizarse con el problema.

Formacin y preparacin
Parte del trabajo de campo que consiste en capacitar al personal de campo para ejercer sus funciones, se
puede diferenciar entre una formacin especfica para cada estudio y una general o bsica.

Informacin Analizada
Es informacin til para su publicacin en los medios de informacin y para la toma de decisiones
empresariales.

Informacin Procesada
Es la informacin que ha sido introducida en bases de datos u otros sistemas de registro informtico y que
permiten su reproduccin y grabacin.

Manual entrevistador
Documento en el que se facilita al entrevistador la mayor parte de la formacin bsica necesaria para el
desempeo de sus actividades.

Muestra
Conjunto reducido de individuos o elementos de una poblacin escogidos para obtener informacin sobre los
mismos y generalizarla al resto de la poblacin.

Muestreo aleatorio simple
Es el que selecciona a las unidades muestrales con nmero aleatorios.

Muestreo estratificado
Es el mtodo en que si bien se conoce la probabilidad de pertenencia a la muestra de las unidades muestrales,
sta no es la misma para todas ellas, siendo homognea entre estratos.

Muestreo por ruta aleatoria
Muestreo en el que la seleccin de las unidades muestrales se realiza de forma aleatoria dentro de un recorrido
establecido.

Nivel de confianza
Es el intervalo que se genera por exceso o por defecto de que nuestras hiptesis estadsticas pueden ser
admitidas como ciertas. Generalmente se admiten niveles del 95% que suponen un error significacin del 5%.

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 4

Parmetro
Valor de una variable que puede ser calculado a partir de los datos de una poblacin (por ejemplo la media).

Pilotaje
Consiste en seleccionar una submuestra pequea de la poblacin objetivo y efectuar las entrevistas personales
para la administracin del cuestionario con dos finalidades: comprobar el cuestionario y obtener una estimacin
de la Varianza de la poblacin.

Poblacin
Todos y cada uno de los individuos o elementos de los cuales se quiere tener informacin.

Trabajo de Campo
Acciones que tienden a localizar a las personas que deben contestar a las preguntas, la gestin y
administracin de los cuestionarios o mtodos alternativos de recogida de informacin, el registro de la
informacin deseada as como la comprobacin y devolucin de los soportes informacin una vez
cumplimentados.

Unidad Muestral
Cada uno de los posibles componentes de la muestra. En ocasiones se producir una coincidencia entre
elemento muestral y unidad muestral, aunque ello no siempre es cierto.

Universo
Ver poblacin

Revisin del concepto de variable y escalas de medicin

Las variables son magnitudes cuyos valores son objeto de un estudio en una investigacin comercial. Las
variables miden:

a) Comportamientos: presentes, pasados y futuros (intenciones).

b) Atributos: caractersticas demogrficas(edad, sexo, etc.), socioeconmicas(ingresos, ocupacin, etc.) y
psicogrficas(personalidad y estilos de vida).

c) Actitudes y opiniones: creencias, valoraciones, preferencias, etc. Las opiniones son una expresin verbal
de las actitudes.

d) Motivaciones o necesidades: por ejemplo, nuevas modalidades de precisin y ahorro, servicio telefnico
por radio, residencias para la tercera edad, etc.


Segn la relacin causa-efecto las variables pueden dividirse en:

a) Variables dependientes.- Cuyo comportamiento es explicado por otra u otras variables independientes.
Se llama tambin variable criterio y se representa por la letray.

b) Variables independientes.-Se utiliza para explicar el comportamiento de otra variable dependiente. Se
llama tambin variable explicativa o predictora.


Segn los valores que puede adoptar, las variables se clasifican en lo siguientes tipos:

a) Variable continua.-Es aquella variable que puede tomar cualquier valor numrico. Para todo par de
valores es posible determinar otro intermedio entre ambos. Por ejemplo, la distancia entre dos ciudades o
la rentabilidad de una inversin, expresada en porcentaje.

b) Variable discreta.- variable que slo puede tomar un nmero finito de valores distintos. Es decir, entre dos
valores consecutivos una variable discreta no puede tomar ninguno ms. Por ejemplo, el nmero de hijos.

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 5

c) Variable dicotmica.-Aquella que slo puede tomar dos valores, por ejemplo, el sexo (hombre/mujer), una
afirmacin o negacin(s/no), la superacin de un test (pasa/falla) o una creencia (verdadero/falso). Cuando
los valores posibles son 0 y 1, suele denominarse variable binaria. Variables dicotmicas son tambin las
variables ficticias.

d) Variable ficticia.-Variable dicotmica que se obtiene convirtiendo un nivel dado de una variable cualitativa
(que expresa una cualidad o estado) en una variable binaria, en la que el valor 1 indica la presencia de la
caracterstica y el valor o la ausencia de la misma. Por ejemplo, la variable sexo puede expresarse como
ficticia asignando un valor 1 a la cualidad de ser hombre y el 0 al caso contrario, es decir, mujer.

e) Variable tipificada o estandarizada.-Si a cada y uno de los valores de una variable se le resta su media
aritmtica y se divide el resultado por la desviacin tpica, se obtiene una nueva variable tipificada o
normalizada. Los valores de la variable son adimensionales o independientes de la unidad empleada.
Tienen media 0 y desviacin estndar igual a 1, N(0,1).

La medida de las variables viene determinada por la escala utilizada. El tipo de escala, a su vez, condiciona la
eleccin de la tcnica estadstica de anlisis de datos. La escala es un instrumento utilizado para medir las
variables. Pueden distinguirse cuatro tipos de escalas:

a) Escala nominal.- Indica slo la pertenencia a una clase o categora dentro de una variable; por ejemplo
<<hombre>> o <<mujer>> (variable <<sexo>>), <<soltero>>,<<casado>>,<<divorciado>> o <<viudo>>
(variable <<estado civil>>), etc. Si se asocian cdigos numricos a las categoras, su finalidad es
nicamente poder identificarlas y facilitar el tratamiento de los datos. No hay jerarquas entre categoras, ni
diferencias.

b) Escala ordinal.-Es una variable de la escala nominal que presenta una ordenacin de algn tipo(de ms a
menos o de menos a ms) en las categoras o clases. Por ejemplo, en la variable <<nivel de estudios>>
existe una jerarqua (de conocimientos) entre sus clases o categoras (<<sin estudios>>, <<estudios
primarios>>, <<estudios medios>> y <<estudios superiores>>). Los intervalos no son iguales ni existe
proporcionalidad entre ellos.

c) Escala intervlica.-Escala intervlica.-Supone que adems de existir ordenacin, las distancias entre los
valores o intervalos de la escala son iguales, aunque no existe proporcionalidad entre ellos. Por ejemplo, la
valoracin de un servicio (2=muy positivo; 1=positivo; 0=neutral; -1=negativo; -2=muy negativo).

d) Escala proporcional o de razn.- Supone que adems de ordenacin e igual distancia, como en la escala
intervlica, existe proporcionalidad entre los valores de la escala, y el valor 0 es absoluto. Por ejemplo, los
aos de edad, ingresos anuales, etc.
T2-08-01-2003

J erarqua de escalas y nombres comnmente utilizados

Orden superior Orden inferior


Escalas proporcionales Escala Intervlica Escala Ordinal Escalas nominales









Determinacin del Tamao de Muestra

Escalas no mtricas
Variables cuantitativas Variables cualitativas
Escalas mtricas
Variables categricas Variables numricas
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 6

Caso N 1 : Muestreo Aleatorio Simple con distintos estimadores

Medias
De un censo de 5.000 mdicos existentes en una determinada regin, se desea conocer
el tiempo medio que dedican a consultas fuera de su domicilio. Para ello se requiere
elegir, a travs de un muestreo aleatorio simple, la muestra que permita estimar este
dato, con un nivel de confianza del 95,5 por 100 (k=2) y error de diez minutos. La
desviacin tpica ha sido obtenida con una muestra inicial de 500 mdicos, siendo el
valor de 90 minutos.
Planteamiento
M.A.S. en una regin geogrfica
X= Tiempo medio consulta fuera del domicilio
N=5.000 mdicos
K = 2
S = 90 minutos
e = 10 minutos
n=?

Proporciones
En una poblacin de 500.000 habitantes se desea conocer, a travs de una encuesta <<mnibus>>,
diversos aspectos relacionados con el consumo de tabaco, con la compra de pantalones vaqueros y con el
consumo de cerveza. Cul debera ser el tamao de la muestra necesaria, para que a travs de un
muestreo aleatorio simple se pueda estimar el porcentaje de personas que de esta poblacin consumen a
la semana cinco o ms litros de cerveza, con un nivel de confianza de 95,5% (K=2) y un error del 5%?
Planteamiento
M.A.S. de una poblacin consumidora de Tabaco, Pantalones Vaqueros y Cerveza.
X = Porcentaje de personas que consumen 5 o ms litros de cerveza
N=500.000 personas
K=2
p=q=50 % = Desconocidos
n=?

Totales
A travs de una encuesta a diferentes perfumeras, se desea determinar la compra total, en pesetas, que
de un determinado producto han hecho los consumidores durante el ltimo mes. Se sabe que el censo de
perfumeras es de 3.000 establecimientos. Determinar cul sera el nmero de establecimientos, que
habra que elegir, a travs de un procedimiento aleatorio simple, para que con un nivel de confianza de
99,7% (K=3), el error de la estimacin sea como mximo de 10.000 pesetas. (por un estudio similar,
realizado dos meses antes, se conoce que la desviacin del gasto fue de 200 pesetas).
Planteamiento
M.A.S. en una poblacin de perfumeras
X= Compra total en pesetas de las perfumeras que forman parte de la poblacin
N=3.000
K=3
S=200 Pesetas (estudio preliminar)
n=?

Medias con Estratos y afijacin
Se trata de mostrar cmo la forma de afijacin puede variar el error con un mismo tamao muestral.
Supongamos que tenemos definidos dos estratos de tamaos N
1
=2.000, N
2
=8.000.Sus cuasivarianzas
respectivas son S
1
2
= 100 y S
2
2
= 900. Se quiere tomar una muestra de tamao n=200. Determinar el
tamao de la muestra en cada estrato y el error de muestreo para la estimacin de la media, utilizando los
tres tipos de afijacin : Afijacin igual, Afijacin proporcional y Afijacin ptima.

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 7


Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 8

Caso N 2 : Muestreo Estratificado con Afijacin

Se desea disear un plan de muestreo para estudiar las actitudes de la poblacin del
Pas Vasco hacia distintos tipos de promociones y su comportamiento a la hora de adquirir
un producto. El estudio debe recoger informacin para cada una de las provincias. La
encuesta se realizar mediante encuesta personal en el domicilio del encuestado.

Se considera como universo todas las personas mayores de 16 aos residentes en le
Comunidad Autnoma (Vizcaya, Alava y Guipzcoa). Se cree que las actitudes y
comportamientos varan segn la edad, el sexo y la provincia. Se cuenta por lo mismo con
la siguiente informacin del INE :

Pas Vasco lava Vizcaya Guipzco
a
Total 2.085.00
0
268.000 1.142.500 674.000
16-25
aos
672.000 85.800 372.200 214.100
26-65 791.000 100.900 431.500 258.700
> 65 263.000 30.300 146.500 86.300
Total >
15
1.726.20
0
217.000 950.200 559.100

Se fijan unos objetivos de error para la encuesta considerando que la variable
principal sea la estimacin de un porcentaje con p=q= 50%, la confianza de 95,5% y el error
para a estimacin del Pas Vasco, un 2% y el error mximo en cada provincia, un 4,5 %.
Determinar el tamao de muestra de cada estrato.

Planteamiento

Poblacin : Habitantes mayores de 16 aos que son consumidores del producto de
las tres provincias del Pas Vasco
Unidad Muestral : habitantes que son mayores de 16 aos elegidos por Rutas aleatorias de
acuerdo a los municipios/ barrios/ domicilios de los de las tres provincias.
Alcance: Provincias del Pas Vasco.

N = 1.726.200
p=q= 50 % de ser consumidor del producto/No ser consumidor del producto
K=2
e = 2 %
e
A
= e
V
= e
G
= 4,5 %

Caso N 3 : Muestreo por Cuotas

Supongamos que se deben realizar 25 entrevistas a personas mayores de 18 aos para llevar a cabo
un estudio de intencin de voto. La hoja de cuotas marginales puede ser como la siguiente :

Cuotas marginales
Encuestador .........................................
Debe realizar 25 entrevistas a personas mayores de 18 aos

N de entrevistas total 1 2 3 4 5 6 7 8 9 ............ 25
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 9

25
Sexo
Hombre
13
1 2 3 4 5 6 7 8 9 ............ 13
Mujer 12 1 2 3 4 5 6 7 8 9 ............ 12
Edad
18-34 aos
10 1 2 3 4 5 6 7 8 9 10
35-49 aos 8 1 2 3 4 5 6 7 8
50-64 aos 4 1 2 3 4
65 ms
aos
3 1 2 3
Nivel de
estudios

Primarios
10 1 2 3 4 5 6 7 8 9 10
Medios
10 1 2 3 4 5 6 7 8 9 10
Superiores
5 1 2 3 4 5

En la primera columna se definen la cuota y sus modalidades. Hay tres cuotas : sexo, edad y nivel de estudios,
con 2, 4 y 3 modalidades respectivamente.
La segunda columna indica el nmero de entrevistas que debe realizar en cada modalidad: as, necesita 13
hombres y 12 mujeres. Cada vez que realiza una entrevista el encuestador anotar las modalidades
correspondientes en la tercera columna.

Cuotas Cruzada
Encuestador .........................................
Se deben realizar 190 entrevistas a personas mayores de 18 aos

Hombre Mujer
Edad Primarios Medios Secundari
os
Primarios Medios Secundari
os
18 34 15 10 5 15 10 5
35 49 15 10 5 15 10 5
50 64 9 6 3 9 6 3
65 ms 8 4 2 8 4 8

Observaciones
La cuota cruzada consiste en exigir, un nmero directo al encuestador que combine
simultneamente los tres criterios, por ejemplo en una muestra de 190 personas.
El mtodo de cuotas marginales es ms empleado en la prctica, ya que es ms fcil de
aplicar y el encuestador obtiene rpidamente las primeras entrevistas que corresponden
fcilmente a las cuotas, mientras que con cuotas cruzadas es ms difcil de realizar.
El mtodo de cuotas se realiza muy extensamente en la prctica, ya que para la mayor parte
de las encuestas no se dispone de un marco. Es posible que no sea tan vlido como el
muestreo aleatorio, pero si se elabora con cuidado puede proporcionar buenos resultados.

Codificacin de los datos

Ejemplo de codificacin tipo ficha
P.25.- Por favor, Podra decirnos cul es su ocupacin actual? (23)
- Agricultor sin empleados o miembro de cooperativa
agrcola
1 (23)
- Agricultor con 1-5 empleados 2
- Agricultor con 6 o ms empleados 3
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 10

- Comerciante sin empleados 4
- Comerciante con 1-5 empleados 5
- Comerciante con 6 o ms empleados 6
- Profesin Liberal 7
- Trabajador Manual 8
- Director de Gran Empresa 9
- Director de PYME 0
- Mando superior, Jefes del ejrcito x
- Mando intermedio, Oficiales del ejrcito y
- Capataces, suboficiales del ejrcito 1 (24)
- Representante, agente comercial 2
- Administrativo 3
- Obreros especializados, Polica 4
- Obreros no especializados, subalternos no cualificados
y jornal.
5
- Vendedores, dependientes 6
- Ama de Casa 7
- Jubilados o clases pasivas 8
- Otros 9

P.26.- Podra decirme Ud. su edad (indicar la cifra) :
(25-26)

1 2 8
1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 9 0
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 - - - 6 6
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8
9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
x x x x x x x x x x x x x x x x x x x x x x
y y y y y y y y y y y y y y y y y y y y y y

Ejemplo de codificacin tipo carcter I
P.25.- Por favor, Podra decirnos cul es su ocupacin actual? (23)
- Agricultor sin empleados o miembro de cooperativa
agrcola
1
- Agricultor con 1-5 emlpeados 2
- Agricultor con 6 o ms empleados 3
- Comerciante sin empleados 4
- Comerciante con 1-5 emlpeados 5
- Comerciante con 6 o ms empleados 6
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 11

- Profesin Liberal 7
- Trabajador Manual 8
- Director de Gran Empresa 9
- Director de PYME 10
- Mando superior, Jefes del ejrcito 11
- Mando intermedio, Oficiales del ejrcito 12
- Capataces, suboficiales del ejrcito 13
- Representante, agente comercial 14
- Administrativo 15
- Obreros especializados, Polica 16
- Obreros no especializados, subalternos no cualficados
y jornaleros
17
- Vendedores, dependientes 18
- Ama de Casa 19
- Jubilados o clases pasivas 20
- Otros 21

Ejemplo de codificacin tipo carcter II
P.25.- Por favor, Podra decirnos cul es su ocupacin actual?
- Agricultor sin empleados o miembro de cooperativa
agrcola
(23)
- Agricultor con 1-5 empleados (24)
- Agricultor con 6 o ms empleados (25)
- Comerciante sin empleados (26)
- Comerciante con 1-5 empleados (27)
- Comerciante con 6 o ms empleados (28)
- Profesin Liberal (29)
- Trabajador Manual (30)
- Director de Gran Empresa (31)
- Director de PYME (32)
- Mando superior, Jefes del ejrcito (33)
- Mando intermedio, Oficiales del ejrcito (34)
- Capataces, suboficiales del ejrcito (35)
- Representante, agente comercial (36)
- Administrativo (37)
- Obreros especializados, Polica (38)
- Obreros no especializados, subalternos no cualficados
y jornaleros
(39)
- Vendedores, dependientes (40)
- Ama de Casa (41)
- Jubilados o clases pasivas (42)
- Otros (43)


Ficheros de datos

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 12

Ejemplo de fichero de datos con formato fijo

001 11 1 7 12 1 37 3 12 0
002 3 2 3 10 1 34 2 19 3
003 14 1 4 14 1 45 2 1 0
004 21 2 2 12 2 52 1 3 2
005 7 2 4 11 3 64 1 0 0
006 5 1 1 11 2 21 3 15 1
007 8 1 3 13 3 33 1 12 2
. . . . . . . . . .
. . . . . . . . . .
123 9 1 5 15 3 45 1 14 1
124 10 1 5 15 2 55 1 17 3

Ejemplo de fichero de datos con campo delimitado

$001$11$1$7$12$1$37$3$12$0$002$3$2$3$10$1$34$2$19$3003$14$1
$4$14 $1$45$2$1$0004$ 21$2$2$12$2$52$1$3$2005$7$2$4$11$3 $64$1
$0$0006$5$1$1$11$2$21$3$15$1007$8$1$3$13$3$33$1$12$2....


Anexo
Tamao de muestra y error mximo de muestreo

Tamao de Muestra
Estimado
res
Error Mximo Poblacin Finita Poblacin
Infinita
Estimaci
n Intervalo

Medias
e K K
N n
N n
X
S
= =

o
( ).
2


n
N
N
K S
e K S
=
+
2 2
2 2 2


n
K S
e
=
2 2
2

X e

Proporci
n
e K K
N n
N
pq
n
P
= =

o
( )
1
n
Npq
N pq
K
e K
=
+
2
2 2
1 ( )

n
pq
K
e
=
2
2

P e

Totales
e K K N N n
n
X
S
= =
o
( )( )
2

n
N
N K S
e K S
=
+
2 2 2
2 2 2


NX e


Muestreo Estratificado

Consiste en diferenciar grupos homogneos en la poblacin respecto a la variable objeto de
la investigacin comercial con la finalidad de disminuir el error y lograr una mayor precisin.
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 13


Se cumple :
En la poblacin

En la muestra

Afijacin.- es el procedimiento por el cual se realiza el reparto del tamao de muestra n
sobre cada uno de los estratos (n
h
).

Tipos de Afijacin

I Afijacin Igual .- Todos los n
h
son iguales. En todos los estratos se obtiene una muestra
de igual tamao. Se cumple:
1 2 3 n n n n n h L
n
L
= = = = = = = ... ..

II. Afijacin Proporcional.- El tamao muestral de cada estrato est en proporcin al
tamao del estrato. Se cumple :

1
1
2
2
3
3
n
E
n
E
n
E
n
E
n
E
h
h
L
L
= = = = = = ... ... , de donde
h
h
n
E
n
N
=

III. Afijacin ptima.-Se asignan los tamaos de forma que el error del parmetro
poblacional sea mnimo, es decir, los resultados ms precisos. Se cumple que :
h
h h
h h
h
L n
E S
E S
n
=


Estimacin de Parmetros
Estimador
es
Poblacin Muestra del
estrato
Error Mximo

Media X
N
h
h
h
L
E
X
=
=

1
x
N
h
h
h
L
E
x
=
=

1

e K
h
h
L
h h
h
h
h
E
N
E n
E
S
n
=

=

2
2
1
2


Proporcin P
N
h
h
h
L
E
P
=
=

1
p
N
h
h
h
L
E
p
=
=

1

e K
n
h
h
L
h h
h
h h E
N
E n
E
p q
=

2
2
1
1


Totales X N X N
N
h
h
h
L
E
X
= =
=

1

.
=
= =
x
E
x
Nx N
N
h
h
h
L
1

e KN
h
h
L
h h
h
h
h
E
N
E n
E
S
n
=

=

2
2
1
2


N
E E E E E E h L h
h
L
= + + + + + + =

1 2 3
... ..
n
n n n n n n h L h
h
L
= + + + + + + =

1 2 3
... ..
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 14

donde :
h
ij
h
i
x
x
n
h n
=
=

1
y p
h
es la estimacin de la proporcin en el estrato h, o la proporcin
muestral de ese estrato.

3. Tratamientos Simples de los Datos

Partiendo del fichero de datos nos encontramos con una gran cantidad de informacin a analizar. Los tratamientos
simples consisten en diversos tipos de estadsticos o de medidas que ayudan a analizar de forma general los datos de
nuestro fichero en forma de variable.

Ejemplo 1: Fichero de datos de la Encuesta sobre Turismo en el Cusco (AGOSTO.SAV)

ID PAIS RESIDENC ESTUDIO
S
OCUPACI
O
SEXO ESTAD
O
EDA
D
INGRESO MEDIOINF
1 INGLATER
RA
2 3 1 1 1 26 20000 5
2 DINAMARC
A
2 3 3 1 2 41 40000 *
3 FRANCIA 2 3 7 2 1 22 18000 5
4 ECUADOR 5 2 4 1 1 23 3600 6
.. ... ... ... ... ... ... ... ... ...
203 AUSTRIA 2 1 1 1 1 33 , 5

Fichero Con las etiquetas :

ID PAIS RESIDENC ESTUDIOS OCUPACIO SEXO ESTAD
O
EDA
D
INGRES
O
MEDIOINF
1 INGLATER
RA
Europa Universitarios Profesionales hombr
e
soltero 26 20000 informacion
2 DINAMAR
CA
Europa Universitarios Emprearios hombr
e
casado 41 40000 otros medios
3 FRANCIA Europa Universitarios Estudiantes mujer soltero 22 18000 informacion
4 ECUADOR Sudamrica Tecnicos Empleados hombr
e
soltero 23 3600 lineas aereas
.. ... ... ... ... ... ... ... ... ...
20
3
AUSTRIA Europa Secundarios Profesionales hombr
e
soltero 33 , informacion

Veamos algunos de los tratamientos ms importantes :

3.1 Distribucin de Frecuencias

Ofrece una lista de los valores de las variables y el nmero de veces que se presenta cada uno de los mismo (en
valores absolutos como en porcentajes). Utilidad :
- Permite diferenciar entre distintos tipos de distribuciones con caractersticas propias que obligan a distintos
tratamientos.
- Las representaciones grficas en Histogramas, grficas de barras y sectores circulares permiten estudiar las
distribuciones de forma visual.

Ejemplo 2: Distribucin de Frecuencias de las variables : RESIDENC, EDAD, CUSCOOFI (Encuesta sobre Turismo en
el Cusco)

Variable nominal

RESIDENC Zona Geogrfica Procedencia
Valid Cum
Value Label Value Frequency Percent Percent Percent
Asia 1 3 1,5 1,5 1,5
Europa 2 78 38,4 38,8 40,3
Norteamrica 3 42 20,7 20,9 61,2
Centroamrica 4 13 6,4 6,5 67,7
Sudamrica 5 57 28,1 28,4 96,0
Otros 6 8 3,9 4,0 100,0
, 2 1,0 Missing
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 15

------- ------- -------
Total 203 100,0 100,0


Variable Continua (Mtrica)

Variable Ordinal

CUSCOOFI Calidad-cantidad informacin Cusco
Valid Cum
Value Label Value Frequency Percent Percent Percent

Muy poca 1 20 9,9 10,0 10,0
poca 2 22 10,8 10,9 20,9
NS/NC 3 125 61,6 62,2 83,1
Suficiente 4 25 12,3 12,4 95,5
Mucha 5 9 4,4 4,5 100,0
, 2 1,0 Missing
------- ------- -------
3,9%
28,1%
6,4%
20,7%
38,4%
1,5%
1,0%
Otros
Sudamrica
Centroamrica
Norteamrica
Europa
Asia
Omitido
Zona Geogrfica de Procedencia Turstica
Frecuencia
Z
o
n
a

G
e
o
g
r

f
i
c
a

P
r
o
c
e
Omitido
Asia
Europa
Norteamrica
Centroamrica
Sudamrica
Otros
100 80 60 40 20 0
Desv. tp. = 10,79
Media = 35,2
N = 203,00
edad
70,0
65,0
60,0
55,0
50,0
45,0
40,0
35,0
30,0
25,0
20,0
F
r
e
c
u
e
n
c
i
a
60
50
40
30
20
10
0
Distribucin de la Edad de los Turstas
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 16

Total 203 100,0 100,0



3.2 Tratamientos de Tendencia Central

Permiten caracterizar una distribucin terica en funcin de donde se encuentra el grueso de los valores de una
variable. Medidas :
- Media aritmtica, es la suma de todos los valores dividido entre el nmero de valores que hemos sumado. Es til
para datos de tipo continuo,

- Mediana, es aquel valor que deja tanto por encima como por debajo la misma cantidad de efectivos. Es til para
datos de tipo ordinal (medidos en escalas de likert, diferenciales semanticos, etc.).

- Moda, es aquel valor que se repite ms veces en una distribucin. Es la mejor opcin para trabajar con datos de tipo
nominal.

Estas medidas no sirven para distribuciones donde exista un valor excesivamente alto en comparacin con los dems,
puede elevar la media (ene esos casos sustituir por la mediana).

3.3 Medidas de Dispersin

Hacen referencia al grado de concentracin de los datos o la variabilidad de los mismos. Dependen del tipo de escala
con la que se haya medido la variable. Medidas :

- Varianza, es la sumatoria al cuadrado de las diferencias en cada valor con respecto a la media dividido entre el
nmero de individuos u observaciones.

- Desviacin Tpica, muestra la variabilidad existente en los datos expresado en unidades de medida. Es la raz
cuadrada de la varianza.

En el caso de escalas ordinales :

- Recorridos Intercuartlicos, muestra los valores entre cada cuartil

- Rango, diferencia entre el valor mximo y mnimo de la dispersin

3.4 Medidas de Forma de la Distribucin

Se centran en la forma que adopta la distribucin de la variable, mostrando si los valores estn muy centrados en su
mayora o predominan un tipo de valores sobre otro. Medidas :

- Curtosis, muestra el nivel de apuntamiento de la distribucin. Un valor alto indica una alta frecuencia en algunos
datos. Un valor bajo indicar una distribucin plana. El valor se interpreta con referencia a la distribucin normal, con
valores mayores que 3 indica distribuciones afiladas y valores menores que 3 distribuciones planas. El ndice suele
transformarse en los programas informticos donde el cero representa la distribucin normal, valores positivos para
distribucin apuntada y negativos para distribuciones planas.

- Simetra, muestra la simetra de las distribuciones, es decir, si las observaciones de la misma se encuentran ms
agrupadas en torno a valores altos o bien bajos de la distribucin. Una distribucin simtrica, sera aquella en que la
media coincidiera con la mediana, y con la moda, encontrndose todas estas medias de tendencia central justo en la
mitad del rango de la distribucin. Un valor positivo indica que hay una mayor aglomeracin de valores a la izquierda
de la media, y con valores negativos, el efecto inverso.

Mucha Suficiente NS/NC poca Muy poca
F
r
e
c
u
e
n
c
i
a
Calidad-cantidad informacin Cusco
140
120
100
80
60
40
20
0
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 17

Ejemplo 3 : Medidas de Tendencia Central , Dispersin y de Distribucin para variables de distinta naturaleza ,
RESIDENC, EDAD y CUSCOFIC

RESIDENC Zona Geogrfica Procedencia

Mean 3,333 Median 3,000 Mode 2,000
Std dev 1,380 Kurtosis -1,363 S E Kurt ,341
Skewness ,375 S E Skew ,172 Minimum 1,000
Maximum 6,000

Percentile Value Percentile Value Percentile Value

25,00 2,000 50,00 3,000 75,00 5,000

Valid cases 201 Missing cases 2

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

EDAD edad


Mean 35,158 Median 32,000 Mode 25,000
Std dev 10,785 Kurtosis ,147 S E Kurt ,340
Skewness ,915 S E Skew ,171 Minimum 19,000
Maximum 69,000


Percentile Value Percentile Value Percentile Value

25,00 27,000 50,00 32,000 75,00 41,000

Valid cases 203 Missing cases 0

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

CUSCOOFI Calidad-cantidad informacin Cusco


Mean 2,905 Median 3,000 Mode 3,000
Std dev ,898 Kurtosis ,821 S E Kurt ,341
Skewness -,273 S E Skew ,172 Minimum 1,000
Maximum 5,000


Percentile Value Percentile Value Percentile Value

25,00 3,000 50,00 3,000 75,00 3,000

Valid cases 201 Missing cases 2


3.5 Tratamientos Simples con dos variables

Hasta el momento se han visto los principales anlisis descriptivos que se pueden realizar de una sola variable, pero
normalmente se suele trabajar con ms de una variable, por lo que puede resultar interesante observar cmo se
comporta la distribucin de una variable con respecto a la otra. Para ello se suele acudir a la tabulacin cruzada o a las
tablas de contingencia, en las que se presentan las coincidencias entre los valores de dos variables para los distintos
casos observados. Para llevar a cabo una tabla de contingencia, se debe tener en cuenta que las variables introducidas
en la misma deben tener un nmero limitado de categoras o valores, de lo contrario dicha tabla carecer de sentido
(por lo que en caso de trabajar con variables continuas o medidas en escala de ratios), se recomienda una
recodificacin de las mismas en escalas de intervalo.
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 18

Figura 1

La Figura 1, nos presenta un ejemplo de tabla cruzada, en la se presentan las coincidencias entre las dos variables, C1,
nmero de visitas al taller realizadas al ao, C2 precio en millones del vehculo. Se puede observar que dentro de cada
celda, se expresa el nmero de veces que ocurre el fenmeno y debajo de mismo se encuentra el valor de los residuos
estandarizados que presentan la diferencia estandarizado entre el valor observado y el que debera presentar en caso
de presentarse una distribucin independiente entre ambas variables. Por ejemplo en la celda de la primera fila y quinta
columna, aparece el valor de 15, lo que indica que 15 de los automviles estudiados tenan un precio de ms de cinco
millones y solo realizaron una visita al taller en el ltimo ao, el valor que se encuentra debajo 20,4, corresponde al
residuo estandarizado y se debe interpretar como que en esta celda se observa un valor que es 20,4 veces mayor que
la desviacin tpica normalizada de la distribucin en caso de que ambas variables fueran independientes. El ejemplo
que se presenta es un tanto extremo, pues se puede observar eas una relacin lineal con pendiente negativa entre
ambas variables. En los mrgenes de la tabla cruzada se presentan los efectivos por filas y por columnas, as como los
porcentajes que stos representan, o sea los recuentos de frecuencias para los valores de cada una de las variables.
Cabe normalmente la posibilidad de presentar tanto los porcentajes horizontales como los verticales para cada fila o
para cada columna. La inclusin de los residuos estandarizados nos puede dar una idea a prior de la posibilidad de
que los valores provengan de dos variables que resulten ser la una independiente de la otra. As valores prximos a la
unidad, indican que la probabilidad de que los datos encontrados en la celda provengan de variables independientes, es
reducida, (menor al 32% si los valores estn entre -1 y l), a medida que los valores de los residuos estandarizados
aumentan, disminuye (para valores comprendidos entre -2 y 2, dicha probabilidad se reduce al 5%, y cuando son entre -
3 y 3, alcanza la cifra del 5%o). Adems de estos tipo de anlisis, estn otros estadsticos asociados con la tabulacin
cruzada, que se muestran en la Figura 2. y se analizarn en los epgrafes sucesivos.

3.5.1. Test chi-cuadrado

El test de chi-cuadrado, se basa en la comparacin entre las frecuencias encontradas en cada celda de la tabla
cruzada, con los valores que se deberan esperar en caso de que no existiera relacin entre ambas variables, cuanto
mayores son dichas diferencias, mayor es el valor del estadstico. El test de hiptesis se formula de manera que la
hiptesis nula es que no existe ningn tipo de asociacin entre, las variables. Para comprobar la validez de la hiptesis,
se realiza el clculo del valor del estadstico, y se acude a la tabla (del mismo) teniendo en cuenta los grados de
libertad, para comprobar la probabilidad asignada a dicho valor del estadstico. Normalmente se suele establecer un
nivel de confirmar o de significatividad del 95,5 %, lo que significa que si la probabilidad asignada es menor de 0,05 se
debe aceptar la hiptesis alternativa aceptndose que existe relacin entre las variables.
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 19

Figura 2


En la primera parte de Figura 2, se observan unos valores elevados de chi-cuadrado, todos ellos con una significatividad
aceptable, por lo que se debe rechazar la hiptesis nula. Se pueden calcular diversos tipos de estadsticos chicuadrado.
En el programa que hemos usado para calcular los ejemplos, (Figura 2) nos encontramos con el chi-cuadrado de
Pearson, que se calculado como el cociente entre el cuadrado de los residuos y las frecuencias esperadas.

Otras de las formas de calcular el estadsticas chi-cuadrado es la denominada ratio de probabilidad, que suele usarse
cuando se trabajo con datos categricos, y tiene la misma interpretacin que el anterior. La tercera de las formas de
clculo de la chi-cuadrado la denominada de asociacin lineal o test de Mantel Haenszel, que se suele usar cuando se
trata con datos ordinales. Se calcula por medio de producto entre el coeficiente de correlacin de Pearson por el
nmero de casos menos uno; siempre presenta un grado de libertad, como se observa en la Figura 2, el valor de la
significatividad asociado a este test, es menor de 0,000005, con lo que se debe rechazar la hiptesis nula.

Se debe observar que cada uno de estos test de chi-cuadrado debe ser usado para variables medidas en un
determinado tipo de escalas, aunque el programa utilizado (SPSS) facilita todos los test a un tiempo. Otro de los
aspectos a tener en cuenta, es el referente al nmero de efectivos mnimo que debemos encontrar en todas las celdas,
se recomienda que todas las celdas presenten al menos 5 efectivos para obtener unos resultados adecuados del test
chi-cuadrado. En el ejemplo mostrado, como se puede apreciar, no se cumple esta condicin.

3.5.2. Test basados en la chi-cuadrado

Adems de los test de chi-cuadrado, existen otro conjunto de tests que se basan en este ndice, entre los que destacan
el test phi, la V de Cramer y el coeficiente de contingencia (C). Estos tests actan modificando el valor de la chi-
cuadrado de forma que resulte independiente de tamafo de la muestra, as como de los grados de libertad. Tambin
estn, configurados de fonna que sus valores oscilan dentro de un rango delimitado, dando una idea ms concreta del
nivel de asociacin entre las variables observadas.

Phi. Se trata de una modificacin de la chi-cuadrado de Pearson. Consiste en la raz cuadrada del cociente entre
la chi-cuadrado y el nmero de observaciones disponibles. Mide el grado de asociacin entre dos variables para el
caso especial de una tabla de 2 por 2. Su valor oscila entre 0 para el caso de inexistencia de relacin entre
variables y de 1 en el caso contrario. Cuando se aplica a tablas de tamao mayor que el descrito, no se produce
esta acotacin de valores del coeficiente. La interpretacin del mismo es igual a la expresada para la chi-cuadrado.

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 20

Vde Cramer. Se trata de una modificacin del estadstico anterior, que puede ser aplicada a tablas de contingencia
de cualquier tamao. Adopta valores comprendidos entre 0 y 1 con los mismos criterios que phi. Se da la
circunstancia que cuando este estadstico se aplica en tablas de 2 por 2 su valor es idntico al de phi.

Coeficiente de Contingencia (C). Este ndice se puecle aplicar a cualquier tipo de tabla independientemente de sus
dimensiones. Proporciona valores comprendidos entre 0 y 1, aunque en la mayora de los casos no alcanza el
valor 1, debido a que el valor mximo depende del nmero de filas y columnas. La forma de interpretacin es la
misma que se ha comentado para los estadsticos anteriores, y los valores que adopta para el ejemplo analizado se
pueden observar en la Figura 2.


3.5.3. Test de reduccin proporcional del error

Este conjunto de test se basan en la posibilidad de predecir los valores de una variable en base al conocimiento de los
valores de la otra, y tienen en cuenta el nmero de casos que pueden quedar bien clasificados. Dentro de este grupo,
encontramos dos estadsticos principales, que son Lambda y la Tau de Goodman y Kruskal, adems del coeficiente
de incertidumbre.

Lambda. Es un estadstico que se calcula en funcin de la capacidad de una de las variables para indicar los
valores que tomar la otra. Existen como se puede observar en la Figura 2 diferentes formas de clculo del mismo,
una que denomina simtrica, en la que no se hace ninguna hiptesis de dependencia entre las variables y otra
asimtrica, que se puede presentar como dependencia de la variable fila sobre la variable columna o viceversa.
Los varan entre 0 y 1, representando el primero de ellos la inexistencia de relaciones y el segundo la perfecta
capacidad de prediccin. La columna encabezada ASE1, representa el error asinttico del estadstico y se usa
para establecer intervalos de confianza o lo que es lo mismo, para fijar los niveles de aceptacin o rechazo de la
hiptesis nula o de independencia de las variables.
Tau de Goodman y KruskaL Se basa en el mismo principio que Lambda aunque para su clculo se observa la
probabilidad de acierto al predecir una variable a partir de los valores de la otra. Los valores de la tau oscilan entre
0 y 1 como en el caso anterior y la decisin de aceptacin o rechazo de la hiptesis nula se realiza tambin a partir
de los valores del error asinttico.

Coeficiente de incertidumbre. De funcionamiento muy semejante a Lambda se diferencia en estar basado en el
concepto de entropa. Se presenta en versiones simtrica y asimtrica, y sus valores oscilan entre 0 y 1.

3.5.4. Test de medidas ordinales

En muchas ocasiones las variables que se cruzan dentro de la tabla de contingencia, son variables de tipo ordinal, para
estos casos existen un conjunto de test especficos que describen las relaciones existentes entre dichas variables. Se
basan en las nociones de direccin de relacin y en las de correlacin. Por ello observaremos que algunos de los
estadsticos son coeficientes de correlacin, mientras que otros de los ndices se centran en los conceptos de
concordancia o discordancia y empate entre pares. Si dos pares de variables presentan ambos el valor de una variable
mayor que el de la otra se dice que son concordantes, en caso contrario se dice que ambos pares son discordantes.
Cuando los valores de ambas variables son iguales se debe computar como empate. Entre los tests de medidas
ordinales se encuentran:

Coeficiente de correlacin de Pearson (R). Sus valores oscilan entre 1 y -1, se tnide por medio del error
asinttico. Su teniendo en cuenta el valor absoluto del lo precede. As valores prximos a 0, indican una reducida
relacin entre las variables, mientras que valores prximos a 1 , indican una elevada relacin de asociacin entre
wnbas variables. Con respecto al signo, los valores positivos indican que incrementos en una variable, vienen
acornpafmos de incrementos en la otra, mientras que los valores negativos indican lo contrario. En la Figura 9.8, se
observa un valor de -1, lo que significa que a medida que aumenta el precio del vehculo, disminuye el nmero de
visitas al taller del mismo.
Coeficiente de correlacin de Spearman. Es una versin no paramtrica del coeficiente de correlacin de Pearson,
adecuado para variables de tipo nominal u ordinal. Sus valores e interpretacin son semejantes a los mostrados en
el coeficiente de correlacin anterior.
Tam-b de Kendal. Es una medida de la relacin existente entre variables ordinales, que se basa en las
concordancias y discordancias, sus valores oscilan entre 1 y -1, pudindose alcanzar dichos valores solamente en
tablas de contingencia cuadradas (igual nmero de filas que de columnas).
Tau-c de Kendali. Es semejante al anterior, aunque la principal diferencia entre ainbos es que este ltimo se puede
usar en tablas de cualquier tamao, y que no tiene en cuenta los cinpates entre los valores de arnbas variables
Gamm. Este coeficiente se basa en la probabilidad de concordancia o discordancia entre los pares de variables,
asumiendo que no existen empates. Sus valores oscilan entre -1 y 1 siendo su interpretaci>n seme ante a las ya
comentadas. Se debe aplicar sobre datos de tipo ordinal.
D de Sommers. Se trata de una extensin del estadstico gamma, en el que incluyen. en el proceso de clculo los
empates entre atnbas variables. Existe una vanante simtrica y otra asimtrica, en la que se indican la variable
dependiente e independiente. Tanto los lmites como la interpretacin siguen la misma pauta que los anteriores.

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 21

Adems de los estadsticos descritos, existen otros muchos que se centran en aspectos ms concretos, como medir el
nivel de acuerdo entre individuos, o estudios de estimacin de riesgo, dado el carcter mucho ms especfico de los
mismos, desistimos tanto de su enumeracin como de su explicacin.

3.5.5. Contrastes de Hiptesis

Hasta el momento se han mostrado medidas realizadas sobre una muestra o grupo representativo de una poblacin y a
veces se pueden observar determinados patrones en los datos o relaciones. La finalidad de la mayora de los
contrastes es:

Observar si la variable estudiada se comporta aleatoriamente.

Observar la existencia o no de autocovariacin (influencia de los valores propios de un variable en valores
posteriores, solo aplicable cuando se analizan datos de tipo longitudinal).

Observar si la media de la muestra estudiada pertenece a la media de la poblacin objeto de estudio.

Observar si la proporcin obtenida en la muestra, es la misma que la proporcin existente en la poblacin objeto de
estudio.

Observar si los datos obtenidos en la muestra, se adecuan a cualquiera de las distribuciones conocidas (normal,
binomial, de Poisson).

Observar si los valores obtenidos de la muestra siguen unos patrones esperados o no.

Dependiendo del tipo de variables a contrastar distinguiremos entre pruebas paramtricas y pruebas no paramtricas.
Las primeras son las aplicables a variables medidas con escalas de ratio o de intervalo, las cuales cumplen un conjunto
de condiciones bastante complejas, mientras que las segundas son las que se aplican a variables medidas con escalas
ordinales o con escalas nominales . Las pruebas paramtricas ofrecen mejores cualidades que las no paramtricas,
pero la mayora de los datos que se suelen obtener en las investigaciones comerciales suelen estar medidos con
escalas ordinales o nominales, dndose tambin la circunstancia de que resulta difcil comprobar el cumplimiento de
todos los requisitos necesarios para la aplicacin de las pruebas paramtricas.

3.5.6. Contrastes para una muestra

Cuando trabajamos con datos de una nica muestra, dependiendo del tipo de prueba a aplicar, encontraremos el test z
y el test t, entre las pruebas parwntricas y el test binomial, de chi-cuadrado, de rachas y de KolmogorovSmirnov, a
continuacin vamos a describirlos somerarnente, especificando la forma de interpretacin y los intervalos de valores
vlidos si los hubiese.

Test Z Se trata de un test basado en la distribucin normal, que puede ser usado para comparar estadsticos (por
ejemplo la media muestras) obtenidos de una muestra con respecto a los parrnetros de la poblacin ( como la
media poblacional). La forma de comprobar el resultado del test es idntica a las descritas hasta ahora. Primero el
programa estadstico calcula el valor de z, y luego calcula la probabilidad asociada al mismo. Comparando la
probabilidad con el nivel de significatividad seleccionado se acepta la hiptesis nula en caso de que la probabilidad
sea mayor que dicho nivel, o inversamente se acepta la hiptesis alternativa (que la media de la muestra es la
media de la poblacin) cuando la probabilidad es menor que el nivel de confianza.

Test T. Es un test muy semejante al anterior, aunque se basa en la distribucin t de Student. Parte del
conocimiento de la media de la muestra y de la desviacin tpica de dicha media que puede ser estimada a partir de
la desviacin tpica de la muestra. El tercer dato necesario para la aplicacin de este test es la media de la
poblacin que se pretende comparar. La forma de interpretacin de los resultados es la misma que se ha descrito
para el estadstico anterior.

Test binomial Prueba no paraintrica que se aplica sobre variables de tipo dicotmico, con la finalidad de contrastar
si una variable procede de una poblacin binomial con una probabilidad detenninada de que se produzca un
Suceso.

Test chi-cuadrado. Se trata de una prueba no parantrica que se suele aplicar sobre variables medidas con
escalas de tipo nominal. Se puede utilizar para contrastar hiptesis relativas a las proporciones de casos que se
encuentran en varios grupos mutuamente excluyentes. Permite realizar distintos tipos de hiptesis referentes a las
proporciones relativas (o frecuencias) existentes en la variable objeto de estudio. Se basa en la distribucin chi-
cuadrado.

Test de rachas. Tambin denominado test runs, es una prueba de tipo no pararntrica que se basa en el orden de
ocurrencia de los dos valores de una variable de tipo dicotmico. La finalidad del test reside en comprobar si dicha
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 22

variable se distribuye aleatoriamente o no. Las rachas se definen como el nmero de veces que se produce el
cambio de un valor a otro dentro de la distribucin de la variable dicotmica.

Test de Kolmogorov-Smirnov. Esta prueba no parantrica utiliza para contrastar la hiptesis de que la muestra
analizada se distribuye como alguna de las principales distribuciones (normal, uniforme, o de Poisson).

La forma de interpretar los resultados de todos estos contrastes de hiptesis es la misma que se ha descrito
anteriormente, comparando la probabilidad asociada al estadstico calculado con la asignada al nivel de significatividad
mnimo exigido.

3.5.7. Contrastes para dos muestras independientes

Este conjunto de pruebas se usan para comparar los resultados de distintos tipos de estimadores obtenidos de
muestras, y para contrastar si ambos estimadores provienen de muestras distintas o de una misma muestra. Las
muestras independientes son aquellas en las que un grupo presenta una caracterstica o valor de la variable y otro
grupo no la presenta. 0 sea que las observaciones no se encuentran condicionadas por dicha variable.

Entre los principales test que se aplican en el caso de ste tipo de muestras, se encuentran: el test t para dos grupos
independientes, test F, test de Kolmogorov-Smimov para dos muestras, test de la mediana, test de rachas de Wald-
Wold-Wolfowitz, U de Mann-Whitney, y el test de reacciones extremas de Moses.

Test t para dos grupos independientes. Prueba de tipo paramtrico que se aplica sobre variables medidas en escala
de ratio o de intervalo. Se usa para contrastar si dos muestras no relacionadas proceden de poblaciones con la
misma media. Por ejemplo, si desea saber si los fumadores y no fumadores tienen el mismo nivel medio de
consumo de bebidas alcohlicas. El procedimiento de aceptacin o rechazo de la hiptesis nula es semejante a los
anteriores.

Test F (o F de Bartlett Box). Esta prueba tambin se encuadra dentro de las y se usa para contrastar si ambas
muestras las mismas varianzas. Realiza el cociente entre dos muestras, teniendo en cuenta el nmero de grados
del numerador y del denominador para, asignar la probabilidad asociada al estadstico.

Test de Kolmogorov-Smirnov para dos muestras.. Se trata de un test de tipo no paramtrico usado para contrastar
si dos muestras provienen de la misma distribucin. El test tiene en cuenta las diferencias existentes entre
mediana, dispersin, asimetra, y otros estadsticos de ambas muestras. El test trabaja comparando las
distribuciones acumuladas y las diferencias con los patrones conocidos.

Test de la mediana. Prueba de tipo no paramtrico, usada para contrastar si dos o ms muestras independientes
pertenecen a poblaciones con la misma mediana.

Test de rachas de Wald-Wolowitz, Este test como los anteriores es no paratntrico. Contrasta la hiptesis de q ' ue
dos muestras proceden de la misma poblacin. Se suele aplicar a variables medidas en escalas de tipo ordinal,
basndose en las rachas, por medio de la asignacin de rangos a los valores de las dos muestras, observando que
cuando existe un elevado nmero de rachas, las muestras son de la misma poblacin y cuando ste es reducido,
las muestras pertenecen a distintas poblaciones

U de Mann-Whitney. Se trata de una prueba semejante a la t, aunque en este caso es de tipo no paramtrico. Se
suele aplicar sobre variables medidas en escalas de tipo ordinal.

Test de reacciones extremas de Moses. Test de tipo no paramtrico orientado al contraste de la hiptesis de que la
variable experimental afecta a algunos sujetos en una direccin y a otros en la direccin contraria. Se aplica sobre
variables medidas con escala ordinal.

3.5.8. Contrastes para dos muestras pareadas (o relacionadas)

Los tests de muestras pareadas o relacionadas se aplican sobre muestras en las que se pretenden comprobar varios
valores obtenidos de los mismos sujetos observados, es decir, en ellas existe relacin entre las observaciones y se
encuentran condicionadas por una de las variables.

Entre las principales pruebas que se aplican sobre muestras relacionadas, podemos encontrar los test de t para
muestras relacionadas, prueba de McNemar, prueba de los signos y la prueba de Wilcoxon.

t-test para muestras relacionadas. Prueba de tipo paramtrico usada con la fnalidad de comprobar si dos muestras
i)rovienen de poblaciones con la misma media. Se aplica sobre datos medidos a travs de una escala de ratios o
de una de intervalos. Se ~a usar este tipo de test para comprobar si se modifica la valoracin realizada de un
producto por un conjunto de compradores antes y despus de la compra y uso de producto.

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 23

Prueba de McNemar. Test de tipo no paramtrico que se aplica sobre dos variables dicotmicas relacionadas.
Realiza el contraste de hiptesis a travs de la distribucin chi-cuadrado, observando la probabilidad de ocurrencia
de las dos situaciones posibles (0, 1) y (1,0).

Prueba de los signos. Test no paramtrico de muestras relacionadas, usado de que las dos variables tienen las
misma usado se basa en la direccin de las diferencias Cuando dos muestras tienen la misma distribucin, la mitad
de las diferencias debern ser positivas y la otra mitad negativas.

Prueba de Vilcoxon. Prueba de tipo no paramtrico para muestras relacionadas. Se usa en el contraste de la
hiptesis de que las dos variables tienen la misma distribucin. Este test tiene en cuenta la informacin sobre la
magnitud de diferencias dentro de los pares v pondera con un valor mayor a los pares que presenten diferencias
pequeas.

Anexo
Tablas de contingencia: Estadsticos con SPSS


Chi-cuadrado. Para las tablas con dos filas y dos columnas, utilice Chi-cuadrado para calcular el chi-cuadrado de Pearson,
el chi-cuadrado de la razn de verosimilitud, la prueba exacta de Fisher y el chi-cuadrado corregido de Yates (correccin
por continuidad). Para tablas 2 x 2, se calcula el estadstico exacto de Fisher cuando una tabla que no sea resultado de
columnas o filas perdidas de una tabla mayor presente una casilla con una frecuencia esperada menor que 5. El chi-
cuadrado corregido de Yates se calcula para las restantes tablas 2 2. Para tablas con cualquier nmero de filas y
columnas, seleccione Chi-cuadrado para calcular el chi-cuadrado de Pearson y el chi-cuadrado de la razn de verosimilitud.
Cuando ambas variables de tabla son cuantitativas, Chi-cuadrado da como resultado la prueba de asociacin lineal por
lineal.

Correlaciones. Para tablas donde tanto las columnas como las filas contienen valores ordenados, Correlaciones da como
resultado el coeficiente de correlacin de Spearman, rho (slo datos numricos). El coeficiente de correlacin de Spearman
es una medida de asociacin entre rdenes de rangos. Cuando ambas variables (factores) son cuantitativas, Correlaciones
de como resultado el coeficiente de correlacin de Pearson, r, una medida de asociacin lineal entre las variables.

Nominal. Para datos nominales (sin orden intrnseco, como catlico, protestante, judo), se puede seleccionar el coeficiente
Phi y la V de Cramr, el coeficiente de contingencia, Lambda (lambdas simtricas y asimtricas y tau de Kruskal y
Goodman), as como el coeficiente de incertidumbre.

Ordinal. Para tablas donde tanto las filas como las columnas contienen valores ordenados, seleccione Gamma (orden cero
para tablas de dos vas de clasificacin y condicional para tablas de 3 a 10 entradas), tau-b de Kendall y tau-c de Kendall.
Para pronosticar las categoras de columna a partir de las categoras de fila, seleccione la d de Somers.

Nominal por intervalo. Cuando una variable es categrica y la otra es cuantitativa, seleccione Eta. La variable categrica
debe codificarse numricamente.

Kappa. Para tablas que tengan las mismas categoras en las columnas que en las filas (por ejemplo, el acuerdo entre dos
jueces), seleccione la kappa de Cohen.
Riesgo. Para tablas con dos filas y dos columnas, seleccione Riesgo para las estimaciones de riesgo relativo y la razn de
ventajas.

McNemar. Prueba no paramtrica para dos variables dicotmicas relacionadas. Contrasta los cambios en las respuestas
utilizando la distribucin de chi-cuadrado. Resulta til para detectar cambios en las respuestas debidos a la intervencin
experimental en los diseos de tipo antes-despus.

Un caso de muestreo estratificado aplicado al turismo

Se han realizado la afijacin en un muestreo estratificado, teniendo en cuenta los datos estadsticos oficiales de
la actividad turstica de los establecimientos de alojamiento para el Departamento de Cusco (Per) con el fin de
conocer las caractersticas del comportamiento del gasto turstico, los niveles de satisfaccin y calidad de los
servicios tursticos disfrutados. El siguiente cuadro nos ilustra los estratos considerados:

AFIJACIN DEL TAMAO DE MUESTRA PARA EL MES DE ENERO DE 2003 SEGN ESTRATOS:

TIPO DE TURISTA: Nacionales y extranjeros
TIPO DE TERMINAL DE SALIDA: Areo, Terrestre y Tren
CATEGORA DEL ALOJAMIENTO: Alojamiento 5 estrellas, Alojamiento 4 estrellas, Alojamiento 3 estrellas,
Alojamiento 2 estrellas, Alojamiento 1 estrellas y Alojamiento Sin
categora.
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 24


Terminal Categ.
Alojamiento
T.Naciona
les
% Aloj.Nac.
(1)/
T.
Extranjeros
% Aloj.Ext.
(1)/
TOTALES
Alojamiento 5* 1 3,085642317 10 14,7189211 11
Alojamiento 4* 1 0,422813962 2 2,63283868 3
T.AREO Alojamiento 3* 3 11,58240374 24 34,1519762 27
Alojamiento 2* 6 18,63080245 8 12,2255292 14
Alojamiento 1* 9 30,80694494 10 14,1590526 19
Sin categora 11 35,47139259 15 22,1116823 26
(2)/ 21,47 100 42,36 100,00 100
Alojamiento 5* 3 3,085642317 10 14,7189211 13
Alojamiento 4* 1 0,422813962 2 2,63283868 3
T. TERRESTRE Alojamiento 3* 11 11,58240374 22 34,1519762 33
Alojamiento 2* 17 18,63080245 8 12,2255292 25
Alojamiento 1* 28 30,80694494 9 14,1590526 38
Sin categora 33 35,47139259 15 22,1116823 47
(2)/ 66,95 100 40,29 100,00 159
Alojamiento 5* 1 3,085642317 4 14,7189211 5
Alojamiento 4* 1 0,422813962 1 2,63283868 2
T. TREN Alojamiento 3* 2 11,58240374 10 34,1519762 12
Alojamiento 2* 3 18,63080245 3 12,2255292 6
Alojamiento 1* 5 30,80694494 4 14,1590526 9
Sin categora 6 35,47139259 6 22,1116823 12
(2)/ 11,58 100 17,35 100,00 46
100,00 100,00
(2)/ Tipo Turistas 45,80 54,20 100
TOTALES (3)/ 138 163 301

Las cifras se han redondeado al entero ms prximo (la suma REAL es 304 encuestas)

Notas
(1)/ Estos porcentajes se han calculado de las estadsticas de capacidad hotelera de los alojamientos de
hospedaje-ao 2000 segn el tipo de turista (Nacional o Extranjero).
(2)/ Estos porcentajes proceden de la estadstica por meses "Arribos segn medios de transporte de turistas
nacionales y extranjeros 2000", correspondiente a enero.
(3)/ Las 301 encuestas corresponden al tamao de muestra calculado para un 7% de error muestral(e) y que los errores
por tipo de turistas (e nac y e ext) sean menores que 10%. Asimismo 95,5% de confianza (k=2).

La poblacin de turistas considerada es de N =38.904, poblacin de turistas de enero de 2001. Y la media de
gasto considerada fue de 651US$.

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 25

Hombres Mujeres
Primario
secundario
bachillerato
universitario
doctorado
Determinacin de la cuasivarianza poblacional segn estudios anteriores



Calculo del tamao de muestra general del estudio
=
+
=
+
=
0042 . 397 2
) 651 07 . 0 ( 38904
0442 . 397 2
38904
2 2
2
2 2
2 2 2
2 2
x x x
x x
S K e
N
S K
N
n
301

Periodo de recogida de informacin: enero y agosto




SE PIDE

1. Compruebe si los tamaos de muestra resultantes corresponden a los errores fijados para el estudio
controlando el estrato TIPO DE TURISTA. El error mximo admitido ser de 7% para el estudio global y
10% para el estrato indicado. Haga el mismo clculo para el mes de agosto.
2. Planifique la realizacin del muestreo para los meses de enero y agosto.


SOLUCIN

El problema metodolgico de la eleccin aleatoria

Supongamos que el siguiente esquema representa unas urnas o habitaciones donde se encuentra reunida la
poblacin que queremos estudiar, se trata de individuos segn dos estratos: sexo (H/M) y el nivel de estudios
(primario / secundario / bachillerato/ universitario / doctorado). Supongamos que tenemos calculado los tamaos
de muestra de todos los estratos (n
1
, n
2
,....n
10
). Si fuera posible realizar esto en la prctica, podramos seleccionar
aleatoriamente individuos de cada habitacin al azar, donde todos los individuos tienen la misma probabilidad
de resultar seleccionados en la muestra. Como resulta obvio es muy difcil realizar esto en la prctica por ello se
sustituye la seleccin aleatoria por cuotas.

se utiliza la cuasivarianza poblacional del gasto medio turstico, estimada a partir de las muestras
realizadas en agosto- septiembre de 1997 y diciembre- enero de 1998 en el Cusco:

Muestras a
aplicar
Fuente Desviacin tpica
Muestral (S)
Cuasivarianza
Muestral (S
2
)
Sondeos 6, 1 y 2
Sondeo efectuado diciembre - enero 1998 397,0442 157644,1
Sondeos 3, 4 y 5
Sondeo efectuado agosto - septiembre 1997 223,4949 49949,96

15,000
20,000
25,000
30,000
35,000
40,000
M
e
d
i a
a
r r i b
o
s
1
9
9
7
- 1
9
9
9

Estacionalidad de la demanda turstica
TOTAL EXT. TOTAL NAC.
1 2
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 26

Para seleccionar las unidades de muestra

Segn la OMT, Turista es aquel que viaja a otro pas o lugar distinto de donde reside por un perodo mnimo de
una noche y no ms de 12 meses consecutivos, y cuyo principal propsito de viaje es otro que el ejercicio de
un actividad remunerada en el pas o lugar que visita. El trmino incluye a personas viajando por ocio,
entretenimiento y vacaciones, visita a familiares/amigos, negocios y motivos profesionales, tratamientos de
salud, religin/peregrinaciones y otros motivos. Debido a que gran parte de los datos estadsticos considerados
en los clculos del tamao de muestra proceden de los Arribos, termino ms amplio que incluye viajeros de
ida y vuelta, reagrupaciones familiares y otras actividades tambin remuneradas no necesariamente de ocio y
entretenimiento, se comete un error no controlable debido a que no existen estadsticas ms precisas y
desagregadas.

1. Seleccin aleatoria de las unidades muestrales

La seleccin aleatoria de las unidades muestrales es la tarea ms compleja del estudio, de ella depender
la validez de la muestra seleccionada y por ende, la validez del estudio. Para el adecuado cumplimiento de
esta misin, ser preciso un entendimiento preciso de los objetivos, por parte del personal supervisor e
investigador, y una correcta transmisin de estos conceptos a los entrevistadores en la tarea de
capacitacin. El procedimiento sugerido estar basado en una base de datos que simula los asientos
numerados de las salas de embarque (SIMULA.SAV) y nos ayudar a seleccionar aleatoriamente a los
turistas que se encuentran sentados en ellas. Los pasos se ilustran en la grfica:

Seleccin Aleatoria mediante numeracin de la sala de embarque

Pasos a seguir:

1. Se comprueba el nmero de asientos de la sala de embarque donde se efectuar el muestreo.
2. Se procede a enumerar los asientos respetando un orden secuencial y geomtrico que facilite la ubicacin
posterior de los asientos.
3. Se realiza la seleccin aleatoria en SPSS con la base de datos SIMULA.SAV y se anotan los nmeros
seleccionados. Se precisan dos datos : el nmero de asientos de la sala y el nmero de entrevistas a
efectuar en esa jornada. Este procedimiento se repetir por cada jornada de entrevistas, que se debe
desarrollar de forma continua hasta completar la cuota fijada para la jornada.
4. Del paso anterior se concluye que debe repetirse este proceso para cada entrevistador y por cada jornada
de trabajo (estimando aproximadamente el nmero de entrevistas a efectuar en una jornada).
5. El resultado se muestra en la siguiente grfica, donde se observan algunos de los nmero de asientos
seleccionados (p.e. asientos N 1, 9, 10, 11, 12, etc.).

nmero de entrevistas
nmero asientos sala
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 27















Un procedimiento alternativo de seleccin es el denominado itinerario de ruta aleatoria
mostrado en los Anexo 1. Requiere una participacin activa por parte del entrevistador.

2. Sobre las hojas de rutas ha emplear

Las hojas de rutas del entrevistador informan de cmo se ha efectuado la seleccin de las unidades
muestrales durante la jornada o da (nmero de horas del da dedicadas al trabajo de campo) de
acuerdo a los criterios de seleccin fijados previamente. Observaciones:

a) El entrevistador tendr tantas hojas de ruta como jornadas haya empleado para realizar sus
encuestas
b) El diario de rutas es un resumen de las entrevistas efectuadas en total por parte del entrevistador.
c) El supervisor deber recibir, por parte del entrevistador, los cuestionarios rellenados, las hojas de
ruta y el diario de ruta.

Informacin previa necesaria para su confeccin:
Horario de frecuencia de salidas de transportes por tramos de hora (p.e. Vuelos nacionales diarios
7-14 horas, salidas Internacionales martes y jueves a 17 horas)
Nmero de empresas privadas que brindan el servicio.
Determinar el nmero de jornadas y das necesarias para realizar entrevistas y cubrir la cuota
asignada de encuestas.
Croquis de la disposicin de los asientos en la sala de embarque.
Numeracin de los asientos de la sala.
Seleccin de los asientos a entrevistar previo a cada jornada (se efecta con la participacin del
supervisor y el entrevistador)

Un modelo de dos hojas de ruta se muestran en el Anexo 1.

La revisin de las hojas de ruta se efectuar teniendo en cuenta la siguiente informacin:
1. El diario de ruta y la planificacin de jornadas y das fijada por el entrevistador.
2. El mtodo de seleccin de unidades muestrales (seleccin aleatoria asientos o itinerario aleatorio) y la
calidad de aplicacin en la prctica.
3. El nmero de entrevistas asignada como cuota y el saldo de encuestas efectuada.
4. Comprobando la hora de llenado del cuestionario y su equivalente en la hoja de ruta.

1 5 3 2 4
7 11 9 8 10
13 17 15 14 16
19 23 21 20 22
12
6
18
24
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 28

Anexo 1
Modelo Ejemplo de hoja de ruta

N de hoja de ruta __1_ de un total de __2

Nombre_Maria Luisa____________ Apellidos___Garca Fernndez__________________

Cdigo de Entrevistador N _5

N de das empleados: 2 das en total

N jornadas empleadas en el terminal ___

N encuestas asignadas 28

N encuestas realizadas en esta hoja de ruta 10

Tipo de mtodo de seleccin aleatoria elegido : seleccin aleatoria de asientos

Punto de partida: No hay itinerario (se han seleccionado los asientos al azar con el SPSS y
simula.sav)

Itinerario del 1 da : Sala de embarque terrestre














Incidencias : (3) H-EXT, (6) M-EXT, (9) No quiso ser entrevistada, (10) M-NAC .....

Abreviaturas utilizadas :
H= Hombre
M= Mujer
EXT= Extranjero
NAC= Nacional

Cuotas asignadas
Areo Terrestre Tren
Hombres Mujeres Hombres Mujeres Hombres Mujeres
EXTRANJE 12345 (5) 123 (3) 1 (1) 1 (1) 12 (2) 1 (1)
NACIONAL 12 (2) 1 (1) 12345 (5) 123 (3) 1 (1) 1 (1)







1 5 3 2 4
6
10
8 7 9
11 15 13 12 14
16 20 18 17 19
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 29




Anexo 2
Indicadores de capacidad hotelera de los establecimientos de hospedaje
departamento de cusco - 2000

ARRIBOS PERNOCTACIONES CAPAC. INSTALADA HAB.
NAC. EXTRAJ. NAC. EXTRANJ
.
HABITAC. CAMAS OCUPAD
AS
IOH IOC
ENERO
5 * 302 3 177 686 7 072 43,44 40,01
4 * 40 496 94 1 265 33,00 31,14
3 * 1 168 9 934 2 575 16 409 33,86 30,83
2 * 2 366 2 356 4 142 5 874 19,04 15,59
1 * 4 839 3 357 6 849 6 803 22,89 18,30
(*) SIN CATEG. 5 498 5 095 7 886 10 624 36,77 35,77
14 213 24 415 22 232 48 047 0 000 0 000 0 000
AGOSTO
5 * 333 2 952 775 5 416 68,18 68,39
4 * 144 1 023 335 2 273 41,89 35,07
3 * 1 117 5 002 2 522 8 712 30,75 28,08
2 * 1 650 2 438 2 550 4 446 16,36 13,59
1 * 5 531 1 498 7 770 3 555 22,42 19,04
(*) SIN CATEG. 9 895 5 527 14 465 11 506 42,63 36,55
ALBERGUE 4 122 11 393 7,62 7,79
18 674 18 562 28 428 36 301 0 000 0 000 0 000
TOTAL 191 035 323 208 306 044 670 713 0 000 0 000 0 000
FUENTE : Reporte de informacin de hospedajes.
ELABORACION : Oficina Estadstica e Informtica -Turismo - DRIT CUSCO.
(*) Sin Clase Ni Categora esta tambin considerado Casa Hospedaje

Resumen mensual: medias de arribo de viajeros nacionales y extranjeros agrupada por zonas
Departamento del Cusco. 1997-99
PAIS ENERO % ENE AGOSTO % AGO
TOTAL EXT. 21086 54,20 27360 59,65
TOTAL NAC. 17819 45,80 18507 40,35
TOTAL 38904 100 45867 100
FUENTE: Elaboracin propia a partir de la Oficina Estadstica e Informtica -Turismo - DRIT CUSCO

Medios de transporte de nacionales y extranjeros 2000
Mes Aereo Carretera Ferrocarril Totales
ENERO 16,660 15,848 6,823 39,331
AGOSTO 30,159 21,555 8,389 60,103
FUENTE: Elaboracin propia a partir de la Oficina Estadstica e Informtica -Turismo - DRIT CUSCO


Desviacin Tpica segn Tipos de turistas Nacionales y Extranjeros
Tipo de turista Enero Agosto
Extranjeros 411,4 225,7
Nacionales 287,9 199,6
FUENTE: Elaboracin propia a partir de las encuestas tomadas en agosto-septiembre de 1997 y Diciembre-Enero 1998.
IIUR, Universidad Nacional de San Antonio Abad del Cusco


Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 30

Cualitativo y/o Cuantitativo?

Precisin Escala Se usa para expresar... Ejemplos Estadsticas
Ms rico Metafrico Simbologas
Necesita smbolos
Un parrafo tomado de El
Quijote
Nivel no paramtrico
Narrativo Ideas. Requiere muchas
palabras
Respuesta a una
pregunta abierta
Nivel no paramtrico
Nominal binario Clasificar algo en dos
categoras
- Si/No
- Hombre/mujer
- Consume/No
consume
Nivel no paramtrico
Porcentaje, moda
Chi, Fisher, Binomial
Nominal mltiple Clasificar algo por varias
categoras
- Marca A, Marca B o
Marca C
- Oviedo/Corua/Bilbao
Nivel no paramtrico
Porcentaje, moda
Chi, Fisher, K-S
Ordinal Una serie de grados o rangos
o niveles
- Mejor/igual/peor
- Ms/en
promedio/menos
- 0-1/2-4/5-7/8-10
Nivel no paramtrico
Porcentaje, mediana,
K-S, Mann-Whitney,
Spearman
Intervalo Nmeros enteros con
intervalos constantes
1 a 10 Nivel parametrico
Media, desviacin,
Pearson, t, ANOVA
Ratio discreto Nmeros enteros con
proporcionalidad y punto cero
verdadero
- Cantidad vendida
- Cantidad producida
- N clientes
- N consumidores
Nivel parametrico
Media, desviacin,
Pearson, t, ANOVA
Ms preciso Ratio continuo Nmeros con decimales - Tiempo
- Renta per cpita
- Gasto medio turismo
Nivel parametrico
Media, desviacin,
Pearson, t, ANOVA



Posibilidad de anlisis de dos variables: medidas de Asociacin



Variables escalas nominales


Variables con escalas de intervalos

Variables escalas nominales


TABULACION CRUZADA

DIFERENCIA ENTRE MEDIAS
ANOVA (ms de tres categoras)

Variables escalas de
intervlos

DIFERENCIA ENTRE MEDIAS

CORRELACIN


4.1.Anlisis de la Varianza Simple

Ejemplo N 1 Anlisis de la Varianza Simple

El funcionamiento de una planta de piezas de aluminio en la que trabajan tres equipos
de obreros en tres turnos, el primero de maana, el segundo de tarde y el tercero de noche,
es como se muestra en el siguiente cuadro :
Observaci
n
Turno
Maana
Turno
Tarde
Turno
Noche
1 430 460 410
2 470 420 420
3 520 410 395
4 480 510 440
5 475 480 410
6 520 460 460
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
Diplomatura en Ciencias Empresariales Tercer Curso 31


x = Mide la vida til de las piezas seleccionadas al azar entre las piezas de aluminio
fabricadas en cada turno.

Se pide
Determinar, si la vida media de las piezas fabricadas en los tres turnos son diferentes.

Solucin

1. Clculo de la media general y las medias de cada grupo
X
n
n
ij
i J
g
x
j
=
= =

1 1
=
430 470 460 460
18
+ + + + + ... ...
= 453,88
1
1
1
1
1
X
x
n
i
i
n
=
=

=
430 470 520 480 475 520
6
+ + + + +
= 482,5
2
2
1
2
2
X
x
n
i
i
n
=
=

=456,7
3
3
1
3
3
X
x
n
i
i
n
=
=

= 422,5
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 32

2. Clculo de Suma Total de cuadrados
Turno Maana Turno Tarde Turno Noche
(430-453,88)
2
=570,25 (460-453,88)
2
=37,45 (410-453,88)
2
=1.925,45
(470-453,88)
2
=259,85 (420-453,88)
2
=1.147,85 (420-453,88)
2
=1.147,85
(520-453,88)
2
=4.371,85 (410-453,88)
2
=1.925,45 (395-453,88)
2
=3.466,85
(480-453,88)
2
=682,25 (510-453,88)
2
=3.149,45 (440-453,88)
2
=192,65
(475-453,88)
2
=446,05 (480-453,88)
2
=682,25 (410-453,88)
2
=1.925,45
(520-453,88)
2
=4.371,85 (460-453,88)
2
=37,45 (460-453,88)
2
=37,45
Total Maana
=10.702,10
Total Tarde= 6.979,90 Total Noche = 8.695,70
stc = 10.702,1+ 6.979,9 + 8.695,7=26.377,7

3. Clculo de Suma de cuadrados entre grupos
sce
j
j
j
g
n
X
X
=
=

1
2
( )
= 6(482,5-453,88)
2
+6(456,7-453,88)
2
+6(422,5-
453,88)
2
=10.870,5

4. Clculo de Suma de cuadrados intra- grupos

Turno Maana Turno Tarde Turno Noche
(430-482,5)
2
= 2.756,25 (460-456,7)
2
=10,89 (410-422,5)
2
=156,25
(470-482,5)
2
= 156,25 (420-456,7)
2
=1.346,89 (420-422,5)
2
=6,25
(520-482,5)
2
= 1.406,25 (410-456,7)
2
=2.180,89 (395-422,5)
2
=756,25
(480-482,5)
2
= 6,25 (510-456,7)
2
=2.840,89 (440-422,5)
2
=306,25
(475-482,5)
2
= 56,25 (480-456,7)
2
=542,89 (410-422,5)
2
=156,25
(520-482,5)
2
= 1.406,25 (460-456,7)
2
=10,89 (460-422,5)
2
=1.406,25
Total Maana = 5.787,5 Total Tarde= 6.933,34 Total Noche = 2.787,5

sci
ij
j
n
x
X
i j
g j
=

= =
2
1 1
( ) =5.787,5+6.933,34+2.787,5=15.508,34
stc = sce + sci = 10.870,5+15,508,34= 26.378,84

5. Test de Fisher o distribucin F
( , ) gl gl
E
I
F
S
S
1 2
2
2
= =
sce
g l e
sci
g l i
. .
. .
=
sce
g
sci
n g

1
>F
o

( , ) gl gl
E
I
F
S
S
1 2
2
2
= =
10870 5
3 1
15508 34
18 3
. ,
. ,

=5,25 > 3,68 (para o = 0,5, g.l.e.=2 y g.l.i.=15)


por lo cual se rechaza Ho

* * * A N A L Y S I S O F V A R I A N C E * * *

VIDA vida til de piezas alumnio
by TURNO Turnos de fabricacin
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 33


UNIQUE sums of squares
All effects entered simultaneously

Sum of Mean Sig
Source of Variation Squares DF Square F of F

Main Effects 10869,444 2 5434,722 5,257 ,019
TURNO 10869,444 2 5434,722 5,257 ,019
Explained 10869,444 2 5434,722 5,257 ,019

Residual 15508,333 15 1033,889

Total 26377,778 17 1551,634


4.2.Anlisis de la Varianza Simple segn la Regresin Lineal

Ejemplo N 1 Anlisis de la Varianza de Regresin Lineal Simple
(Ver Prctica N 7)


4.3.Anlisis de la Varianza Doble con dos Factores e Interaccin

Ejemplo N 2 Experimentacin Comercial
(Ver Prctica N 7)




Base datos : Tterreno.sav
Encuesta sobre vehculos todoterreno tomados de la revista Gua del automvil acerca de 125
tipos de vehculos diferentes.

EJEMPLOS DE MODELOS ANOVA

One way ANOVA Variable dependiente
Factor
CONSURB
CILINDRO (2,4 y 6 cilindros)
ANOVA- MGL 1 Variable dependiente
Factor 1 de efectos fijos
Factor 2 de efectos fijos
Interaccin Factor 1 x Factor 2
Covariante
CONSURB
CILINDRO (4, 6 y 8 cilindros)
CC (3 niveles de cubicaje)
CILINDRO x CC
PESO
ANOVA- MGL 2 Variable dependiente
Factor 1 de efectos fijos
Factor 2 de efectos fijos
Covariante
Posibilidad de disear modelo a medida
CONSURB
CILINDRO (4, 6 y 8 cilindros)
CC (3 niveles de cubicaje)
PESO
MANOVA- MGL 3 Variable dependiente 1
Variable dependiente 2
Variable dependiente 3
Factor 1 de efectos fijos
Factor 2 de efectos fijos
Interaccin Factor 1 x Factor 2
CONSURB
VELOCIDA
ACELERAC
CILINDRO (4, 6 y 8 cilindros)
CC (3 niveles de cubicaje)
CILINDRO x CC
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 34

Covariante PESO

Descomposicin de la varianza
stc = sce + sci
stc=scfa+scfb+scfab+scerrores
sce= scfa+scfb+scfab
donde:
sci=suma cuadrados errores o suma cuadrads intragrupos
sce=suma cuadrados entre grupos

Fuentes
variacin
SC gl CM F Sig.
sce
sci
stc

Fuentes
variacin
SC gl CM F Sig.
scfa
scfb
scab

sc errores
stc

Fuentes
variacin
SC gl CM F Sig.
Covariantes
Efectos
Principales
Factor a
Factor b

Interaccin
Modelo
Error (residual)








Definicin de los Modelos ANOVA en el tratamiento de datos con SPSS

a) Modelo, se define la forma de desagregacin de las fuentes de variacin a la medida del investigador.
Por defecto se calcula la de tipo de III (ver anexo de prcticas).

Full factorial, tiene en cuenta todos los efectos de los factores, de las covariantes y de las interacciones
entre los factores (no entre estos y las covariantes).

Personalizado, permite construir los trminos que intervendrn en el anlisis, los tipos de factores que
se incluirn (fijos y aleatorios), el orden de las interacciones (5 como max.) y entre factores que se
desea incluir en el anlisis.

Ejemplo de descomposicin de la stc
Sean: De la base de datos Terreno.sav
<<A>> el factor cilindro con <<a>> niveles.
<<B>> el factor CC
bis
con <<b>> niveles.
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 35

<<N>> el tamao de l muestra.

Fuentes Suma de
cuadrados
Grados
libertad
Cuadrados
medios
F Sig
Covariantes PESO 128,420 1 128,420 33,725 0,00
Efectos principales 218,539 3 72,846 19,131 0,00
CILINDRO 147,195 1 147,195 38,656 0,00
CCBIS 71,344 2 35,672 9,368 0,00
CILINDRO*CCBIS 36,446 2 18,223 4,786 0,10
Modelo 383,405 6 63,901 16,781 0,00
Residual 403,632 106 3,808
Total 878,036 112 7,027

Suma de cuadrado
La suma de cuadrados total (variabilidad total de los datos) con un valor de 787,038 se componen en
dos partes:
La S.C. del modelo = 383,405
La S.C. residual = 403,632

A su vez, la S.C. del modelo (383,405) se descompone en:
La S.C. de la covariante =128,420
La S.C. de os efectos principales=218,539
La S.C. de la interaccin=36,446

A su vez y finalmente la S.C. de los efectos principales se descompone en:
La S.C. del factor cilindro=147,195
La S.C. del factor CC bis=71,344

Grados de libertad
Covariantes= 1 grado de libertad
Efectos principales= Suma de cuadrados de los factores (1+2 = 3 )
Factor A (Cilindro) = (a-1)= 2-1 =1.
Factor B (CC
bis
)=(b-1)=3-1=2.
Interaccin AxB = (a-1)(b-1) = 1 x 2 = 2.
Modelo =Suma de covariantes+ factores+ interacciones = 1+1+2+3=6.
Residual = Grados de libertad totales = grados de libertad del modelo= 112-6=106.
Total = N-1=113-1=112

b) Contrastes, se trata de averiguar que niveles(categoras) de los factores resultan significativos a la hora
de explicar la variable dependiente.
c) Grficos de perfiles, permite visualizar la posible interaccin entre los factores o la ausencia de
interaccin (en cuyo caso las lneas son paralelas)
d) Anlisis Post-hoc, se realiza una mltiple comparacin para las medias observadas
e) Guardar, genera en la base de datos 8 nuevas columnas (variables) de datos.

4.3 Anlisis de la Varianza segn al regresin Lineal

4.3.1 Conceptos clave

Asociacin .- Es la relacin en el comportamiento de dos variables. Puede reflejar una correlacin
casual o por el contrario causal, en la que una o varias variables son explicadas por una o varias
variables independientes.

Correlacin.- Es la asociacin entre las variaciones de los valores de dos variables.
Puede ser positiva (directa) o negativa (inversa). Una medida de la misma es el
coeficiente de correlacin lineal de Pearson r cuyos valores oscilan entre [-1, 1].
Algunos coeficientes y sus test

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 36

R de Pearson
S S
y
x
y x
i
i
n
Y X
r
) 1 (
) )( (


Ho: r=0 No existe correlacin
Ha: r=0 Existe correlacin
r
n
r t
2
1
2

=

Bilateral
g.l.= n-2
e [-1, 1]
Tb de Kendall
) ( ) (
T T y x
b
Q P Q P
Q P
+ + + +

=
t

Es una medida de la
correlacin para datos
ordinales (basada en la
ordenacin del rengo de los
valores de las variables)
P = Coincidencias
Q = Divergencias
Tx =pares empatados X
Ty = pares empatados Y
e [-1, 1]
R de Spearman
) 1 (
6
2
2

=

n
D
n
r
i

Se utiliza para datos ordinales
o de intervalo que no
satisfacen la condicin de
normalidad. Cabe esperar
valores y signo de la relacin
muy parecidos al de Pearson
D = Diferencias entre los grados
de los valores de X e Y.
Grados= se refiere a las
diferencias que se producen
entre los rangos de orden de
cada variable.


e [-1, 1]

Correlacin parcial.- Es igual a la correlacin bivariada pero ajustada a los efectos
lineales que sobre la misma puedan tener una o ms variables (relaciones espureas
o latentes entre variables).

Ejemplo.- De la base de datos Terreno.sav (puede obtenerla en
http://web.usal.es/edwin)

Si PVP ( Precio de venta al pblico de los automviles ) depende del CONSURB
(consumo urbano de gasolina)
r= 0,514
p=0,000 ( Existe correlacin entre ....)

Pero si se considera la POTENCIA del automvil, los resultados con ayuda de la
correlacin parcial sern:
r= -0,1647
p= 0, 076 ( No existe correlacin entre ....)

Conclusin: La POTENCIA determina que entre el PVP y CONSURB exista una
relacin positiva y significativa.

Causalidad.- Es aquella relacin entre dos o ms variables en las que un cambio
en una de ellas produce un cambio en la otra (variable independiente o explicativa).
Condiciones de la existencia de causa-efecto:
1.- Variacin concomitante.- Supone asociacin o variacin conjunta entre variable
causa y variable efecto


2.- Orden temporal de las variaciones .- La causa del acontecimiento debe
preceder a su ocurrencia
3.- Control sobre otros posibles factores causales.- se trata de detectar posibles
correlaciones espurias (casuales)

Variable Causa Variable Efecto
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 37

Y Y
- Accidental, por ejemplo la venta de pltanos y la venta de bicicletas pueden estar
correlacionadas
- Efecto de terceras variables, por ejemplo la correlacin negativa entre Accidentes
de trfico y mujeres conductoras. Aparentemente las mujeres conducen con ms
prudencia,. Si se introduce el Nmero de kilmetros recorridos se comprueba
que el sexo no ejerce influencia negativa en el nmero de accidentes. Adems las
mujeres recorren menos kilmetros que los hombres

4.3.2. Regresin Lineal

La regresin lineal estudia la relacin entre dos o ms variables, una dependiente y otra o varias
independientes. La correlacin mide la intensidad de la relacin de asociacin entre dos variables.

Caractersticas
- Tiene un carcter predictivo y desarrolla un modelo para el cual los valores de la
variable dependiente podrn ser predichos por los valores de una o varias variables
independientes.

Y = b
o
+ b
1
X
1
+ b
2
X
2
+.....+ b
n
X
n
+ e
b
i
= Parmetro X
i

b
o
= Constante
e = error del modelo


- Su forma ms simple es la regresin lineal simple cuya ecuacin es:

Y = b
o
+ b
1
X
1




Descomposicin de la varianza
. . .
. . .
.
.
. . . .
.. . . .
. . . . .. .
.
. . .
.. . .
. . . . . . . ..
.. . . .
. . . . .. .
.
. . .
.. . .
. . . . . . . ..
.. . . .
X
X
Y
SCE
SCR
y
c

y
o

X
X
1

X
2

X
n

....
Y
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 38

Error explicado = Error Factorial o de Regresin = SCR =

) (
2
Y y
c

Error No explicado = Error residual = SCE =

) (
2
y y
c

Error Total de Previsiones = STC =

) (
2
Y y




Contrastes e ndices

R
2
o Coeficiente de Determinacin, equivale a la varianza explicada por la
regresin dividida por la varianza total

R
2
=
STC
SCR


El Test F Snedecor, mide el grado de Prediccin del modelo

R
2
= F

Parmetro b
1
es la derivada de la recta de regresin, el mismo coeficiente
normalizado (estandarizado) a nivel de la poblacin se denomina |
1


|
1
=
) (
) (
1
y
x
b
i
i
S
S

2
) (
) (

=

n
X
S
x
x
i
i
2
) (
) (


=

n
Y
S
y
y
i
i


Test de los coeficientes o parmetros

Ho: b
1
= K
o

Ha: b
1
= K
o



Ho: b
0
= K
o

Ha: b
0
= K
o



Intervalo de Coeficientes




Prediccin de la variable dependiente y

S t
y
R o

0


STC = SCR + SCE
) (
1
0 1
b
k b
t
S
c

=
) (
0
0 0
b
k b
t
S
c

=
) (
1 1 b t b
S
o

) (
0 0 b t b
S
o

S
X
x
S S
x
x R
n
i
n
2
2
) 1 (
1 ) (

+ =

Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 39





Cuadro ANOVA
Se utiliza en la regresin lineal para contrastar la Ho de dependencia lineal entre la variable
dependiente y las variables independientes. La varianza total se divide en: uno atribuido al modelo de
regresin (SCR) y el otro se considera residuo no explicado por el modelo.

Mulicolinealidad
Las variables explicativas estn altamente correlacionadas entre s, lo que perturba la interpretacin
de los coeficientes de regresin estimados y sus errores estndar.


4.4 Anlisis Multivariable de la Varianza (MANOVA)

Es la extensin del Anlisis de la Varianza para el caso de ms de una variable
dependiente (MANOVA).

Se utiliza para comprobar si existen diferencias significativas entre varios factores,
cada uno de ellos con diversos grupos (niveles). En base a un conjunto de variables
dependientes.

Se distinguen tres tipos de variables:

Variables dependientes, son continuas, generalmente como resultado de una
medicin.
Factores, variables categricas (nominales) que funcionan como variables
independientes de agrupamiento o clasificacin.
Covariantes, variables continuas que pueden influir en el resultado y que interesa
controlar (opcionales en un diseo MANOVA).

Condiciones Previas:

1. Anlisis de los efectos de todos los factores y sus interacciones sobre las variables
dependientes.
2. Anlisis efectos principales de cada variable Independiente sobre el conjunto de
variables dependientes.
3. ANOVA para medir el efecto de los factores y su interaccin sobre cada variable
dependiente.
4. ANOVA unidireccional , para medir el efecto de cada variable independientemente
por separado sobre el conjunto de variables dependientes por separado.


1
1 0
) (
2
2


n
i
i
x b b
y
S
Factores Variables
Dependientes
F1 V
1
Tcnicas de Investigacin de los Mercados Internacionales Anlisis de la Varianza
II
Diplomatura en Ciencias Empresariales Tercer Curso 40

Test Multivariables

Se basan en la medicin de dos criterios: Potencia y robustez.

Potencia, es la capacidad que tiene una prueba para rechazar la hiptesis.
Robustez, es la estabilidad para no verse afectada por el no cumplimiento de
los supuestos paramtricos.

- Lambda de Wilkinson :
[
=
+
=
n
i
i
W
1
1
1


- Test Hotelling :

=
=
n
i
i x
H
1


-Traza de Pillai:

+
=
i
P
1
1

- Test de Roy:
i
R
+
=
1
1


En un MANOVA con una sola variable dependiente, las cuatro pruebas equivaldran a la
prueba F de un ANOVA.

En el caso de dos grupos en las variables independientes con mltiples variables
dependientes , todas las partes equivaldran a la T de Hoteling.

La prueba de los efectos principales consiste en analizar cada una delas variables
independientes por separado, as como la interaccin entre ellas


Test Homogeneidad de Varianzas

Se efecta mediante dos pruebas:

Test de Cochrans C, contrasta la Ho que no existe diferencias entre las varianzas
de cada grupo, para cada variable independiente o factor.
Test Boxs M, basado en el determinante de la Matriz de Varianzas Covarianzas en
cada celda es tan bueno como la matriz Varianza-Covarianza proveniente del test
multivariable para homogeneidad de matrices. El test es muy sensible al supuesto
de Normalidad.





Tema 3 El muestreo: conceptos

Diplomatura en Ciencias Empresariales Tercer Curso 41



Puntos de fila y columna
Dimensin 1
,6 ,4 ,2 -,0 -,2 -,4 -,6
D
i
m
e
n
s
i

n

2

,4
,2
-,0
-,2
-,4
-,6
Ctricos
Juguete
Textil
Azulejo
Calzado
Muebles
H
G
D
A
B
C
E

Anlisis Factorial de Correspondencias (AFC)

Este mtodo ha sido diseado para analizar tablas
de contingencia y de frecuencias. Se aplica
cuando dos conjuntos se encuentran relacionados

Objetivo del anlisis
Buscar una representacin simplificada de las
relaciones entre las lneas (p.e. marcas), entre
columnas (p.e. caractersticas) y entre filas y
columnas.

Particularidades del AFC
Las cifras de las tablas son nmeros positivos
Las filas y las columnas juegan el mismo papel
Estudia las semejanzas entre filas si sus perfiles o porcentajes/ fila son semejantes. Lo mismo puede decirse entre
columnas.

Los resultados del Anlisis Factorial de Correspondencias (AFC)

El AFC proporciona distintos resultados, pero lo que ms nos va a interesar son los tipos de grficos. Existen varias
alternativas que permiten obtener resultados sensiblemente diferentes. Si bien no sern diferentes los valores singulares
ni las inercias de las dimensiones, si se producirn cambios en la puntuaciones de los distintos perfiles en las
dimensiones. Cuando se pretende dar mayor prioridad a la variable de las filas, se debe optar por una normalizacin
tipo Rprincipal, cuando la prioridad es la variable de las columnas, la normalizacin debe ser Cprincipal, si se quiere
dar el mismo tipo de importancias a ambas (variables fila y columna), la normalizacin adecuada es la Cannica. Existe
la posibilidad de definir la opcin de normalizacin a la carta, que se define por una cifra comprendida entre 2 y 2,
siendo 0 equivalente a Cannica, 1 a Rprincipal y 1 a Cprincipal.

La inercia
La calidad de los factores viene expresada por la inercia explicada por cada dimensin, y sta supone la cantidad de
informacin explicada por dicho factor.

Interpretacin de los grficos
Los puntos (filas o columnas) que se encuentran cerca del origen de una representacin grfica de AFC son puntos
cuyos perfiles se asemejan a o los esperados o promedio, e influyen poco en la dimensin.

Aquellos puntos que se encuentren ms alejados del origen, tendrn por ello un comportamiento ms diferente a los
dems, se deber observar de forma complemtaria cul es su contribucin a la dimensin y como est explicado por la
dimensin.

La proximidad entre puntos, debe tratarse con cuidado. Se debe analizar los puntos fila y los puntos columna por
separado. La proximidad entre dos puntos o
perfiles fila, significa que presentan perfiles
semejantes. Lo mismo se puede aplicar a los
puntos columna.

Interpretacin de puntos fila y columna en las
grficas
No se puede interpretar la proximidad entre un
punto fila y otro columna, ya que ambos est
representados en espacios diferentes, si
podemos analizar la proximidad entre un punto
fila y todos los puntos columna o viceversa. Esto
se logra a travs del trazado de una recta que
pase por el origen y por el punto a analizar, luego
se trazan las proyecciones sobre esta lnea de
todos los perfiles a comparar, de forma que stas
proyecciones sean perpendiculares al eje
horizontal.

La semejanza entre un perfil fila un perfil columna
se puede medir a travs del coseno del ngulo
que forman con el origen, por lo que, no se debe
interpretar la proximidad fsica de un punto fila y
otro columna, salvo que se tenga en cuenta el coseno de ambos del ngulo que forman con el origen. Debe realizarse
un anlisis radial

O
1
O
j
... O
j
... O
p

O
1


...
O
i


nij

...
O
n


Tema 3 Anlisis de la informacin

Diplomatura en Ciencias Empresariales Tercer Curso 42

de las representaciones grficas.

1 Ejemplo de interpretacin

Del ejercicio de la Prctica N 8 de AFC, donde se estudia la relacin entre mtodos de acceso a los mercados
exteriores y los sectores econmicos a los cuales pertenecen, vamos a tomar juntar en una misma grfica los puntos fila
y columna de las dimensiones 1 y 2 (74 % de la inercia total de la nube de puntos).

La dimensin 1 presenta como totalmente opuestos al perfil H y D al C y E. Con respecto a los sectores e actividad, se
encuentran alejados del origen en la parte negativa el sector del mueble y ctricos frente a la parte positiva donde
destacan textil, calzado y azulejo. La parte positiva agrupa los mtodos de acceso que nos permiten un mayor control
sobre la distribucin final del producto en el mercado de destino, frente a la parte negativa en la que los mtodos de
acceso tienen en comn una posicin de menor poder negociados en el pas de destino. En la dimensin 2, se observa
que el mtodo de acceso basado en joint ventures se diferencia ampliamnte eb la parte negativa por oposicin a la
alternativa de otros en la parte positiva (H). Parece que los mtodos basados en recursos propios o locales identifican a
la parte positiva, frente a la negativa que usan mtodos que utlizan recursos disponible en el pas de destino. El plano
nos ilustra la semejanza entre los sectores calzado y textil que se relacin con a utilizar mtodos de acceso a los
mercados exteriores.

Los vectores se logran partiendo de las 12 (como si se tratara de un reloj) y recorriendo en sentido horario. El primer
vector relaciona al sector A y el sector azulejos. El segundo vector nos muestra la relacin entre E y el sector textil. El
tercer vector ilustra la relacin entre joint ventures y el sector juguetes. El 4 vector la relacin entre el sector ctricos y
las empresas importadores del pas destino y por ltimo la semejanza entre el sector mueble y otras formas (H).

2 Ejemplo de interpretacin

Se desea obtener el posicionamiento de veinte marcas de vinos. Se ofrece a una muestra de consumidores, que
degusten los vinos de acuerdo a su opinin sobre tres caractersticas (atributos) que diferencian a los vinos entre s:

Calidad: ordinaria (CORD), media(CMED), superior(CSUP), extra(CEXT)
Gusto: malo(GMAL), medio(GMED), bastante(GBAS), mucho(GMUC)
Precio: barato(BARA), medio(PMED), caro(PCAR), muy caro(MCAR)

Los resultados se muestran en la fotocopia proporcionada en clase (pginas 118 y119). Interprete los resultados para el
primer factor, para el segundo y para el plano.

Anlisis de Correspondencias Mltiples (AMC)

Es un mtodo diseado para analizar tablas de modalidades (tablas que describen un conjunto de
individuos a travs de variables cualitativas o nominales, Individuos x variables).

El ACM es una generalizacin del AFC (que estudia las relaciones entre las modalidades de dos variables o tablas de
contingencia). El ACM estudia las relaciones entre las modalidades de un conjunto de variables.

Como todo mtodo factorial, el ACM obtiene representaciones grficas (variables). Tambin se pueden representar
los individuos.

La interpretacin del ACM es semejante a la del AFC con algunas peculiaridades (Tablas disyuntivas completas)

Individuos VAR 1 VAR 2 VAR3 SEXO
1 1 2 2 1
2 2 1 3 2
... ... ... ... ...
... ... ... ... ...

Ejemplo de cuestionario aplicado al ACM.- Un estudio recoge las respuestas a las siguientes preguntas:

VAR 1 Ve los telediarios? VAR 2 Ve pelculas?
Habitualmente Habitualmente
Espordicamente Espordicamente
Nuca Nuca

VAR 3 Ve documentales? SEXO
Habitualmente Hombres
Espordicamente Mujeres
Nuca

Otras aplicaciones y tcnicas de anlisis de datos en Inv. Comercial
Tema 3 Anlisis de la informacin

Diplomatura en Ciencias Empresariales Tercer Curso 43

Nmero de
encuestados que
asocia los
productos a las
usos del producto
Suma de calificaciones
asignadas por el conj. de
personas a un producto,
en esa calidad
Nmero de encuestados
que asocia los nombres
de las marcas a los
atributos.
Ventas de los
productos para
cada uno de los
aos.
Nmero de
encuestados que
asocia la
mercanca a las
caractersticas

Aplicaciones del AFC al Marketing

1. Imagen de marcas concurrentes

Marcas Calidad Propia Comercializacin

Caractersticas
consumidores
Atrib1 Atrib2, etc Publicidad, ventas super, etc. Para nios, familia, etc.
M1
M2
M3
M4
... Kij
Mn

2. Posicionamiento de productos

Tipos de consumo
Marcas Desayuno Comida

Cena .... L
PRODUCTO1
PRODUCTO2
PRODUCTO3 Kij
...
PRODUCTOn

3. Tablas de notaciones (intensidad de la calidad)

Productos
Calidades P1 P2

P3 .... PL
CALIDAD1
CALIDAD2
CALIDAD3 Kij
...
CALIDADn

4. Tablas de contingencia puras (nombre de marca)

Permite obtener una Visin grfica de las caractersticas que transmiten los nombres de las marcas

Caractersticas
Marcas Atrib1 Atrib2 Atrib23 .... L
M1
M2
M3 Kij
M4
...

5. Series cronolgicas

Permite obtener una Visin global de la evolucin de las ventas en su importancia dentro del conjunto de
las ventas de la empresa .

Productos
Marcas Producto1 Producto2 Producto3 .... L
1989
1990
1991 Kij
1992
...

6. Otras tcnicas del anlisis de datos en la investigacin comercial

Tema 3 Anlisis de la informacin

Diplomatura en Ciencias Empresariales Tercer Curso 44

Los mtodos multivariantes suelen clasificarse en mtodos de dependencia y en mtodos de
interdependencia. Los ms utilizados, adems de los mtodos factoriales vistos, son:

Mtodos de interdependencia Anlisis cluster
Anlisis multidimensional

Mtodos de dependencia Anlisis discriminantes
Anlisis Conjunto

6.1 Anlisis cluster (Anlisis de clasificacin)

Es un conjunto de mtodos que obtienen grupos de objetos o de individuos semejantes de acuerdo a
algn criterios. Los objetos estn descritos por cierto nmero de variables o caractersticas.

Tiene como objetivo clasificar a la poblacin objeto de estudio en un nmero menor de grupos
mutuamente excluyentes y exhaustivos basndose en la similaridad de las variables usadas para definir
las observaciones.

Aplicaciones en Investigacin comercial:
Encontrar marcas semejantes o competidoras
Grupos de consumidores semejantes, a travs de variables como estilos de vida, ventajas
buscadas, etc. Que forman los segmentos del mercado.

Decisiones del investigador .- La primera es decidir el criterio de agrupacin (medicin de las
distancias: similaridades o disimilaridades) y la segunda est referida a los mtodos de agregacin.


Mtodos de
agregacin
Jerrquicos
Ofrecen un conjunto de particiones que van desde un grupo x observacin
hasta la inclusin de todas las observaciones.
No Jerrquicos
Partitivos o de optimizacin, parten de la existencia de un nmero
determinados de grupos, en los que se clasificarn las observaciones
mediante un proceso de optimizacin.

Mtodos Jerrquicos Mtodos No Jerrquicos
M. de las distancias mnimas M. de reasignacin (K-means, Quick cluster)
M. de las distancias mximas M. de densidad
M. del promedio entre grupos M. directos
M. De la media ponderada M. de reducciones de dimensiones
M. del centroide (momento)

M. de la mediana

M. de word


Ejemplo .- Se tienen cuatro marcas de coches y dos caractersticas de medicin (atributos):
prestaciones y equipamiento (medidos en escala de likert):

Marcas Prestaciones Equipamiento
A 1 4
B 5 4
C 1 3
D 2 1

Se pide .-Formar grupos de marcas semejantes de acuerdo a los atributos.

Solucin
1 etapa, clculo de las distancias ente marcas (distancias euclidianas)

d
2
(AB) = d
2
(BA) = d
2
(12)= (1-5)
2
+(4-4)
2
= 16

Los elementos ms prximos son A y C, por lo tanto, los grupos 1 y
3 forman el nuevo grupo 5.


2 etapa, clculo de las nuevas distancias incluyendo el nuevo grupo 5 y eliminando los grupos 1 y 3.
Marcas Grupos 1 2 3 4
A 1 0 16 1 10
B 2 16 0 17 18
C 3 1 17 0 5
D 4 10 18 5 0
Medias o medianas
Tema 3 Anlisis de la informacin

Diplomatura en Ciencias Empresariales Tercer Curso 45

(5)
(7)

Mtodo del salto mnimo: d
2
(5 2)= min { d
2
(1 2) , d
2
(3 2)} = min {16, 17 } =16

Grupos 5 2 4
5 0 16 5
2 16 0 18
4 5 18 0

Los elementos ms prximos son el 4 y el 5, forman el grupo 6.

3 etapa, Iteraciones (ltima etapa), clculo de las siguientes distancias entre grupos:

Grupos 6 2
6 0 16
2 16 0

d
2
(6 2)= min { d
2
(4 2) , d
2
(5 2)} = min {18, 16 } =16

Las particiones formadas en cada agregacin sern: dos clases {A,C,D} y {B} ; tres clases {A,C} , {D} y
{B} . No existe un procedimiento para determinar el nmero de grupos a formar, se recomienda: seguir
criterios pragmticos y manteniendo grupos interpretables

Dendograma (jerarquizacin)













6.1 Anlisis multidimensional No mtrico (AMN)

Es un conjunto de mtodos que permiten posicionar objetos (marcas, productos o empresas) sobre un
grfico, tal como hacen los mtodos factoriales. El AMN parte de datos de orden (semejanzas o
preferencias). El ANM, a partir de datos de orden, posiciona los objetos sobre un espacio de pequea
dimensin. Se diferencia de los mtodos factoriales porque el entrevistado evala los objetos
(caractersticas, atributos, etc.) de forma global sin detallarlos (incluso de forma inconsciente).

Aplicaciones en inv. Comercial
El ANM es til en los estudios de lanzamiento de nuevos productos, permiten ver el posicionamiento de
la competencia y la distancia de cada producto al ideal del consumidor. Permiten detectar
caractersticas mejorables. Se aplica a estudios de imagen, posicionamiento y especialmente en
segmentacin por ventajas buscadas.

Tipos de ANM
Se distinguen dos clases de anlisis: de proximidades y de preferencias. Ambos parten de un conjunto
de n objetos como marcas, producto, empresas, etc. Sobre el que se dispone de informacin acerca
de: similaridades o disimilitudes (A. de proximidades) y Orden de preferencias (A. de preferencias).

Acerca de los resultados
A

C

D

B

1 5 10 15
(6)
16
Tema 3 Anlisis de la informacin

Diplomatura en Ciencias Empresariales Tercer Curso 46

Existen mtodos de obtencin de informacin para el caso de preferencias o similitudes: jerarqua del
grado similitud/preferencia, mtodo del pivote, etc.

En las representaciones, se parte de la tabla de entrada con las semejanzas o preferencias y mediante el programa
estadstico se obtienen grficos de representacin, al cual ser analizado.

Вам также может понравиться