You are on page 1of 35

Anexos N02

Actividad cuyo propósito es proponer a los participantes un trabajo grupal en


torno a un tópico específico, crea un entorno muy propicio para compartir sus
conocimientos con los demás compañeros de taller y fomentar el aprendizaje. A
diferencia de un curso que consta de varias jornadas, este se desarrolla en una
sola sesión que suele durar entre dos y cuatro horas

Taller Práctico De la
Observación a la Tabla de
Investigación. Preparación
de los Datos
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

INDICE
ANEXO 3 PROCEDIMIENTOS DE TRANSFORMACIÓN CON
HERRAMIENTAS

a. Ordenar variables 2

b. Ordenar casos 3

c. Seleccionar casos 4

d. Segmentar archivo 6

e. Imputación de un valor perdido -

f. Ponderar casos 8

g. Comprobar la existencia de outliers o atípicos 10

h. Agregar. Tablas dinámicas 15

i. Reestructurar 24

j. Fusionar archivos -

k. Transformación de variables 27

CESARI 2018 Página 1


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

ANEXO 3
PROCEDIMIENTOS DE TRANSFORMACIÓN CON HERRAMIENTAS
La tarea de transformación de los datos está destinada a adaptar los datos a las
necesidades del análisis donde se requiere modificarlos, para realizar correcciones y
cambios en la información existente inicialmente, ya sea en relación a las variables de un
archivo de datos o en relación al tratamiento de varios de ellos, o para generar nuevas
variables basadas en las existentes: agrupaciones, tipologías, índices, etc.

a. Ordenar variables
Desde la planilla de cálculo Excel. Menú Ordenar y Filtrar de la pestaña Datos puede
ordenar las variables de la matriz en función de los valores de cualquiera de los atributos
de variable del diccionario de los datos, de forma ascendente o descendente.

Nota: Es conveniente guardar el orden de las variables previo pues suele ser un criterio de
ordenación que no se corresponde con ninguno preestablecido y podría ser difícil
restaurarlo
En Excel no ayudamos de la opción de ordenación para ordenar tanto columnas como filas.
En opciones utilizamos la opción “de izquierda a derecha” para ordenar las variables; y “de
arriba hacia abajo” para ordenar las filas.

CESARI 2018 Página 2


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

b. Ordenar casos
Excel permite la reordenación de los casos del fichero activo según los valores
especificados en una o más variables (hasta 10), numéricas o alfanuméricas (cadena, para
éstas el orden es el alfabético). Los casos pueden ser reordenados en orden ascendente, por
defecto, o descendente.

Con la matriz de datos original en Excel, vemos que las observaciones están inicialmente
ordenados según el número del cuestionario (variable CUES). Como ejercicio podemos
ordenar el archivo según el lugar de la entrevista. Un primer criterio sería por ejemplo
ordenar el archivo según la Comunidad Autónoma (variable CCAA) en orden ascendente.
Obsérvense los cambios en el archivo de datos. Si queremos precisar más podemos poner
además de la variable CCAA, la variable de la provincia (PROV) y del municipio (TAMUN),
todas en orden ascendente.
En Excel no ayudamos de la opción de ordenación, pero en opciones elegimos ordenar “de
arriba abajo”, para ordenar las observaciones y elegimos los criterios.

CESARI 2018 Página 3


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

En R, el comando de ordenar
casos (menú Data / Sort)
permite la reordenación de los
casos del fichero activo según
los valores especificados en
una o más variables,
numéricas o alfanuméricas
(cadena, para éstas el orden es
el alfabético). Los casos
pueden ser reordenados en
orden ascendente, por defecto,
o descendente
Nota: La ordenación de un archivo de pequeñas dimensiones es instantánea pero con
archivos de millones de registros puede tardar minutos, en este sentido es muy útil tener la
base de datos ordenada según un criterio si se utiliza de forma habitual.

c. Seleccionar casos
A menudo, cuando trabajamos con una base de datos nos interesa obtener información
sobre los individuos que satisfacen determinadas condiciones. Nos puede interesar, por
ejemplo, estudiar diversas variables pero sólo para los individuos con determinadas
características: de sexo femenino, los que piensan votar, los que tienen un bajo nivel de
ingresos, etc.
El autofiltro de Excel, nos permite seleccionar las filas que satisfacen una determinada
condición de forma que, a partir de ese momento y mientras no deshacemos la selección,
todos los procedimientos que aplicamos harán referencia sólo a las observaciones
seleccionadas.

Este procedimiento se posibilita la selección a partir de un rango de casos y utilizar


variables filtro. En cualquiera de estos casos podemos optar por:
- Descartar filas no seleccionados: la selección implica que los datos son filtrados, es decir, los
casos filtrados permanecen en el archivo pero se excluyen del análisis y se pueden recuperar.
Habitualmente se trabaja de esta manera.
- Copiar filas seleccionados a un nuevo archivo de datos.
- Eliminar filas no seleccionados: se eliminan los casos no seleccionados del archivo activo (el de
la memoria temporal del sistema). El archivo original se mantiene en el disco, pero si después
de hacer la selección guardamos el archivo con el mismo nombre entonces perderemos
definitivamente los casos no seleccionados.
Como ejercicio podemos seleccionar los casos de las personas entrevistadas que son
“mujeres”. Seleccionamos variable del sexo (la P32). En Excel, con la ayuda del autofiltro
podemos filtrar y seleccionar un conjunto de observaciones.

CESARI 2018 Página 4


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Si ahora calculamos, por ejemplo, la tabla de frecuencias de una variable cualquiera, la


información obtenida se referirá sólo a las mujeres de nuestra base de datos. Es muy
importante que, una vez hayamos realizado el estudio que queríamos hacer con sólo una
parte de los individuos, nos acordemos de deshacer la selección para volver a trabajar con
el archivo completo. Si no lo hiciéramos estaríamos obteniendo informaciones erróneas.
Con Deducer podemos seleccionar el subconjunto de los individuos que satisfacen una
determinada condición de forma que se crea un objeto nuevo con los datos seleccionados,
un nuevo dataframe.
Construida la condición
podemos cambiar el nombre
(Subset Name) que por defecto
se asignará al objeto con los
datos de la selección. Clicaremos
sobre OK y se ejecutará, es decir,
dispondremos en el espacio de
trabajo de una nueva matriz con
la información de los casos que
corresponden a las mujeres y
que podemos visualizar desde el
visor de datos.

d.

CESARI 2018 Página 5


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

d. Segmentar archivo
Otra necesidad habitual en el tratamiento de los datos de un fichero es segmentarlo, es
decir, dividirlo en grupos de individuos según los valores de una o más variables de
agrupación para realizar un mismo tipo de análisis que se repetirá dentro de cada grupo.
Con Xlstat podemos realizar estadísticas básicas comparando grupos o muestras, a través
del módulo de Estadísticas Descriptivas.
Podemos solicitar, los descriptivos de las variables a
través del menú Estadísticos descriptivos dentro de
Descripción de Datos de la pestaña Xlstat; diversos
indicadores de las variables P902 a P906. Utilizamos la
variable de segmentación sexo (P32) marcadando la
opción sub muestras.

e. Imputación de un valor perdido


Podemos imputar datos perdidos con facilidad en Excel usando el algoritmo NIPALS con el
software XLSTAT (Tutorial online de Xlstat 1).
Puede descargar aquí (demo-missing.xls) una hoja de
cálculo Excel con los datos y resultados.
El fichero de datos contiene seis variables y seis
observaciones con seis valores perdidos.

Una vez abierto XLSTAT, seleccione el


comando XLSTAT / Preparación de datos / Datos
perdidos, o haga clic en el botón correspondiente del
menú Preparación de datos (ver más abajo).

1 https://help.xlstat.com/customer/es/portal/articles/2062415-imputaci%C3%B3n-de-datos-perdidos-en-excel-
usando-nipals-?b_id=9283
CESARI 2018 Página 6
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Después de hacer clic en el botón correspondiente, aparece el cuadro de diálogo.

Seleccione los datos que desea completar en el campo Datos (en nuestro caso, la tabla con
valores perdidos). El tipo de datos es Cuantitativos. Seleccione el método de imputación:
aquí usamos NIPALS. Active la opción Etiquetas de las observaciones y seleccione el nombre
de los coches. Tras hacer clic en el botón OK, se muestran los resultados en una nueva hoja.
Se muestran tablas con los estadísticos descriptivos (una tabla antes y otra después de la
imputación).

A continuación se muestran los datos completados.

Vemos en negrita los valores completados.

CESARI 2018 Página 7


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Podemos comparar esos valores con el valor real disponible en este conjunto de datos:

Podemos ver que los valores perdidos imputados son muy cercanos a los valores reales.
Por ejemplo, para el desplazamiento de Honda Civic, el valor real es 1396 y el valor
imputado es 1365.236. Si se hubiera utilizado un método de sustitución por la media, el
valor imputado habría sido 1781.4 que está muy alejado del valor obtenido con NIPALS.

f. Ponderar casos
Crear la variable de ponderación a través de la herramienta Xlstat.
Calibrar (‘raking’) los resultados generando pesos que hacen a la muestra más
representativa de la población (Tutorial online de Xlstat2).
Puede descargar aquí (demoRaking.xls) una hoja de cálculo
Excel con los datos y resultados.

Los datos corresponden a una encuesta hecha a 200 empleados de una empresa acerca su
satisfacción en el trabajo (datos simulados). Dos variables auxiliares se incluyeron en la
encuesta: el género (1: hombre, 2: mujer) y la edad (1:45). Conocemos las proporciones de
estas variables en la compañía completa (totales de control marginales). Hay 10000
empleados en esta empresa.
En la columna Sat, se puede encontrar una puntuación de satisfacción que no usaremos en
esta etapa del análisis. Estamos interesados en encontrar los pesos de calibración (‘raking
weights’) que se pueden aplicar a nuestra muestra que cumplimentó la encuesta con el fin
de obtener proporciones similares para las modalidades de las variables auxiliares, tanto
en la muestra usada para la encuesta como en la población [Deming y Stephan, 19403].

Tras abrir XLSTAT, haga clic en el botón Preparación


de datos y seleccione Calibración de encuestas (ver
más abajo).

2
https://help.xlstat.com/customer/es/portal/articles/2062302-equilibrar-raking-una-muestra-de-encuesta
3
Stephan, F. F., Deming, W. E., & Hansen, M. H. (1940). The sampling procedure of the 1940 population census.
Journal of the American Statistical Association, 35(212), 615-630.
CESARI 2018 Página 8
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Tras hacer clic en el botón, aparece el cuadro de diálogo. Seleccione los datos en la hoja de
Excel. Solo necesitará las variables auxiliares (género y edad).

Los totales de control marginales han sido seleccionados todos juntos en el mismo orden
que los datos a equilibrar (una columna por cada variable, una fila por cada modalidad).
Cada columna tiene que sumar el mismo valor (aquí, 10000).
Puesto que hemos seleccionado el título de la columna, activamos la opción Etiquetas de las
variables.

En la pestaña Opciones,
seleccionamos Raking
ratio como método de
estimación.

Tras hacer clic en el botón OK, comienza el cálculo y se mostrarán los resultados.
Interpretación de los resultados de la calibración de una encuesta
El primer resultado mostrado por XLSTAT son los estadísticos básicos asociados con las
variables auxiliares antes del raking (calibración).

CESARI 2018 Página 9


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

A continuación, la segunda tabla contiene los pesos finales para cada observación, las
variables auxiliares iniciales y las razones de los pesos (i.e., pesos finales / pesos iniciales)
(véase más abajo el resultado correspondiente a las observaciones 1 a 13).

Seguidamente, se muestran los estadísticos básicos después del equilibrado. Vemos que
usando los pesos obtenidos, los estadísticos son iguales en la muestra que contestó a la
encuesta que en la población.

Hemos obtenido pesos finales que están adaptados y pueden usarse en ulteriores análisis
de la satisfacción de los empleados.

g. Comprobar la existencia de outliers (Tutorial online de Xlstat4)


Prueba de Dixon para detectar outliers e interpretar los resultados
en Excel utilizando XLSTAT.
La literatura proporciona aproximaciones más o menos precisas del valor crítico más allá
del cual, para un nivel de significancia dado a, no podemos mantener la hipótesis nula. Sin
embargo, XLSTAT proporciona una aproximación de los valores críticos basados en las
simulaciones de Monte Carlo. El número de estas aproximaciones se establece de forma
predeterminada en 1000000, lo que proporciona más confiabilidad que las proporcionadas
en los artículos históricos. XLSTAT también proporciona sobre la base de estas
simulaciones, un valor de p y la conclusión de la prueba en función del nivel de
significación elegido por el usuario.
Puede descargar una hoja de Excel con los datos y resultados haciendo clic aquí
(demoDixon.xls). Los datos se han obtenido de una distribución normal con media 0 y
varianza 3. Se ha añadido un outlier. Deseamos probar si hay un outlier en la muestra.

4
https://help.xlstat.com/customer/es/portal/topics/824706-pruebas-para-valores-at%C3%ADpicos?b_id=9283
CESARI 2018 Página 10
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Para comenzar la
prueba de Dixon,
vaya al
menú Pruebas
para valores
atípicos / Prueba
de Dixon para
valores atípicos.

En la pestaña General,
seleccione los datos y
la opción Automático.

Como hipótesis alternativa, elija la opción bilateral. El nivel de significación por defecto se
deja establecido en el 5%. El valor p se obtiene mediante una aproximación de simulación
Monte Carlo. Elegimos usar 1000000 de simulaciones.

Hacemos clic en OK.

CESARI 2018 Página 11


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

El resultado es que el valor p de esta prueba es menor de 0.0001. Esto significa que
deberíamos rechazar la hipótesis nula.

En la tabla siguiente, se señalan los outliers detectados.

Puede asimismo encontrar la puntuación Z para detectar outliers en la salida de esta


prueba.
Prueba de Grubbs para detectar outliers e interpretar los resultados en Excel usando
XLSTAT.

Para comenzar la
prueba de Grubbs,
vaya al
menú Pruebas
para valores
atípicos / Prueba
de Grubbs para
valores atípicos.

CESARI 2018 Página 12


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

En la pestaña General,
seleccione los datos y la
opción Prueba de Grubbs
(la prueba de Grubbs doble
puede usarse para detectar
dos outliers).

Como hipótesis alternativa,


elija la opción bilateral. El
nivel de significación por
defecto se deja establecido
en el 5%.

Hacemos clic en OK.

El resultado es que el valor p de esta prueba es menor de 0.0001. Esto significa que
deberíamos rechazar la hipótesis nula.

En la tabla siguiente se señala el outlier detectado.

Puede asimismo encontrar la puntuación Z para detectar outliers en la salida de esta


prueba.
CESARI 2018 Página 13
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Prueba de Grubbs para detectar outliers e interpretar los resultados en R.


La función v.atipicos() detecta, mediante el test de Grubbs, los valores atípicos de un
vector y con el parámetro e=1 devuelve el mismo vector con los valores atípicos
eliminados. Es necesaria la librería outliers.
# v.atipicos()
# Elimina outliers si son significativos. Usa test de Grubbs
# Comprueba si la distribución es normal
# x: Vector que contiene los datos
# Eliminar: Si es 0 devuelve un vector con los outliers, cualquier otro valor devuelve el
vector original sin los outliers
# p.o: nivel de significación para eliminar outliers
# p.n: nivel de significación para el test de distribución normal

v.atipicos <- function(x, eliminar=0, p.g=0.05, p.n=0.01) {


if(!is.vector(x) || !is.numeric(x)) {
cat("El argumento debe ser un vector numérico\n")
return(invisible(NULL))
}
norm <- shapiro.test(x)
if (norm$p.value <= p.n ) {
cat("La distribución no es normal. Programa interrumpido\n")
return(norm)
}

if (!require(outliers)) {
r<- readline("Se necesita la librería 'outliers'. \n¿Instalar? (s/n)\n(Se deberá
ejecutar el programa de nuevo una vez terminada la instalación.) ")
if (r=="S" || r == "s") {
install.packages("outliers")
return(invisible(NULL))
} else {
return("Programa terminado\n")
} }

ou <- 0
i <- 0
n <- length(x)
repeat {
if(grubbs.test(x)$p.value <= p.g) {

i <- i + 1
ou[i] <- outlier(x)
x <- rm.outlier(x)
} else {
n <- n - length(x)
if ( n == 1){
cat("Se ha encontrado 1 outlier:\n",ou)
} else {
if (n == 0) {
cat("No se ha encontrado ningún outlier\n")
} else {

cat("Se han encontrado",n,"outliers:\n",ou)


}
}
if (eliminar!=0) {
return(invisible(x))
} else {
return(invisible(ou))
}
}
}
}

set.seed(202) # Para asegurar la reproducibilidad de los números aleatorios


x <- rnorm(20) # 100 númros aleatorios con media 0
x <- c(x,4,-3.5) # Añadimos 2 valores atípicos

CESARI 2018 Página 14


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

v.at <- v.atipicos(x) # Devuelve un vector con los outliers


print(v.at)

x.at <- v.atipicos(x,e=1) # e=1 produce la eliminación de los outliers


print(x.at) # El vector original sin los outliers

Se han encontrado 2 outliers:


4 -3.5
[1] 4.0 -3.5

Se han encontrado 2 outliers:


4 -3.5
[1] -1.1317843 -0.4404935 -0.3364002 -0.8470490 -0.1460274 -1.4305493 -0.7766005 -1.9333126
[9] 0.3130460 0.4686521 -0.1384401 1.1798825 -0.7758830 -0.1070058 1.6696705 -
0.2582228
[17] 1.9745228 -0.5613012 0.9573671 1.4450859

h. Agregar
La agregación de casos tiene múltiples usos en el tratamiento de matrices de datos,
también cuando se relacionan diversas bases. Es especialmente útil cuando disponemos de
información en matrices distintas con diferentes niveles de agregación, como en el caso de
tener información de individuos y de hogares en la Encuesta de Población Activa, o de tener
múltiples registros de la vida laboral para un mismo individuo del que tenemos
información sociodemográfica en otra base, como en la Muestra Continua de Vidas
Laborales de la Seguridad Social.
Xlstat permite hacer
una agregación simple
a través del módulo de
Gestión de Datos del
menú Preparación de
datos.

Veremos un ejercicio sencillo de aplicación para ver cómo funciona el procedimiento.


Se tratará de agregar los individuos entrevistados en la encuesta del CIS según su
Comunidad Autónoma calculando una medida de resumen (la media) de las variables:
P001 a P907 (Importancia de diversos aspecto de la vida social), P30 (Escala de felicidad
personal) y P32 (Edad).
Crear Tablas disyuntiva. Las tablas disyuntivas son tablas de frecuencia donde el valor es
0 o 1 (ausencia / presencia), en filas están las observaciones y en columnas una serie de
categorías o etiquetas. La idea es dada una columna de categorías, colocar en fila cada
observación, y en columna cada posible categoría y calcular (0/1) contando la cantidad de
observaciones por categoría.

CESARI 2018 Página 15


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Es importante colocar etiqueta de identificación a las observaciones. En xlstat se puede


utilizar en el menú preparación de datos la creación de tablas disyuntivas, sino podemos
usar desde Excel o desde R la utilidad de creación de tablas dinámicas .
Uso de Tablas Dinámicas en planilla de cálculo M.Excel
Las tablas dinámicas son aquel instrumento que nos permite tener una visualización de los
datos, un resumen estadístico descriptivo, y también inferencial, desde la exploración de la
información que tenemos a la mano. Como tal las tablas dinámicas son de principal uso
estadístico por las comparaciones y conclusiones que las mismas nos permiten. En
econometría por lo menos, estas tablas dinámicas nos permiten evaluar los datos que
vamos a ejecutar y estudiar, antes del proceso de aprendizaje estadístico, hasta las
aplicaciones de las pruebas de hipótesis para determinar puntos de validez de los
supuestos estudiados
Las tablas dinámicas nos permiten determinar, comparar y analizar grandes sumas de
información, sin tener que recurrir a conteos extensos o procesos estadísticos complejos o
formulados. Los resúmenes de datos entonces tornan sumamente importantes, usualmente
para esto usamos Excel, que es la herramienta más popular en el sector empresarial y en
algunos casos público.
Una tabla dinámica consiste en el resumen de un conjunto de datos, atendiendo a varios
criterios de agrupación, representado como una tabla de doble entrada que nos facilita la
interpretación de dichos datos. Es dinámica porque nos permite ir obteniendo diferentes
totales, filtrando datos, cambiando la presentación de los datos, visualizando o no los datos
origen, etc...
Para crear una tabla dinámica, Excel nos proporciona el Asistente para tablas y gráficos
dinámicos. Para acceder al asistente accedemos al menú Insertar - Tablas y gráficos
dinámicos.
Aparece la primera pantalla de tres de las que se compone el asistente para tablas
dinámicas, donde nos solicita que indiquemos la situación de los datos a analizar y qué tipo
de informe vamos a crear.

CESARI 2018 Página 16


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Si pulsamos sobre Diseño... accedemos a un cuadro de diálogo donde podemos personalizar


la forma en que van a verse los datos en la tabla dinámica.

En la imagen podemos apreciar que nos aparece una estructura formada por las filas,
columnas, datos y además un campo para el nº de página. Y en el lateral derecho tenemos
los campos disponibles de la tabla, los cuales podemos arrastrar a las diferentes partes del
diagrama de la izquierda.
Por defecto, al crear una tabla dinámica, Excel nos genera unos totales con sumatorio,
puede interesarnos modificar esas fórmulas por otras como pueden ser sacar el máximo o
el mínimo, el promedio, etc. Para hacer esto debemos situarnos en cualquier celda de la
zona que queremos rectificar y hacer clic con el botón derecho del ratón, nos aparece un
menú Pop-up con diferentes opciones, debemos escoger la opción Configuración de
campo... y nos aparece un cuadro de diálogo como el que vemos en la imagen.
En este cuadro de diálogo podemos escoger cómo queremos hacer el resumen,
mediante Suma, Cuenta, Promedio, etc. También podemos abrir el cuadro de diálogo con el
botón de la barra Tabla dinámica.

En el cuadro de diálogo debemos determinar en primer lugar la o las variables que actúan
de segmentación, es decir, los grupos de agregación. En nuestro caso elegimos la
Comunidad Autónoma, por tanto, tendremos 19 grupos.
Dentro de cada grupo podemos calcular distintas medidas de resumen.
CESARI 2018 Página 17
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Definidos los cálculos podemos optar por tres alternativas:


- Añadir variables agregadas al conjunto de datos activo. Las nuevas variables calculadas de
grupo son un atributo de cada unidad de la base de datos original por lo que cada caso con los
mismos valores de segmentación recibe los mismos valores para las nuevas variables
agregadas.
- Crear un nuevo conjunto de datos que contenga únicamente las variables agregadas. Se crea un
nuevo conjunto de datos en la sesión actual con las variables de agregación y agrega las
unidades.
- Escribir un nuevo archivo de datos que contenga sólo las variables agregadas. Es el caso
anterior pero guarda los datos agregados en un archivo de datos externo que hay que detallar.
En nuestro ejercicio elegimos la segunda opción y obtenemos una matriz de datos que
contiene las 19 líneas con cada Comunidad Autónoma (PROV) y 10 variables nuevas que
calculan la media de las variables P902 a P907 y P1001.

Tras realizar la tabla dinámica este sería el resultado obtenido.

Una vez creada la tabla dinámica nos aparece en la hoja, la barra de herramientas Tabla
dinámica. (La podemos visualizar y ocultar con la opción de menú Ver -- Barras de
Herramientas.)

En esta barra nos encontramos botones útiles como el botón para darle a la tabla un
formato predefinido, y otros que veremos a lo largo del tema. También aparece el cuadro
Lista de campos de tabla dinámica que nos permite modificar la estructura de la tabla
añadiendo campos a las distintas zonas, o bien utilizando el botón Agregar a en
combinación con el cuadro de lista que aparece al lado del botón, o simplemente
arrastrándo el campo sobre la zona deseada.
CESARI 2018 Página 18
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

De igual forma podemos quitar un campo de un zona arrastrándolo fuera de la tabla. Con
esto vemos que en un segundo podemos variar la estructura de la tabla y obtener otros
resultados sin casi esfuerzos. Esta lista de campos se puede mostrar u ocultar con el
botón de la barra Tabla dinámica.
Otra característica útil de las tablas dinámicas es permitir filtrar los resultados y así
visualizar unicamente los que nos interesen en un momento determinado. Esto se emplea
sobre todo cuando el volumen de datos es importante. Los campos principales vemos que
están acompañados, en su parte derecha, de una flecha indicando una lista desplegable.
Aplicando el filtro a varios campos podemos formar condiciones de filtrado más complejas
Crear una tabla en tres dimensiones no es más que añadir un campo más a la tabla de
origen y luego utilizarlo como campo principal para el resumen. Para crear la tabla
dinámica en tres dimensiones, utilizamos el campo Página para la tercera dimensión.
EJEMPLO: Partiendo de una Planilla confeccionada, tomando como ejemplo la circulación de
vehículos a través de una estación de peaje, se trata de aplicar sobre la misma un principio
de ordenamiento a través de una herramienta de Excel, Tablas Dinámicas
A B C D
1 Mes Semana Vehículo Cantidad
2 Enero 1 Auto 105.000
3 Enero 1 Camión 1.050
4 Enero 1 Ómnibus 1.575
5 Enero 1 Camioneta 2.100
6 Enero 1 Moto 583
7 Enero 2 Auto 120.750
8 Enero 2 Camión 1.208
9 Enero 2 Ómnibus 1.411
10 Enero 2 Camioneta 2.015
11 Enero 2 Moto 485
12 Enero 3 Auto 122.350
13 Enero 3 Camión 1.124
14 Enero 3 Ómnibus 1.685
15 Enero 3 Camioneta 2.247
16 Enero 3 Moto 630
17 Enero 4 Auto 99.000
18 Enero 4 Camión 990
19 Enero 4 Ómnibus 1.485
20 Enero 4 Camioneta 1.980
21 Enero 4 Moto 544

Crear una Tabla Dinámica


La creación de una tabla dinámica se realiza a través del asistente y en varios pasos.
- Poner el cursor en cualquier celda de la Tabla
- Tomar la opción Menú-Datos- Informe de tablas y gráficos dinámicos
1° Paso
a) ¿Dónde están los datos que desea analizar? Marcar opción : Lista o base de datos de
Microsoft Excel
b) ¿Que tipo de informe desea crear? Marcar la opción: Tabla dinámica
c) clic en Siguiente
2° Paso Rango de Datos
a) Seleccionar el rango de la tabla, incluyendo la fila de titulo
b) Siguiente
3° Paso Ubicación de la Tabla
a) Se adopto ubicar la tabla en hoja de calculo “TD”, determinando la celda de comienzo de la
misma
b) Se indica , clic en Diseño , comienza el momento de diseñar la tabla
a) Arrastrar el cuadrito de Semana a Columna
b) Arrastrar el cuadrito de Vehículo a Fila
c) Arrastrar el cuadrito de Cantidad a Datos
d) Aceptar.

CESARI 2018 Página 19


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Aparece la tabla dinámica diseñada,


acompañada por una barra de
herramientas especial que permite
filtrar datos por despliegue de las
mismas.

Tablas dinámicas en R como Excel


Algunos programas de hojas de calculo permiten realizar tablas dinámicas de forma
interactiva. Ahora lo interesante es que con R también se puede realizar esto. El
paquete rpivotTable, permite realizar tablas dinámicas como Excel.
Al abrir la consola lo primero que usamos es lo siguientes comandos para instalar un
paquete que nos permita desarrollar todo el proceso :
https://github.com/smartinsightsfromdata/rpivotTable
descargamos la función rpivotTable
devtools::install_github(c("ramnathv/htmlwidgets", "smartinsightsfromdata/rpivotTable"
))
Después de incluir este comando encontramos el paquete cargado en R y podemos efectuar
operaciones comparativas con los datos que tenemos, por ejemplo:
data(iris)
rpivotTable(iris)
Lo primero que vamos a visualizar es una cabecera con enunciados de los parámetros que
son determinados en la base de datos o data frame que estamos usando. Teniendo en
cuenta como son las columnas de estas bases de datos, y las filas , podemos empezar a
implementar un analisis de resumen estadístico comparativo desde las características que
estemos interesados, por ejemplo en este caso las plantas.
Con la función aggregatorNames, es una opción que nos permite incluir en nuestra tabla
dinámica después de creada, otras cabeceras, para así evaluarlas con valores máximos,
mínimos, fraccionarios, y de más
Ejemplo 1
Tenemos por ejemplo los siguientes comandos, teniendo en cuenta que la distribución
normal (rnorm(40)) es una forma de evaluar la variable continua ( la que más se aproxima
a la realidad) desde el parámetro establecido en este caso 40 por el número de
observaciones<- tener en cuenta esto.
>genes = paste('MMP', sprintf("%04d",1:10), sep="")
>data = expand.grid(gene=genes, condition=c('copper', 'cheetos', 'beer', 'pizza'))
>data$value = rnorm(40)
>data
gene condition value
1 MMP0001 copper 1.443769724
2 MMP0002 copper -1.421448216
3 MMP0003 copper 0.669242927
4 MMP0004 copper 0.554168313
5 MMP0005 copper 0.444413188
6 MMP0006 copper -1.658372293
7 MMP0007 copper 0.038226213
8 MMP0008 copper 0.632472258
9 MMP0009 copper -0.422818287
10 MMP0010 copper -1.218527849
11 MMP0001 cheetos -0.171208393
12 MMP0002 cheetos -0.636818218

CESARI 2018 Página 20


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

13 MMP0003 cheetos 3.057031597


14 MMP0004 cheetos 0.752206934
15 MMP0005 cheetos 1.457932679
16 MMP0006 cheetos 0.951133538
17 MMP0007 cheetos 1.623095305
18 MMP0008 cheetos 0.978952984
19 MMP0009 cheetos -1.086341846
20 MMP0010 cheetos -1.600872200
21 MMP0001 beer -1.271464914
22 MMP0002 beer 0.900046604
23 MMP0003 beer -0.968698500
24 MMP0004 beer 0.011886421
25 MMP0005 beer -0.047449877
26 MMP0006 beer 0.909543098
27 MMP0007 beer 0.747933152
28 MMP0008 beer -0.688032720
29 MMP0009 beer 0.635196914
30 MMP0010 beer 0.001817584
31 MMP0001 pizza -0.128229805
32 MMP0002 pizza -0.734518194
33 MMP0003 pizza -0.698144874
34 MMP0004 pizza -1.061295382
35 MMP0005 pizza -0.525097741
36 MMP0006 pizza -0.157024161
37 MMP0007 pizza -0.141216607
38 MMP0008 pizza -1.178594575
39 MMP0009 pizza -0.550888367
40 MMP0010 pizza 1.464107950

Al tener la base de datos cargada empezamos a efectuar una interacción más dinamica , por
lo cual observamos los siguientes parámetros
genes = paste('MMP', sprintf("%04d",1:10), sep=“")
ata = expand.grid(gene=genes, condition=c('copper', 'cheetos', 'beer', ‘pizza'))
data$value = rnorm(40)
head(data)
Y de esta manera construimos una tabla de la siguiente forma:
gene condition value
1 MMP0001 copper -0.1651530
2 MMP0002 copper -0.2716556
3 MMP0003 copper -0.3100010
4 MMP0004 copper 0.5516467
5 MMP0005 copper -1.7510421
6 MMP0006 copper -1.2251562
Paso seguido construimos el siguiente comando
install.packages(“devtools")
library(devtools)
install_github("ramnathv/htmlwidgets")
install_github("smartinsightsfromdata/rpivotTable")
## Load rpivotTable
library(rpivotTable)
Y paso seguido obtenemos el siguiente resultado después de formular
rpivotTable(data, rows="gene", col="condition", aggregatorName="Average", vals=“value")
Para poder hacer el tema de visualización usamos Bar Chart C3

CESARI 2018 Página 21


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

- Transponer
La transposición de una matriz implica convertir los casos (las filas) en variables, y las
variables (las columnas) en casos. Al hacerlo se crea un nuevo archivo de datos y
automáticamente los nombres de las variables.
Para ilustrar este procedimiento y los que vienen a continuación, trabajaremos con unas
pequeñas matrices de datos que permitirán ver mejor cada una de las tareas. La matriz de
datos X5 contiene la situación laboral de 6 individuos asalariados en relación a 2 variables
de sus condiciones de empleo: Contrato y Salario.

En Excel es sencillo Transponer (girar) datos de filas a columnas o viceversa, a través de la


opción de Pegado Especial. Primero seleccionamos los datos y los copiamos, no
posicionamos donde vamos a pegar la nueva tabla invertida y desde el menú Edición /
Pegado Especial…., elegimos trasponer.

5 http://pagines.uab.cat/plopez/content/III.2
CESARI 2018 Página 22
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Con Deducer para transponerla iremos al menú Data / Transpose, nos pedirá elegir la
matriz de datos:

Una vez seleccionada nos pediré darle un nombre a la nueva matriz de datos que se creará,
por ejemplo Xtranspuesta:

Para ver el resultado volvemos al editor de datos y buscamos la nueva matriz.

CESARI 2018 Página 23


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

i. Reestructurar
La estructura simple de una matriz de datos de casos por variables suele ser la habitual
para el análisis de datos, no obstante, la estructura inicial de una base de datos puede ser
compleja. Una estructura simple es el ejemplo de la matriz X, de 6 individuos y 2 variables
con las condiciones de empleo. Una estructura donde la información de una variable está
en más de una columna o la información de un caso en más de una fila introduce una
complejidad de organización de la información y la necesidad de reestructurar el archivo
para pasar los casos a variables o las variables a casos.
Por ejemplo, si tenemos una matriz con 3 individuos y las condiciones de empleo se
refieren a dos momentos en el tiempo: empleo inicial y empleo actual, la información puede
estar dispuesta por filas donde cada individuo tiene doble información de sus condiciones
de empleo, la inicial y la actual.
La matriz de datos casestovars6 tiene esta información:

En este caso podemos estar interesados en pasar la información de las filas a las columnas,
para tener 3 casos y 4 variables (el contrato y salario en los dos momentos).
En los datos originales, una variable aparece en una única columna. En la nueva hoja de
datos, dicha variable aparecerá en varias columnas. Necesitamos ordenar por ID.
El resultado es la matriz siguiente:

Si nos encontramos en la situación inversa, con información en las columnas que queremos
pasar a las filas, el caso de la matriz de datos casestovars:

El proceso a seguir será similar.


j. Fusionar archivos
La fusión o unión de archivos da lugar a dos alternativas:
Añadir variables. Se fusiona el archivo de datos activo con otro que contiene los mismos
casos pero variables diferentes.

6 http://pagines.uab.cat/plopez/content/III.2
CESARI 2018 Página 24
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Añadir casos. Se fusiona el archivo de datos activo con otro que contiene las mismas
variables pero casos diferentes.

Realizaremos un pequeño ejercicio con la matriz Y7


que contiene 6 casos y 4 variables, Edad y Sexo son
características individuales sociodemográficas y Sector
y Tamaño hacen referencia a características laborales
de la empresa:

Para el ejercicio de unir variables consideraremos dos matrices iniciales separadas con la
información sociodemográfica (YA) y la información de la empresa (YB). Para el ejercicio
de unir casos disponemos de dos matrices separadas con los tres primeros casos (Y1-3) y
los tres últimos (Y4-6).

Pasa fusionar es muy conveniente disponer de una variable clave que identifique a cada
unidad en cada uno de los archivos a unir, de esta forma se irá emparejando la información
a partir del control de la coincidencia del mismo caso. En nuestro ejemplo este papel lo
juega la variable ID.
El tipo de fusión que haremos implicará que Ambos archivos proporcionan casos, se trata
de casos individuales en los dos archivos. Las otras dos opciones (El que no es conjunto de
datos activo (o el conjunto de datos activo) es una tabla de claves) implica que existe una
tabla de claves o tabla de referencia, es decir, un archivo en el que los datos de cada caso se
pueden aplicar a varios casos del otro archivo de datos (una característica del hogar como
atributo para todos los individuos del hogar, por ejemplo).
La variable ID será la Variable clave. Las variables que se unen se identifican por el fichero
al que pertenecen: las del fichero (YA) y las del (YB). Las variables que son comunes del
segundo archivo quedan excluidas. Tendremos como resultado la misma información de la
matriz Y.

7 http://pagines.uab.cat/plopez/content/III.2
CESARI 2018 Página 25
Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Con Deducer, la fusión se realiza a


través del menú Data / Merge. Se
abre el cuadro de diálogo donde
aparecen las matrices del espacio
de trabajo que previamente
habremos cargado:

Primero realizaremos la fusión de YA con YB tarea que implica añadir las variables de YB a
las existentes en YA. A la nueva matriz le llamamos YAYB. Clicamos sobre continuar y nos
aparece el cuadro de diálogo de la fusión:

Vemos tres recuadros con las variables propias de cada archivo y las que son comunes.
En este último estaba la variable ID que utilizamos como variable de control del
emparejamiento de los casos. Pasa fusionar siempre es conveniente disponer de una
variable clave que identifique a cada unidad en cada uno de los archivos a unir, de esta
forma se irá emparejando la información a partir del control de la coincidencia del mismo
caso.

CESARI 2018 Página 26


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

En nuestro ejemplo este papel lo juega la variable ID y se coloca en el recuadro Match Cases
By: después de elegir si la variable es la del primer archivo: [1], del segundo: [2], o de
ambos [b] y en este caso creará dos versiones de la variable. Una vez ejecutado con Run
tendremos como resultado la misma información de la matriz Y.
Conviene tener presente que todos los casos desemparejados, es decir, los que están en una
matriz y no en la otra, sea la que sea, tendrán valores perdidos en la fusión para las
variables donde no tienen información, serán vacíos (⌽) en la nueva matriz:

Con Deducer existe la posibilidad de eliminar a priori los casos que no se emparejan (Drop
Unmatched Cases). Si dos variables representan el mismo elemento, pero se denominan de
manera diferente en las dos matrices de datos, se pueden combinar mediante la selección
de las dos variables y haciendo clic en la flecha hacia abajo y ubicarlas unidas en el
recuadro de Common Variables.
A partir de la matriz Y1-3 a la que le añadiremos Y4-6 que elegiremos de la misma forma
que en el caso de añadir variables. En esta ocasión nos aparecerá la lista de variables
común y las variables que quedan desemparejadas porque están en un fichero y no en el
otro, éstas no se incluirán en el archivo fusionado.

k. Transformación de variables
Después de ver distintas operaciones de tratamiento de una matriz en su conjunto nos
centramos en aquellas tareas de transformación donde se implican variables concretas de
la matriz, de forma individual o relacionándolas con otras.
o Recodificar
o Agrupación visual
o Calcular
o Contar valores
o Calcular
o Concatenar
o …
En todo ejercicio de creación de variables hay que tener presente el comportamiento de los
valores perdidos en dos momentos: antes y después de crear las variables. Antes, hay que
tener en cuenta que si las variables contienen valores perdidos (del sistema o del usuario)
en las nuevas variables estos aparecerán como valores perdidos del sistema si no se tratan
específicamente. Por otra parte, cuando creamos una variable nueva, debemos prever y
controlar la generación no deseada de valores perdidos como resultado de una operación
en la que las transformaciones no se aplican de hecho en todos los casos que inicialmente
queremos considerar.
Hay que tener presente finalmente que toda generación de variables requiere completar su
diccionario (etiquetas, formato, valores perdidos, nivel de medida, etc.)
La recodificación de variables permite cambiar los valores actuales de las variables por
otros nuevos. La recodificación puede significar estrictamente un cambio de uno o más
valores por otros, o bien la combinación o la agrupación de rangos de valores en nuevas
categorías.

CESARI 2018 Página 27


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

El valor a recodificar pueden ser numérico o alfanumérico (formato de cadena, string) y se


puede pasar de una codificación alfanumérica a otra numérica. Por otro lado la
recodificación se puede realizar optando por mantener la variable original y generando una
nueva con otra nombre que tendrá los valores recodificados, o bien optando por sustituir la
variable que se está recodificando por la nueva variable con los nuevos criterios de
codificación y con el mismo nombre de variable.

En Deluce, entramos en el menú del procedimiento Data / Recode Variables elegimos la


variable OCUMAR11 para pasarla al recuadro de la derecha de Variables to Recode.
Automáticamente le asigna el mismo nombre indicando que recodificará en la misma
variable. En general, si no se tiene la certeza para actuar de esta manera, preferiremos
crear una nueva variable. Para ello seleccionamos la línea y clicamos sobre Target para
cambiar el nombre de destino de la variable, escribimos el nombre de la nueva variable,
por ejemplo OCUPA y clicamos sobre Aceptar:

El cuadro de diálogo inicial aparece de esta forma:

A continuación debemos especificar los criterios de recodificación en Define Recode:

CESARI 2018 Página 28


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Los criterios de recodificación que hemos comentado se trasladan de la forma siguiente.


Primeramente clicaremos sobre la pareja de variables que aparece en el recuadro Variable
Information veremos que para las variables numéricas se muestra una tabla de percentiles
y para las variables cualitativas, como es el caso, una tabla de frecuencias. Con variables
tipo factor no podemos utilizar el rango entre valores, deberemos escribir cada valor
exactamente (copiaremos el texto que tenemos a la izquierda) y especificaremos el nuevo
valor, el nuevo texto:
- En el primer caso sería escribir:
value = director into Alta y clicar Add
value = tecnico into Alta y clicar Add.
Así definimos que Directores y gerentes junto a Tecnicos
y profesionales, se unan en una sola categoría de clase
ocupacional alta, codificada con Alta en la nueva.
- Lo mismo repetimos para los otros tres grupos
ocupacionales: Media, Cualificado y No cualificado.
- En el último caso: value = militares into NA y clicar Add.
El último valor lo consideraremos como valor perdido
junto con los valores perdidos que ya tiene la variable
identificados con el símbolo NA en la matriz.
Le damos a OK en esta ventana y de nuevo en la siguiente para ejecutar la recodificación.
Para ver el resultado necesitamos pedir la tabla de frecuencias, pero previamente es
preciso mejorar el diccionario de los datos ordenando las etiquetas, y eliminando la Militar
que aparece con frecuencia cero, y marcando su carácter ordinal.

CESARI 2018 Página 29


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

La creación de nuevas variables realizando cálculos es una necesidad constante de todo


proceso de análisis de datos cuantitativos. Ya sea para modificar o combinar las variables
originales existentes podemos operar infinidad de transformaciones ya sea de naturaleza
estadística para acondicionar variables en un análisis, para crear indicadores y nuevas
variables variables cuantitativas, para emplear variables instrumentales, etc.
Realizaremos algunos
ejercicios de cálculo de
variables.

En primer lugar
podemos plantearnos
crear un índice de
activismo sociopolítico
a partir de las
respuestas a la
pregunta P14:

Con los siguientes criterios: puntuar cada forma con 2 si se ha participado últimamente,
con 1 si participó en el pasado y con 0 si nunca ha participado. El índice lo construimos con
esas puntuaciones en las 4 preguntas sumándolas para cada individuo. El que participe
actualmente en todo tendrá un nivel de participación de 8 y el que nunca haya participado
en nada de 0. A la nueva variable la llamaremos P14índice.
Teniendo en cuenta los valores actuales de la variable, la puntuación propuesta implica que
antes de sumar tendremos que restar cada valor de 3 (3-1 dará 2, 3-2 dará 1 y 3-3 dará 0).
Hay que tener en cuenta que en la nueva variable algunos individuos son valores perdidos
en alguna de las cuatro variables iniciales por lo que no se podrá realizar el cálculo para
ellos y serán valores perdidos del sistema en la nueva. Necesita completarse su diccionario
(tipo, etiqueta de la variable, nivel de medición)
Los cálculos en R se realizan desde la línea de comandos (o a través de scripts).
Realizaremos algunos ejercicios de cálculo de variables. En primer lugar podemos
plantearnos crear un índice de activismo sociopolítico a partir de las respuestas a la
pregunta P14:
Teniendo en cuenta los valores actuales de las variables (P1401 a P1404) necesitamos
pasar de tipo factor a tipo double recodificando los valores de las variables como en el caso
de la última recodificación comentada en el apartado anterior. Podemos hacerlo para las 4
variables simultáneamente y las llamaremos P1401x a P1404x:

CESARI 2018 Página 30


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Una vez cambiadas a formato double, creamos el índice desde la línea de comandos de la
consola de Deducer de la forma siguiente:

La instrucción contiene a la izquierda el nombre de la nueva variable (P14indice) que se


asocia con la matriz de datos CIS3041 (se añadirá como última variable a la matriz de
datos) y es el resultado de la expresión de cálculo numérico que implica sumar las 4
variables para cada individuo. Cuando le damos a la tecla <Enter> se crea la variable.
Nuestra matriz contendrá una variable más, la última. Hay que tener en cuenta que en la
nueva variable algunos individuos son valores perdidos en alguna de las cuatro variables
iniciales por lo que no se podrá realizar el cálculo para ellos y serán valores perdidos en la
nueva. Si calculamos la media se obtiene un valor de 2,09, mucho más cerca de 0 que de 8,
indicando un nivel de activismo sociopolítico de la sociedad española en su conjunto
relativamente bajo.
A partir de la pregunta P11 sobre la frecuencia con que se consultan los periódicos, la radio
y la televisión para seguir la actualidad política, dando entre 4 y 0 puntos a las frecuencias
que van de 1 (Todos los días) a 5 (Nunca) y sumando las puntuaciones para cada individuo.

CESARI 2018 Página 31


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Otra operación importante es la tipificación o estandarización de


una variable, transformación que consiste en restar la media a cada
puntuación o valor de una variable cuantitativa y dividir por la
desviación típica.
Realizamos esta operación con la
variable edad (P32). Necesitamos
conocer previamente los valores de la
media y la desviación.
En Deluce, ejecutamos el
procedimiento Analysis / Descriptives y
se obtiene:
Una vez conocidos los valores de la media y la desviación típica creamos la nueva variable,
con el nombre Edadtip, mediante:

Si pedimos los descriptivos de la nueva


variable podemos comprobar cómo,
salvo decimales, la media es 0 y las
desviación típica es 1.

A este mismo resultado se puede llegar a


través del menú con Data / Transform,
tras elegir la variable P32, pasarla a la
derecha y elegir la Transformation
Standardize:

Veremos en la matriz de datos añadida al final la variable P32.tr, coincidente con la que
creamos anteriormente.
A través de estos procedimientos se pueden operar otras transformaciones prestablecidas
o incluso proponer la nuestra:
- Center: Reescala las variables para que tengan media 0.
- Standardize: Reescala las variables para que tengan media 0 y desviación estándar 1.
- Robust Standardize: Reescala las variables para que tengan media 0 y desviación absoluta
mediana 1.
- Range: Transforma la variable para que tome valores entre 0 y 1.
- Box-cox: Transforma la variable para intentar obtener una distribución normal.
- Rank: Reemplaza los valores por su rango.
- Log: Devuelve el logaritmo neperiano (para valores mayores que 0).
- Square root: Devuelve la raíz cuadrada.
- Absolute value: Devuelve el valor absoluto.
- Quantiles: Divide la variable en grupos con el mismo número de observaciones.
- Equal width: Divide la variable en grupos con intervalos de la misma amplitud.
- Custom: Permite definir transformaciones personalizadas.

CESARI 2018 Página 32


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Procederemos ahora a la construcción de los indicadores sobre la situación política que


elabora el CIS en el Barómetro.
Las preguntas de los barómetros de todos los meses relativas a la situación política que se
utilizan en la construcción del indicador son la P4 y la P6:

El Indicador de la Situación Política Actual (SPA), a partir de la pregunta P4 se define como:

donde p1, p2, p3, p4 y p5 son, respectivamente, los porcentajes de respuesta de las
opciones muy buena, buena, regular, mala y muy mala.
El Indicador de Expectativas Políticas (IEP) a partir de la pregunta P6 será:

donde p1, p2 y p3 son, respectivamente, los porcentajes de respuesta de las opciones


mejor, igual y peor.
Por último, el Indicador de Confianza Política (ICP) es la media aritmética de los dos
anteriores:

En este caso se trata de indicadores sintéticos que se expresan en un solo valor para el
conjunto de la muestra, para después ser comparado a lo largo del tiempo con Barómetros
anteriores.
Se generan 3 variables, que de hecho son constantes, con los valores de los índices: 17,05,
41,00 y 29,03
Para obtener los 3
indicadores
utilizaremos la línea de
comandos de la consola
como “calculadora”:

CESARI 2018 Página 33


Anexo 3 N02

TRANSFORMACIÓN
CON
HERRAMIENTAS

Un procedimiento específico de cálculo consiste en contar para cada caso el número de


veces que aparece algún valor o diversos valores en una lista de variables, numéricas o
alfanuméricas.
Imaginemos que tenemos un listado de 15 bienes de consumo de equipamiento de los
hogares, podríamos crear una variable que contara las veces que un hogar tiene cada bien
(valor 1), la variable resultante podrá tener entre 0 (no tiene ningún bien) o 15 (los tiene
todos). Con los datos de la matriz del CIS podemos considerar la pregunta 13 sobre
participación en asociaciones.

Con las variables a las que da lugar la pregunta nos plantearnos como objetivo crear una
variable sintética que cuente, para cada individuo, a cuantas asociaciones pertenece, es
decir, si ha contestado 1 (pertenece y participa) o 2 (pertenece y no participa) a cada una
de ellas. Como hay 9 preguntas la variable resultante tendrá valores entre 0 y 9.
A partir de la pregunta P10 sobre la frecuencia con que se discute de política obtener un
índice de frecuencia calculando una variable con el recuento las veces que se responde 1 (A
menudo) y 2 (Algunas veces) con relación a los tres grupos sociales.
Un procedimiento de primera necesidad en el trabajo de análisis de la información
cuantitativa, es la creación de variables con transformaciones condicionales. Son
situaciones donde se establecen determinadas condiciones en las características de las
unidades y en función de su cumplimiento según una expresión lógica (verdadero o falso /
perdido) asigna un valor a través de una expresión (dando el valor en concreto o
ejecutando una fórmula de cálculo).
La transformación condicional se puede utilizar en diversos comandos, pero nos
detendremos sobre todo en el comando IF y en la estructura DO IF … END DIF.
El comando Si que tiene la forma general siguiente:
Si [(]expresión lógica[)] variable de destino = expresión
donde los paréntesis de la expresión lógica aparece entre corchetes indicando que es
optativo utilizarlos, aunque será obligatorio si la condición es compleja.
Un ejercicio de este procedimiento se ve en el ejercicio 4 para representar datos imprecisos
en números borrosos.
CESARI 2018 Página 34