Вы находитесь на странице: 1из 2

Introducción nombre_df=data.

frame(vector1,vector2,vector3,et
c)
install.packages("paquete", dep=TRUE) Crear una copia de seguridad:
Instalar o cargar paquetes nombredfbk = nombredf
Modificar un data frame
nombre_de_la_función=function(variable){definici
ón } crea funciones Cambiar las variables: names(nombreDF)=c
(“A”,”B”,”C”,etc)
cat("………: "); Presenta texto en consola
Cambiar solo algunas variables:
nombre=scan(n=1, quiet=TRUE) Lee valores
names(nombreDF)[2] = “Edad”
del teclado
Seleccionar trozos de un data frame: nombreDF [1:2
Vectores
,]
x =c(……)
nombreDF [c(2,3,1),] las filas en dif. Orden
x=scan() Crear vectores
nombreDF [nombreDF$Edad < 19,] también se usa
notas = scan(”notas.txt”) importa condiciones lógicas

a = rep(a,b) valor a repite b veces d.f.18 = nombreDF [nombreDF$Edad < 19,] crea un
nuevo data Frame
length calcula la longitud del vector.
Aplicar funciones a las variables del data frame
max y min calculan sus valores máximo y
mínimo, respectivamente sapply(data frame, FUN = función)
sum calcula la suma de sus entradas
sapply(nombreDF [ ,2:3] , FUN = mean) medias de las
prod calcula el producto de sus entradas. variables de las col. 2 y 3
mean calcula la media aritmética de sus
entradas. sapply(nombreDF [ ,2:3] , FUN = sum) suma de las
diff calcula el vector formado por las diferencias variables de las col. 2 y 3
sucesivas entre entradas del vector
f = function(x){sqrt(sum(x^2))}
cumsum calcula el vector formado por las sumas
acumuladas de las entradas del vector sapply((nombreDF[ ,2:3] , FUN = f) también se puede
sort ordena los elementos del vector en el orden usar funciones
natural creciente del tipo de datos que lo forman: el
orden numérico, el orden alfabético, etc. Si lo Graficos
queremos ordenar en orden decreciente, podemos
incluir en su argumento el parámetro dec=TRUE. x = c(…) es un vector
rev invierte el orden de los elementos del vector;
y = c(…) es un vector
por lo tanto, rev(sort(...)) es otra
opción para ordenar en orden decreciente. plot(x,y)
Factores parámetros:
Nombre = factor( c(…))
titulo: main=”titulo”
x[a] = b Cambia el valor de la pos. a por b
etiquetas de los ejes: xlab=”etiqueta” y
Date Frames y Gráficos ylab=”etiqueta”

Dibujar los puntos: pch=1 del 1 al 25


Nombre=read.table("NotaHermanos.txt",
header=TRUE) Color: col =”blue”
NH2 = read.table("NotaHermanosc.txt" , header =
TRUE, sep = ",") Relleno: bg = “red”
Importar una data f. externo con y sin coma
Datos cualitativos
read.csv para formato csv
Unidimensionales
Str(nombre del dataframe) característica del df Tabla de frecuencias absolutas: table(x)
Crear una data frame: Tabla de frecuencias relativas: prop.table(table(x))
Vector1 = c(…)
Vector2 = c(…) Moda: names(which(table(x)==max(table(x))))
Vector3 = c(…)
Bidimensionales
Frecuencia absoluta: table (vector1 , vector2) Varianza: var (x)*( length (x)-1)/ length (x)

Frecuencia relativa global: prop.table( table (vector1 Desviación típica: sd(x)* sqrt (( length (x)-1)/ length
, vector2 )) (x))

Frecuencia relativa por vector1: prop.table( table Se obtiene varios valores: summary(x)
(vector1 , vector2 ), margin = 1)
Diagrama de cajas:
Frecuencia relativa por vector2: prop.table( table
(vector1 , vector2 ), margin = 2) Boxplot(x), con parámetros como:
main,xlab,ylim,yaxp,col,etc.
Sumar columnas: colsums (table(vector1, vector2)
Minería de datos
Sumar filas: rowsums (table(vector1, vector2)
1. Importar la base de datos
Multidimensionales 2. Cargamos la memori con “attach()”

Frecuencia absoluta: table (vectro1, vector2, vector3, tapply (variable, factor, func) Aplica la función a
etc) las variables por factor.
Frecuencia absoluta en formto plano: ftable Ejm
(vectro1, vector2, vector3, etc) RANGO DE VENTAS POR VENDEDOR
Rango_precios_vendedor = tapply(Precio,
prop.table ( table (Sexo , Respuestas , Pais ), margin Vendedor, range)
=3) Frecuencias relativas por país VENTA PRMEDIO POR VENDEDOR
Venta_promedio_vendedor=tapply(Precio,Vended
Diagramas y barras
or,mean)
Sean los vectores o factores: v1, v2, v3, etc. VENDEDOR QUE HIZO MAYOR VENTA
venta_max=tapply(Precio, Vendedor, max)
barplot (table(v1) , main”titulo”) crea un grafica de Vendedor_venta_max=names(venta_max[venta_
barras de las FA de la variable V1 max==max(venta_max)])
VENDEDOR QUE HIZO MENOR VENTA
barplot (prop.table (table(v1)) , main =”titulo”) crea un
Venta_min=tapply(Precio,Vendedor,min)
grafica de barras de las FR de la variable V1
Vendedor_Venta_min=names(Venta_min[Venta_m
Tienen los mismos parámetros que los grafico de in==min(Venta_min)])
vectores RANGO DE PRECIOS SEGÚN DISTRITO
Rango_precio_distrito=tapply(Precio,Distrito,range
Diagrama apliladas: barplot(table(Sexo,Respuestas)) )
GRAFICOS
Datos cuantitativos

round(prop.table(table(edades)),2) recorta a 2 Corroboramos la normalidad:


decimales shapiro.test(Precio)
Histograma de precios según cada vendedor:
F. absolutas acumulada: cumsum(table(edades)) Ventas_Buendia=Precio[Vendedor=="Buendia"]
F. relativas acumuladas: Ventas_Prado=Precio[Vendedor=="Prado"] ……..
hist(Ventas_Buendia)
round(cumsum(prop.table(table(edades))),2)
hist(Ventas_Prado)
MODA: HISTOGRAMA DE PRECIOS SEGÚN DISTRITO
as.numeric(names(which(table(edades)==max(table(e
dades))))) hist((Precio[Distrito=="Miraflores"]),col=”blue”,main
=”Histograma de Precios en Miraflores”)
Media: mean(edades) hist((Precio[Distrito=="San
juan"]),col=”blue”,main=”Histograma de Precios en
Median: median(edades)
Miraflores”)
Sea el vector x;
Diagrama de cajas de los precios por vendedor
Nos da el valor min y max: range(x)
boxplot(Ventas_Buendia, col="blue",main="Precios de
Nos da el rango: diff(range(x))
Ventas de Buendia")
Varianza muestral: var(x)

Desviacion típica muestral: sd(x)

Вам также может понравиться