1011gf Mae Apuntes

Universidad de Sevilla
Dpto. Ecuaciones Diferenciales y Análisis Numérico
Resúmenes teóricos de la asignatura
Matemática Aplicada y Estadı́stica
Grado en Farmacia
Primer curso
2
Índice general
1. Funciones, lı́mites, continuidad y derivabilidad 7

1.1. Números reales y nociones básicas sobre funciones . . . . . . . . . . . . . . . . 7
1.1.1. Conjuntos numéricos. Conceptos de supremo, ı́nfimo, máximo y mı́nimo 7
1.1.2. Algunos conceptos sobre funciones. Composición e inversa . . . . . . . . 10
1.2. Funciones elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3. Lı́mites de funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4. Continuidad de funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1. Discontinuidad de funciones. Clasificación . . . . . . . . . . . . . . . . . 20
1.4.2. Propiedades de funciones continuas . . . . . . . . . . . . . . . . . . . . . 21
1.5. Derivadas: cálculo, propiedades y aplicaciones . . . . . . . . . . . . . . . . . . . 22
1.5.1. Concepto de derivada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.5.2. Interpretación geométrica de la derivada . . . . . . . . . . . . . . . . . . 24
1.5.3. Álgebra de derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.4. Derivadas de las funciones elementales . . . . . . . . . . . . . . . . . . . 26
1.6. Aplicaciones de las derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.1. Cálculo de extremos absolutos . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.2. Monotonı́a de la función . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.3. Regla de L’Hôpital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.6.4. Concavidad y convexidad . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6.5. Representación Gráfica de Funciones . . . . . . . . . . . . . . . . . . . . 35
2. Interpolación polinómica 39
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2. Análisis previo (existencia y unicidad) . . . . . . . . . . . . . . . . . . . . . . . 39
2.3. Método de las Diferencias Divididas . . . . . . . . . . . . . . . . . . . . . . . . 40
3. La integral. Integración numérica 43

3.1. Cálculo de primitivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2. Reglas de cálculo de primitivas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.1. Método de integración por partes . . . . . . . . . . . . . . . . . . . . . . 46
3.2.2. Integración de funciones racionales . . . . . . . . . . . . . . . . . . . . . 46
3.2.3. Método de sustitución . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3. La integral definida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3
4 ÍNDICE GENERAL
3.3.1. Propiedades de la integral definida . . . . . . . . . . . . . . . . . . . . . 51

3.4. Aplicaciones de la integral definida . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1. Cálculo de áreas de superficies planas . . . . . . . . . . . . . . . . . . . 51
3.4.2. Cambio acumulativo o neto . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.3. Cálculo de valores medios . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5. Integración numérica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4. Programación lineal 59
4.1. Introducción / motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Aplicaciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3. Resolución por el método geométrico . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.1. Análisis previo: Regiones factibles . . . . . . . . . . . . . . . . . . . . . 61
4.3.2. Método geométrico en regiones factibles acotadas . . . . . . . . . . . . . 63
4.3.3. Sobre la existencia de solución y regiones factibles no acotadas . . . . . 63
5. Estadı́stica descriptiva 65
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2. Distribuciones estadı́sticas. Representaciones gráficas . . . . . . . . . . . . . . . 65
5.2.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2.2. Tablas estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.3. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.3. Medidas de posición y dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3.1. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6. Variables estadı́sticas bidimensionales 81

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2. Tablas de doble entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.3. Relaciones entre las variables X e Y . . . . . . . . . . . . . . . . . . . . . . . . 83
7. Probabilidad. Distribuciones binomial y normal 89

7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.3. Distribuciones discretas. La distribución binomial . . . . . . . . . . . . . . . . . 91
7.4. Distribuciones continuas. La distribución normal . . . . . . . . . . . . . . . . . 92
7.5. Cálculo de probabilidades usando la tabla . . . . . . . . . . . . . . . . . . . . . 95
8. Teorı́a de muestras y diseño de experimentos 97

8.1. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.1.1. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.1.2. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . 97
8.1.3. Muestreo aleatorio sistemático . . . . . . . . . . . . . . . . . . . . . . . 98
8.1.4. Muestreo por conglomerados y áreas . . . . . . . . . . . . . . . . . . . . 98
8.2. Distribución en el muestreo de la media . . . . . . . . . . . . . . . . . . . . . . 98
ÍNDICE GENERAL 5
8.3. Distribución de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8.4. Distribución en el muestreo de la diferencia de medias . . . . . . . . . . . . . . 101
8.5. Ensayos clı́nicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.5.1. El grupo de control. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.5.2. Concepto de ensayo clı́nico. . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.5.3. Control del sesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.5.4. Diseños de un ensayo clı́nico . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.5.5. Métodos de asignación aleatoria del tratamiento . . . . . . . . . . . . . 105
8.5.6. Otros conceptos relacionados con el ensayo clı́nico . . . . . . . . . . . . 105
9. Inferencia estadı́stica 109

9.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2. Estimaciones de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.3. Estimación puntual: parámetro y estadı́stico . . . . . . . . . . . . . . . . . . . . 110
9.4. Propiedades de los estimadores puntuales . . . . . . . . . . . . . . . . . . . . . 110
9.5. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.6. Intervalo de confianza para el parámetro p de una distribución binomial . . . . 112
9.7. Intervalo de confianza para la media poblacional . . . . . . . . . . . . . . . . . 113
9.8. Intervalo de confianza para la diferencia de medias. . . . . . . . . . . . . . . . . 114
9.9. Tamaño de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
10.Contraste de hipótesis 117

10.1. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10.1.1. Contrastes de hipótesis sobre la media de una distribución . . . . . . . . 119
10.2. Inferencia Estadı́stica para la diferencia de dos muestras . . . . . . . . . . . . . 122
6 ÍNDICE GENERAL
Tema 1
Funciones reales de variable real.

Funciones elementales, lı́mites,
continuidad, derivabilidad y
aplicaciones
1.1. Números reales y nociones básicas sobre funciones

1.1.1. Conjuntos numéricos. Conceptos de supremo, ı́nfimo, máximo y mı́ni-
mo
Las necesidades sucesivas del hombre han obligado a modificar sus herramientas de tra-
bajo para resolver problemas más complejos. Ası́, hay una evolución en el desarrollo de los
conjuntos numéricos, siendo los más frecuentes los siguientes.
Naturales N = {1, 2, 3, . . .} (contar)

imposibilidad de resolver p.ej. x + 7 = 0.
Enteros Z = N ∪ {0} ∪ {−n : n ∈ N} (N ⊂ Z)

imposibilidad de resolver p.ej. 3x = 2.
p
Racionales Q = { : p ∈ Z, q ∈ N}
q
(N ⊂ Z ⊂ Q) imposible resolver p.ej. x2 − 2 = 0.
Reales R = “clausura/completado” de Q
(N ⊂ Z ⊂ Q ⊂ R) recta real; axioma del supremo = Teor. de Cantor = Teor. de Bolzano
imposibilidad de resolver ecuaciones como x2 + 1 = 0.
Complejos C = {a + bi : a, b ∈ R, i2 = −1}
(N ⊂ Z ⊂ Q ⊂ R ⊂ C) Toda ecuación algebraica tiene solución en C
7
8 TEMA 1. FUNCIONES, LÍMITES, CONTINUIDAD Y DERIVABILIDAD
Operaciones y orden. Propiedades

De la Suma (+) N Z Q, R, C
Asociativa: a + (b + c) = (a + b) + c sı́ sı́ sı́
Conmutativa: a + b = b + a sı́ sı́ sı́
El. Neutro: a + 0 = 0 + a = a sı́ sı́
El. Simétrico: a + (−a) = (−a) + a = 0 sı́ sı́
Del Producto(·)
Asociativa: a · (b · c) = (a · b) · c sı́ sı́ sı́
Conmutativa: a · b = b · a sı́ sı́ sı́
El. Neutro: a · 1 = 1 · a = a sı́ sı́ sı́
El. Simétrico: a · a−1 = a−1 · a = 1 sı́
Prop. distributiva:
a · (b + c) = a · b + a · c sı́ sı́ sı́
Q es un cuerpo ordenado
(Q, +, ·) es un cuerpo conmutativo.
Se define una relación (≤) de orden: dados p, q, m, n ≥ 0, pq ≤ m
n ⇔ pn ≤ qm.
Propiedades:
Reflexiva: ∀a ∈ Q : a ≤ a.
Antisimétrica: a ≤ b, b ≤ a ⇒ a = b.
Transitiva: a ≤ b, b ≤ c ⇒ a ≤ c.
Además, dicha relación es total: ∀a, b ∈ Q, a ≤ b ó b ≤ a.
La relación de orden es compatible con la suma y el producto:
a ≤ b ⇒ a+c≤ b+c ∀a, b, c ∈ Q,

a ≤ b, c ≥ 0 ⇒ a·c≤b·c ∀a, b, c ∈ Q.
(Q, +, ·, ≤) es un cuerpo ordenado. Podemos representarlos en un recta, PERO hay puntos

en la recta que no se corresponden con ningún racional.
√
Teorema 1.1. 2 6∈ Q, es decir, no existe ningún número racional cuyo cuadrado sea 2.
2
Demostración. Por Reducción al Absurdo: supongamos que existe pq ∈ Q tal que pq = 2 y
llegaremos a una contradicción.
Sin pérdida de generalidad podemos suponer que p y q ∈ Z no tienen factores comunes.
2
Como pq2 = 2, se tiene p2 = 2q 2 , luego p2 es par. Ası́ también p es par (p = 2k) (si fuera
impar, p2 también lo serı́a). Luego p2 = 4k2 , con lo que q 2 es par y q también.
Para “completar” la recta hasta llenarla debemos ampliar hasta los números reales. [más
adelante veremos axiomas sobre su construcción: del supremo, y el Teorema de Bolzano.]
R es un cuerpo ordenado
1.1. NÚMEROS REALES Y NOCIONES BÁSICAS SOBRE FUNCIONES 9
En todo R se pueden definir operaciones suma (+) y producto (·) que extienden las defi-
nidas antes, y una relación de orden (≤) que también es total.
Dados a, b ∈ R, diremos que
a ≥ b si b ≤ a.
a < b si a ≤ b y a 6= b.
a > b si b < a.
Números reales. Axioma del supremo
Definición 1.2. Sea S ⊂ R. Se dice que:

a ∈ R es cota superior de S cuando x ≤ a ∀x ∈ S.
a ∈ R es cota inferior de S cuando a ≤ x ∀x ∈ S.
S está acotado superiormente si tiene una cota superior.
S está acotado inferiormente si tiene una cota inferior.
S está acotado si tiene cotas superior e inferior.
supremo de S (sup S) la menor cota superior.
ı́nfimo de S (ı́nf S) la mayor cota inferior.
máximo de S (máx S) al sup S si pertenece a S.
mı́nimo de S (mı́n S) al ı́nf S si pertenece a S.
Axioma del supremo Todo subconjunto no vacı́o de R acotado superiormente tiene un

supremo en R.
∅=
6 S ⊂ R, S acot. sup. ⇒ ∃sup S ∈ R.
ESTE AXIOMA NO SE CUMPLE EN Q
√
S = {x ∈ Q : x2 < 2} ⊂ Q ⇒ sup S = 2 6∈ Q.
(La prueba usa propiedades de densidad.)
Propiedades de R:
Propiedad (axioma) del ı́nfimo: todo subconjunto no vacı́o de R acotado inferiormente

tiene ı́nfimo.
∀x ∈ R, x > 0, ∃n ∈ N : x < n.
Propiedad arquimediana: ∀x > 0 ∀y ∈ R, ∃n ∈ N : y < nx. Una regla corta puede

medir distancias largas.
Densidad de los racionales:
∀x, y ∈ R, ∃q ∈ Q : x < q < y.
Entre dos números reales distintos siempre existe un racional, y en consecuencia, infinitos
racionales.
Densidad de los irracionales:

∀x, y ∈ R, ∃z ∈ R\Q : x < z < y.
Subconjuntos de R. Intervalos
[a, b] = {x ∈ R : a ≤ x ≤ b} intervalo cerrado.

(a, b) = {x ∈ R : a < x < b} intervalo abierto.
[a, b) = {x ∈ R : a ≤ x < b} semi-abierto semi-cerrado.
(a, b] = {x ∈ R : a < x ≤ b} semi-abierto semi-cerrado.
(−∞, b] = {x ∈ R : x ≤ b} intervalo no acotado.
(−∞, b) = {x ∈ R : x < b} intervalo no acotado.
[a, +∞) = {x ∈ R : a ≤ x} intervalo no acotado.
(a, +∞) = {x ∈ R : a < x} intervalo no acotado.
R = (−∞, +∞), R− = (−∞, 0], R+ = [0, +∞).
Función valor absoluto

x si x ≥ 0,
|x| = x ∈ R.
−x si x < 0,
Propiedades:
1. |x| ≥ 0 ∀x ∈ R.
2. |x| = 0 ⇔ x = 0.
3. |xy| = |x||y|, ∀x, y ∈ R.
4. | − x| = |x| ∀x ∈ R.
5. Desigualdad triangular: |x + y| ≤ |x| + |y| ∀x, y ∈ R.

6. |x| − |y| ≤ |x| − |y| ≤ |x − y| ∀x, y ∈ R.
7. |x| ≤ a ⇔ −a ≤ x ≤ a ∀x ∈ R, a > 0.
8. |x − b| ≤ a ⇔ b − a ≤ x ≤ b + a ∀x, b ∈ R, a > 0.
9. |x| ≥ k ⇔ x ≥ k ó x ≤ −k, ∀x ∈ R, k ≥ 0.
Las tres últimas propiedades también son ciertas con < y > en vez de ≤ y ≥ .
1.1.2. Algunos conceptos sobre funciones. Composición e inversa

Definición 1.3. Se llama función (real de variable real) a toda aplicación
f : R →R
x 7→ f (x)
que a cada número x le hace corresponder otro valor f (x).
1.1. NÚMEROS REALES Y NOCIONES BÁSICAS SOBRE FUNCIONES 11
Definición 1.4. Se llama dominio de una función f (lo denotaremos por Dom f ) al conjunto
de valores para los que está bien definida f (x) :
Domf = {x ∈ R : ∃f (x) ∈ R}.
f : Domf ⊂ R → R : x 7→ f (x).
Habrá ocasiones en que nos den una fórmula y debamos hallar el dominio en que es válida
aplicarla:
√
f (x) = x Domf = R+ .
1
f (x) = Domf = R\{0}.
x
Imagen o rango o recorrido de f ≡ valores que toma f :
Imf = {f (x) : x ∈ Domf }.
Sea f : Domf ⊂ R → R. Se dice que es:
Par si f (−x) = f (x) ∀x ∈ Domf.

Impar si f (−x) = −f (x) ∀x ∈ Domf.
Periódica si ∃T > 0 : f (x + T ) = f (x) ∀x ∈ Domf.
(Representación) Gráfica de f a la representación en ejes cartesianos del siguiente
conjunto de puntos del plano:
{(x, f (x)) ∈ R2 : x ∈ Domf }.
Antes incluso de describir las funciones elementales, debemos mostrar un procedimiento

que ayudará, una vez tengamos definido un conjunto de funciones, a “combinarlas” para ge-
nerar más, e incluso definir otras que cumplan determinadas propiedades respecto de estas
combinaciones. Este procedimiento es la composición de funciones.
Definición 1.5. Dadas dos funciones f : S ⊂ R → R, g : T ⊂ R → R tales que f (S) ⊂ T, se

define la función compuesta g ◦ f : S ⊂ R → R : x 7→ (g ◦ f )(x) = g(f (x)).
Ejemplo 1.6. En general g ◦ f 6= f ◦ g. Sean f (x) = x2 , g(x) = x + 1. g(f (x)) = x2 + 1,

f (g(x)) = (x + 1)2 .
Definición 1.7. Llamamos función inversa o recı́proca respecto de la composición de una

función dada f : S → R y notamos f −1 , a una función f −1 : f (S) → R tal que y ∈ f (S) 7→
f −1 (y) = x con f (x) = y.
Se cumple entonces que (f ◦ f −1 )(x) = x ∀x ∈ S,

(f −1 ◦ f )(y) = y ∀y ∈ f (S).
Además, se obtiene la siguiente relación de simetrı́a entre las representaciones gráficas de
una función y su inversa (ya que consiste en intercambiar los papeles de las variables x e y).
Simetrı́a respecto la bisectriz del primer cuadrante:
y
6 y = x2
y=x
√
y= x
-
x
Simetrı́a respecto la bisectriz
1.2. Funciones elementales

Funciones polinómicas
p : R → R : x 7→ p(x) = a0 + a1 x + a2 x2 + . . . + an xn donde ai ∈ R i = 0, 1, 2, . . . , n, siendo
an 6= 0.
Domp = R
Caso n = 1. Recta
Sólo son necesarios dos valores
y

6

• a0
La recta y = a0 + a1 x

-

x

Caso n = 2. La parábola p(x) = ax2 + bx + c (con a 6= 0)

Puede tener hasta dos puntos de corte con el eje OX.
y
6
-
• •
x
A • B
b b

V V = − 2a , p(− 2a )
1.2. FUNCIONES ELEMENTALES 13
√
−b ± b2 − 4ac
A, B =
2a
Para grados superior a 2 debemos esperar a tener más herramientas para conocer su re-
presentación gráfica.
Para el estudio del signo de un polinomio, resultará muy útil conocer procedimientos de
factorización. Recordamos brevemente con ejemplos cómo se aplica la Regla de Ruffini para
dividir (y eventualmente factorizar) un polinomio de grado cualquiera entre otro de grado
uno.
Se toman los coeficientes del polinomio del numerador y el elemento opuesto (cambio de
signo) del coeficiente de grado cero del denominador y opera como en el ejemplo (se baja el
primer coeficiente, multiplica, se sube el resultado y se suma):
x3 − 3x2 − 7x − 8
Ejemplo 1.8. Queremos calcular el cociente
x−5
1 -3 -7 8
5 5 10 15
1 2 3 7
Observa los números obtenidos a través de la operación anterior. Salvo el último (recua-
drado), que es el resto, los demás, denotan los coeficientes de un polinomio un grado menor,
o sea, 2:
Esto nos dice que
x3 − 3x2 − 7x − 8 = (x − 5)(x2 + 2x + 3) + 7
(compruébalo desarrollando la expresión de la derecha). Dicho de otro modo, si evaluamos

p(5), siendo p(x) = x3 − 3x2 − 7x − 8, obtenemos p(5) = 7.
El caso interesante se produce cuando el resto es cero (en lugar de 7), eso dice que cierto
número (en este caso habrı́a sido 5) es un cero o raı́z del polinomio y, por tanto, que éste
puede factorizarse como (x − 5) por otro polinomio de un grado menos.
Ejemplo 1.9. Sea q(x) = x4 + x3 − 7x2 + 4. Puedes comprobar que q(2) = 0, eso indica
que q(x) = (x − 2)r(x) con r(x) otro polinomio de grado 3. Para hallarlo desarrollamos por
Ruffini (ojo, hay que poner los coeficientes de todos los monomios, incluidos 0 por aquéllos
que no aparecen):
1 1 -7 0 4
2 2 6 -2 -4
1 3 -1 -2 0
Comprueba, desarrollando el producto, que se tiene la siguiente igualdad:
x4 + x3 − 7x2 + 4 = (x − 2)(x3 + 3x2 − x − 2).

Funciones racionales
p(x)
f (x) = con p y q funciones polinómicas.
q(x)
Domf = {x ∈ R : q(x) 6= 0} = R\{x ∈ R : q(x) = 0}.
Función exponencial
f (x) = ax , a ∈ R, a > 0, x ∈ R. Domf = R.
Se define/construye usando sucesivamente exponentes de N, Z y Q, y se extiende a todo

R usando el axioma del supremo.
Propiedades:
ar+s = ar as , (ar )s = ar·s , (a · b)r = ar · br
Si x, y ∈ R, x < y :
ax < ay cuando a > 1 (creciente).
ax > ay cuando a < 1 (decreciente).
2x
50
45
40
35
30
25
20
15
10
−6 −4 −2 0 2 4 6
x
Función logarı́tmica (a > 0, a 6= 1)

f : (0, +∞) → R : x 7→ f (x) = loga x
loga x = y ⇔ ay = x inversa exponencial.
Propiedades:
x
loga 1 = 0, loga a = 1, loga (x · y) = loga x + loga y, loga (xm ) = m · loga x, loga y = loga x −
loga y.
1.2. FUNCIONES ELEMENTALES 15
a > 1 y 0 < x < y ⇒ loga x < loga y. (función creciente)

a < 1 y 0 < x < y ⇒ loga x > loga y. (función decreciente)
log(x)
2
1.5
0.5
−0.5
−1
−1.5
−2
0 1 2 3 4 5 6
x
Funciones trigonométricas
f (x) = sen x. Domf = R, Imf = [−1, 1], 2π−periódica.
sin(x)
0.5
−0.5
−1
−6 −4 −2 0 2 4 6
x
f (x) = cos x. Domf = R, Imf = [−1, 1], 2π−periódica.

cos(x)
0.5
−0.5
−1
−6 −4 −2 0 2 4 6
x
Teorema 1.10. (Pitágoras) En un triángulo rectángulo el cuadrado de la hipotenusa es igual

a la suma de los cuadrados de los catetos: h2 = c21 + c22 .
Si normalizamos: (sen x)2 + (cos x)2 = 1.
Función tangente:
sen x
f (x) = tg x = .
π
cos x
Domf = R\{ 2 + kπ : k ∈ Z}, Imf = R, π−periódica.
tan(x)
−2
−4
−6
−6 −4 −2 0 2 4 6
x
Sus respectivas funciones inversas (respecto de la división):
1 1 1
cosec x = , sec x = , cotg x = .
sen x cos x tg x
1.3. LÍMITES DE FUNCIONES 17
Funciones inversas (respecto de la composición):
arcsen x, arccos x, arctg x.
1.3. Lı́mites de funciones

Aunque se puede hacer para un subconjunto real cualquiera, para evitar introducir nocio-
nes topológicas, en lo que sigue consideraremos funciones definidas sobre intervalos reales. En
lo que sigue, denotaremos S = (a, b) ⊂ R y S = [a, b].
Definición 1.11. Sean f : S ⊂ R → R y x0 ∈ S. Decimos que l ∈ R es el lı́mite de f cuando

x tiende a x0 , y lo denotamos lı́m f (x) = l si
x→x0
∀ε > 0 ∃δ : ∀x ∈ S con 0 < |x − x0 | < δ ⇒ |f (x) − l| ≤ ε.
El lı́mite, si existe, es único.
Ejemplo 1.12. f : R\{0} → R : x 7→ xsen x. Se tiene que lı́m f (x) = 0 (basta tomar δ = ε).
x→0
Comprobar
que ocurre lo mismo con la función
x si x ∈ Q,
g(x) =
0 si x 6∈ Q.
También se puede adaptar al caso en que la función “explota”
lı́m f (x) = +∞ ⇔ ∀M > 0 ∃ δ > 0 : ∀x ∈ S con

x→x0
0 < |x − x0 | < δ ⇒ f (x) > M.
lı́m f (x) = −∞ ⇔ ∀M > 0 ∃ δ > 0 : ∀x ∈ S con

x→x0
0 < |x − x0 | < δ ⇒ f (x) < −M.
1
Ejemplo 1.13. lı́m = +∞.
x→0 |x|
Análogamente, el caso en que el lı́mite existe cuando x tiende a infinito:
lı́m f (x) = l ⇔ ∀ε > 0 ∃ M > 0 : ∀x ∈ S con

x→+∞
M < x ⇒ |f (x) − l| < ε.
lı́m f (x) = l ⇔ ∀ε > 0 ∃ M > 0 : ∀x ∈ S con

x→−∞
x < −M ⇒ |f (x) − l| < ε.
1 1
Ejemplo 1.14. lı́m = lı́m = 0.
x→+∞ x x→−∞ x
A veces no podemos asegurar la existencia de lı́mite en torno a un punto, pero sı́ estudiar
los lı́mites laterales (por la derecha e izquierda respectivamente):
lı́m f (x) = l ⇔ ∀ε > 0 ∃δ : ∀x ∈ S con

x→x+
0
0 < x − x0 < δ ⇒ |f (x) − l| ≤ ε.
lı́m f (x) = l ⇔ ∀ε > 0 ∃δ : ∀x ∈ S con

x→x−
0
0 < x0 − x < δ ⇒ |f (x) − l| ≤ ε.
Ejemplo 1.15. La función parte entera E : R → R verifica lı́m E(x) = n pero lı́m E(x) =
x→n+ x→n−
n − 1.
Teorema 1.16. Dada f : S ⊂ R → R se cumple que lı́m f (x) existe y vale l ∈ R si y solo
x→x0
si existen los lı́mites laterales lı́m f (x) y lı́m f (x) y tienen el mismo valor.
x→x+
0 x→x−
0
El resultado, leı́do de forma negativa, dice que si los lı́mites laterales no coinciden, no
existe lı́mite de la función en ese punto.
Teorema 1.17 (Fundamental del lı́mite). Sea f : S ⊂ R → R. Dado x0 ∈ S

∀{xn } ⊂ S
lı́m f (x) = l ⇔ ⇒ {f (xn )} → l.
x→x0 xn 6= x0 , xn → x0
Ejemplo 1.18. Considérese f (x) = sen x1 , y las sucesiones xn = 1

nπ e yn = 1
2πn+π/2 . Se tiene
1
que f (xn ) ≡ 0 y que f (yn ) ≡ 1 luego 6 ∃ lı́m sen .
x→0 x
Propiedades de lı́mites:
lı́m f (x) = l < c ⇒ ∃δ > 0 : ∀x ∈ S

x→x0
0 < |x − x0 | < δ ⇒ f (x) < c.
Análogamente con c < l.
lı́m f (x) = l 6= 0 ⇒ ∃δ > 0 : ∀x ∈ S

x→x0
0 < |x − x0 | < δ ⇒ signof (x) = signo l.
)
lı́m f (x) = l, lı́m g(x) = l′ ,
x→x0 x→x0 ⇒ l ≤ l′ .
∃δ > 0 : 0 < |x − x0 | < δ ⇒ f (x) ≤ g(x)

lı́m f (x) = lı́m g(x) = l, ∃δ > 0 : 
x→x0 x→x 0
0 < |x − x0 | < δ ⇒ g(x) ≤ h(x) ≤ f (x)  ⇒ x→x
lı́m h(x) = l.
0
x∈S
1.4. CONTINUIDAD DE FUNCIONES 19
Teorema 1.19. Sean f, g : S ⊂ R → R tales que existen l, l′ ∈ R, y lı́m f (x) = l, lı́m g(x) =
x→x0 x→x0
l′ . Entonces existen los siguientes lı́mites:
lı́m [f (x) ± g(x)] = l ± l′ ,
x→x0
lı́m f (x) · g(x) = l · l′ ,
x→x0
f (x) l
Si l′ 6= 0 lı́m = ′.
x→x0 g(x) l
Observación 1.20 (Indeterminaciones). Cuando los valores l y l′ no son reales, sino +∞
ó −∞, nos encontraremos con problemas. Se trata de expresiones que no tienen a priori
un valor concreto (por ello las llamaremos indeterminaciones), sino que hay que hallarlo
explı́citamente en cada caso. Expresiones indeterminadas que pueden aparecer son:
∞ 0
1∞ , 0 · ∞, ∞ − ∞, , , ∞0 , 00 .
∞ 0
Algunas que podremos resolver en este mismo tema usando las propiedades precedentes son
∞−∞ (por ejemplo sacando factor común o multiplicando por el conjugado) o ∞ ∞ (será simple
si se trata de funciones racionales). Un dominio total de las indeterminaciones requerirá he-
rramientas del próximo tema de derivación, como por ejemplo la Regla de L’Hôpital.
1.4. Continuidad de funciones

Definición 1.21. Sea f : S ⊂ R → R y x0 ∈ S. Se dice que f es continua en x0 cuando
∃ lı́m f (x) = f (x0 ).
x→x0
Esto equivale a decir que

∀ε > 0, ∃δ > 0 : |x − x0 | < δ ⇒ |f (x) − f (x0 )| < ε.
Igual que los lı́mites laterales, podemos hablar de continuidad por la derecha e izquierda en
x0 :
∃ lı́m f (x) = f (x0 ), ∃ lı́m f (x) = f (x0 ).
x→x+
0 x→x−
0
f es continua en x0 ⇔ lo es a derecha e izquierda en x0 .

Dado A ⊂ S, se dice que f es continua en A si lo es en todo punto de A.
Si A = [a, b], entendemos que continuidad en a (resp. b) es por la izquierda (resp. derecha).
Teorema 1.22. Dados f : S ⊂ R → R, x0 ∈ S, f es continua en x0 ⇔ ∀{xn } ⊂ S, xn →
x0 ⇒ f (xn ) → f (x0 ).
Ejemplo 1.23.
f (x) = |x| es continua en todo R.
xsen x1 si x 6= 0,
f (x) = es continua en todo R.
0 si x = 0
|x|
si x 6= 0,
f (x) = x no es continua en x = 0.
0 si x = 0
Las funciones elementales vistas antes (polinomiales, racionales, exponenciales, logarı́tmicas
y trigonométricas) son continuas en sus dominios de definición.
Álgebra de funciones continuas

Teorema 1.24. Sean f, g : S ⊂ R → R funciones continuas en x0 ∈ S. Entonces f ± g y f · g
son continuas en x0 . Si g(x0 ) 6= 0, también lo es fg .
Teorema 1.25. Sean f : S ⊂ R → R, g : T ⊂ R → R tales que f (S) ⊂ T. Si f es continua

en x0 ∈ S y g es continua en f (x0 ), entonces la función compuesta g ◦ f es continua en x0 .
1.4.1. Discontinuidad de funciones. Clasificación

Definición 1.26. Decimos que f es discontinua en x0 si no es continua en x0 . Los posibles
motivos:
x0 ∈
6 Domf.
6 ∃ lı́m f (x).
x→x0
∃ lı́m f (x) 6= f (x0 ).
x→x0
La clasificación de posibles discontinuidades es la siguiente.

(
6 ∃f (x0 ),
a) Discontinuidad evitable: ∃ lı́m f (x) (un valor finito) pero lı́m f (x) 6= f (x0 ).
x→x0
x→x0

|x| si x 6= 0, x2 − 1
Dos ejemplos: f (x) = g(x) = .
1 si x = 0. x+1
b) Discontinuidad de salto (finito): ∃ lı́m f (x) que notaremos f (x+

0 ), y ∃ lı́m f (x) que
x→x+
0 x→x−
0
notaremos f (x−
0) pero son distintos.
(Al valor f (x+ −
0 ) − f (x0 ) se le llama salto de la función f en x0 ).

 1 si x > 0,
f (x) = sig(x) 0 si x = 0,

−1 si x < 0.
c) Discontinuidad de salto infinito: cuando alguno de los lı́mites laterales (o ambos) valen
±∞.
1 1
Ejemplos: f (x) = , g(x) = .
x |x|
d) Discontinuidad esencial: 6 ∃ lı́m f (x).

x→x0

sen x1 si x 6= 0,
Por ejemplo, f (x) =
0 si x = 0.
1.4. CONTINUIDAD DE FUNCIONES 21
1.4.2. Propiedades de funciones continuas

Sea f : S ⊂ R → R. Se dice que f está acotada superiormente (inferiormente) si el conjunto
f (S) = {f (x) : x ∈ S}
está acotado superiormente: ∃M : ∀x ∈ S, f (x) ≤ M.

(inferiormente: ∃m : ∀x ∈ S, f (x) ≥ m.)
Decimos que está acotada si lo está superior e inferiormente: ∃M > 0 : ∀x ∈ S, |f (x)| ≤
M.
Dado un subconjunto A ⊂ S, podemos considerar las propiedades de acotación de f sólo

en el conjunto A.
Ejemplo 1.27. f (x) = |x| está acotada inferiormente.

g(x) =senx está acotada.
h(x) = −x2 está acotada superiormente.
j(x) = x3 no está acotada ni superior ni inferiormente.
k(x) = 1/x está acotada en el intervalo [1, 2] pero no lo está en (0, 1).
Ser continua sobre un intervalo abierto no asegura acotación.
Teorema 1.28.
• (continuidad implica acotación local): f : (a, b) → R, f continua en x0 ⇒ ∃δ > 0 : f
acotada en (x0 − δ, x0 + δ).
• Si a ∈Domf, y f es continua en a por la derecha, entonces ∃δ > 0 : f acotada en
[a, a + δ). (Resultado análogo para el extremo b).
• (continuidad en intervalo cerrado y acotado sı́ implica acotación) f continua en [a, b] ⇒
f acotada en [a, b].
Máximos y mı́nimos
Definición 1.29. Sea f : S ⊂ R → R. Se dice que f tiene un máximo absoluto en c ∈ S
(resp. mı́nimo) si f (x) ≤ f (c) para todo x ∈ S (resp. f (x) ≥ f (c)).
Se dice que tiene un máximo (resp. mı́nimo) relativo o local en c ∈ S cuando existe δ > 0
tal que f (x) ≤ f (c) (resp. f (x) ≥ f (c)) para todo x ∈ (c − δ, c + δ).
En general hablamos de extremos para referirnos a máximos y mı́nimos.
Teorema 1.30.
•[Weierstrass] Sea f : [a, b] → R continua. Entonces f alcanza máximo y mı́nimo abso-
lutos. (Nota: el resultado es falso si el intervalo de partida no es cerrado o no es acotado,
incluso aunque f sea acotada.)
• [Bolzano] f : [a, b] → R continua y con signo distinto en los extremos f (a) y f (b),
entonces ∃c ∈ (a, b) tal que f (c) = 0.
• [Darboux, valores intermedios] f : [a, b] → R continua. Entonces f alcanza todos los
valores comprendidos entre su máximo y su mı́nimo.
Probar que todo polinomio de grado impar tiene al menos una raı́z real, y que su imagen
es todo R
Probar que la ecuación x−senx = 1 tiene al menos una raı́z real.
Funciones monótonas
Definición 1.31. Sea f : S ⊂ R → R.
f creciente si ∀x, y ∈ S : x < y ⇒ f (x) ≤ f (y).
f decreciente si ∀x, y ∈ S : x < y ⇒ f (x) ≥ f (y).
f estrictamente creciente si ∀x, y ∈ S : x < y ⇒ f (x) < f (y).
f estrictamente decreciente si ∀x, y ∈ S : x < y ⇒ f (x) > f (y).
En general, decimos f monótona si cumple alguno de los casos anteriores.
El siguiente resultado se extiende de forma similar para funciones decrecientes.
Teorema 1.32. Sea f : [a, b] → R una función creciente. Entonces para todo c ∈ (a, b) se
verifica:
∃ lı́m f (x) = f (c− ), ∃ lı́m f (x) = f (c+ ).
x→c− x→c+
Además, se cumple que f (c− ) ≤ f (c) ≤ f (c+ ).

Para los extremos del intervalo, se tiene f (a) ≤ f (a+ ) y f (b− ) ≤ f (b).
Observación 1.33.
Una función monótona sólo puede tener discontinuidades de salto.
Una función f estrictamente monótona en su dominio de definición admite a lo sumo

una solución de la ecuación f (x) = 0.
Para las funciones continuas y monótonas estrictas, es posible construir la función in-
versa respecto de la composición, y es también continua y estrictamente monótona.
Como ejemplo podemos considerar la función f (x) : R+ → R+ : x 7→ f (x) = xn con
n ∈ N.
1.5. Derivadas: cálculo, propiedades y aplicaciones

En este tema comenzamos el estudio del cálculo diferencial, una herramienta que nos
será muy útil tanto en la representación gráfica como en el cálculo de óptimos de una función
dada.
1.5. DERIVADAS: CÁLCULO, PROPIEDADES Y APLICACIONES 23
1.5.1. Concepto de derivada

Definición 1.34. Sea f : S ⊂ R → R, a ∈ (b, c) ⊆ S. Decimos que f es derivable en a si
existe:
f (x) − f (a)
lı́m ∈ R.
x→a x−a
Dicho valor se denota como f ′ (a), se llama derivada de f en a y también se puede escribir
como
f (a + h) − f (a)
lı́m ,
h→0 h
donde x − a = h.
Observación 1.35. Para que la derivada exista tiene que existir el lı́mite, es decir, deben
existir los lı́mites laterales y coincidir.
Definición 1.36. Una función f se dice derivable en A si lo es en todo punto a ∈ A.
Ejemplo 1.37. a) f (x) = x2 es derivable en a = 2 y su derivada vale f ′ (2) = 4, ya que:
f (2 + h) − f (2) (2 + h)2 − 22 h2 + 4h
f ′ (2) = lı́m = lı́m = lı́m = lı́m (h + 4) = 4.
h→0 h h→0 h h→0 h h→0
b) f (x) = |x| no es derivable en a = 0, pues
|h| − |0| h
f+′ (0) = lı́m = lı́m =1
h→0+ h h→0 h+
pero
|h| − |0| −h
f−′ (0) = lı́m = lı́m = −1.
h
h→0− h→0 − h
Luego existen las derivadas laterales, pero los lı́mites no coinciden. Entonces, la función
valor absoluto no es derivable en a = 0.
c) f (x) = x1/3 no es derivable en a = 0, ya que:
h1/3 − 01/3 1
f ′ (0) = lı́m = lı́m 2/3 = +∞
h→0 h h→0 h
luego no se trata de un número real. En este caso, se dice que la función tiene derivada
+∞ en a = 0.
Definición 1.38 (Función derivada). Sean f : S ⊂ R → R y T = {x ∈ S/ ∃ f ′ (x)}. La

función:
x ∈ T 7→ f ′ (x) ∈ R
se llama función derivada primera de f y se representa por f ′ .
Análogamente se pueden definir las derivadas sucesivas:
f ′′ = (f ′ )′ , f ′′′ = (f ′′ )′ , f iv) = (f ′′′ )′ , ...

1.5.2. Interpretación geométrica de la derivada

Si f es derivable en a, f ′ (a) es un número real que coincide con la pendiente de la recta
tangente a la curva y = f (x) en el punto (a, f (a)).
0 0.5 1 1.5 2
x
–1
− − − − es la función y = x2
⋄ ⋄ ⋄ ⋄ es la tangente en el punto (1, 1), y = 2x − 1
× × × × es la recta normal en el punto (1, 1), y = (3 − x)/2
Definición 1.39. Se define la recta de pendiente m que pasa por el punto (x0 , y0 ) como:
y − y0 = m (x − x0 )
Dos rectas de pendientes m y m,
e respectivamente, se dice que son perpendiculares cuando
o
forman un ángulo de 90 . Entonces, se puede comprobar que la relación entre sus pendientes
e = −1/m.
es m
Definición 1.40. Si f es derivable en a y f ′ (a) 6= 0, entonces la pendiente de la recta tangente
en el punto (a, f (a)) es f ′ (a), y la pendiente de la recta normal es − f ′1(a) .
y − f (a) = f ′ (a) (x − a) es la recta tangente a y = f (x) en el punto (a, f (a)).

1
y − f (a) = − (x − a) es la recta normal a y = f (x) en el punto (a, f (a)).
f ′ (a)
Observación 1.41. Si f ′ (a) = 0, entonces la recta tangente es horizontal. Si f ′ (a) = ±∞,
entonces la recta tangente es vertical.
Teorema 1.42. Si f es derivable en a, entonces f es continua en a.
Demostración: Supongamos que f es derivable en a. Entonces, existe lı́mx→a f (x)−f x−a
(a)
=
f ′ (a). Para la continuidad de f en a, vemos que lı́mx→a f (x) = f (a). Notemos que si x 6= a,
f (x) − f (a)
f (x) − f (a) = · (x − a), luego lı́mx→a f (x) − f (a) = f ′ (a) · lı́m (x − a) = 0
x−a x→a
Observación 1.43. El recı́proco no es cierto, es decir, una función continua en un punto no

tiene por qué ser derivable en ese punto. Considérese el ejemplo f (x) = |x| en a = 0.
1.5. DERIVADAS: CÁLCULO, PROPIEDADES Y APLICACIONES 25
1.5.3. Álgebra de derivadas
Teorema 1.44. Sean f , g : S ⊂ R → R dos funciones derivables en a. Entonces, se verifica:
1. f ± g es derivable en a, siendo:
(f ± g)′ (a) = f ′ (a) ± g′ (a)
2. Si λ ∈ R, entonces λ · f es derivable, siendo:
(λ · f )′ (a) = λ · f ′ (a)
3. f · g es derivable en a, siendo:
(f · g)′ (a) = f ′ (a) · g(a) + f (a) · g′ (a)
f
4. Si g′ (a) 6= 0, es derivable en a, siendo:
g
′
f f ′ (a) · g(a) − f (a) · g′ (a)
(a) =
g (g(a))2
1.5.4. Derivadas de las funciones elementales

Derivadas de funciones elementales Regla de la cadena
Potencia
(xn )′ = nxn−1 (f (x)n )′ = nf (x)n−1 f ′ (x)
Exponenciales
′
(ex )′ = ex ef (x) = ef (x) f ′ (x)
′
(ax )′ = ax · (ln a) af (x) = (ln a)af (x) f ′ (x)
Logarı́tmicas
1 1
(ln x)′ = , x > 0 (ln f (x))′ = f ′ (x)
x f (x)
1 1 1 1 ′
(loga (x))′ = (loga f (x))′ = f (x)
ln a x ln a f (x)
Trigonométricas
(senx)′ = cos x (senf (x))′ = f ′ (x) cos f (x)
(cos x)′ = −senx (cos f (x))′ = −f ′ (x) senf (x)
1
(tan x)′ = 1 + (tan x)2 = (tan f (x))′ = [1 + (tan f (x))2 ] f ′ (x)
(cos x)2
−1
(cotanx)′ = −(1 + (cotanx)2 ) = (cotanf (x))′ = − [1 + (cotanf (x))2 ] f ′ (x)
(senx)2
Inversas trigonométricas
1 f ′ (x)
(arcsenx)′ = √ , si |x| < 1 (arcsenf (x))′ = p
1 − x2 1 − f (x)2
−1 −f ′ (x)
(arccosx)′ = √ , si |x| < 1 (arc cos f (x))′ = p
1 − x2 1 − f (x)2
1 f ′ (x)
(arctanx)′ = (arctan f (x))′ =
1 + x2 1 + f (x)2
−1 −f ′ (x)
(arccotanx)′ = (arccotanf (x))′ =
1 + x2 1 + (f (x))2
1.6. APLICACIONES DE LAS DERIVADAS 27
Teorema 1.45 (Regla de la cadena). Sean f : S ⊂ R → R, g : T ⊂ R → R tales que

f (S) ⊂ T . Si f es derivable en a ∈ S y g es derivable en f (a) ∈ T , entonces g ◦ f es
derivable en a, y además,
(g ◦ f )′ (a) = g′ (f (a)) · f ′ (a)
Ejercicio 1.46. Calcular la derivada de la función
y = (x3 + 2x + 3)4 .
Observemos que si f (x) = x3 + 2x + 3 y g(x) = x4 , la función y es la composición g ◦ f .
1.6. Aplicaciones de las derivadas
1.6.1. Cálculo de extremos absolutos
Teorema 1.47. Sea f : S ⊂ R → R, derivable en a ∈ S con f ′ (a) > 0 (ó +∞) (respectiva-
mente, f ′ (a) < 0 (ó −∞)). Entonces, existe un intervalo (a−δ, a+δ) tal que ∀x ∈ (a−δ, a+δ),
x 6= a se tiene:

f (x) < f (a) si x < a (respectivamente, f (x) > f (a))
f (x) > f (a) si x > a (respectivamente, f (x) < f (a))
es decir, f es estrictamente creciente localmente en a ( o estrictamente decreciente localmente

en a).
Corolario 1.48 (Condición necesaria de extremo). Si f : S ⊂ R → R es derivable en

a ∈ (b, c) ⊂ S y f tiene un máximo o un mı́nimo relativo en x = a, entonces f ′ (a) = 0.
Demostración: Si f ′ (a) > 0, entonces por el Teorema anterior f serı́a localmente estric-
tamente creciente en un intervalo (a − δ, a + δ). Luego no tendrı́a ni máximo ni mı́nimo en
a.
Si f ′ (a) < 0, entonces por el Teorema anterior f serı́a localmente estrictamente decreciente
en un intervalo (a − δ, a + δ). Luego no tendrı́a ni máximo ni mı́nimo en a.
Luego, f ′ (a) = 0.
Observación 1.49. El recı́proco no es cierto. Consideremos, por ejemplo, la función f (x) =

x3 , donde f ′ (x) = 3x2 , f ′ (0) = 0. Pero f no tiene ni máximo ni mı́nimo en x = 0, siendo su
representación gráfica:
1
0.8
0.6
0.4
0.2
–1 –0.8 –0.6 –0.4 –0.2 0.2 0.4 x 0.6 0.8 1

–0.2
–0.4
–0.6
–0.8
–1
Observación 1.50. La condición necesaria de extremo relativo nos proporciona un método

para calcular los máximos y mı́nimos relativos de una función f . Sin embargo, no todos los
puntos de Dom(f ) que verifican dicha condición son extremos relativos de f .
Aplicación: Búsqueda de máximos y mı́nimos de una función continua.

Debemos distinguir entre intervalos acotados e intervalos no acotados:
1. Intervalos cerrados y acotados. Si f : [a, b] → R es una función continua, sabemos

que ∃ máx f (x) y ∃ mı́n f (x). Entonces, buscaremos dichos puntos entre los siguientes:
x∈[a,b] x∈[a,b]
a) extremos del intervalo: a, b,

b) puntos x ∈ (a, b) en los que f no es derivable,
c) puntos x en los que f ′ (x) = 0.
Se calculan las imágenes de estos puntos y en el (los) punto (puntos) con imagen mayor,
f alcanza el valor máximo absoluto. En el (los) punto (puntos) con imagen menor, f
alcanza el valor mı́nimo absoluto.
Ejemplo 1.51. Estudio de los extremos de la función f : [0, 4] → R, definida por:

(
2x − x2 si x ∈ [0, 2],
f (x) =
x − 2 si x ∈ (2, 4],
cuya gráfica es la siguiente:

2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0 1 2 3 4
x
Puede comprobarse que f es continua en [0, 4]. Estudiamos cada uno de los puntos:
a) Extremos del intervalo: 0, 4, donde f (0) = 0 , f (4) = 2 .

b) Puntos x en los que la función no es derivable: f es derivable en [0, 2) ∪ (2, 4].
Veamos qué ocurre en el punto x = 2.
f (2 + h) − f (2) (2 + h) − 2 − 0
f+′ (2) = lı́m = lı́m = 1.
h→0+ h h→0 + h
f (2 + h) − f (2)
f−′ (2) = lı́m
h→0− h
2(2 + h) − (2 + h)2 − 0
= lı́m
h→0− h
−h2 − 2h
= lı́m = lı́m (−h − 2) = −2.
h→0− h h→0−
′
Como f− (2) = ′
6 f+ (2), entonces f no es derivable en x = 2. Luego calculamos
f (2) = 0 .
c) Puntos en los que x ∈ (0, 4) donde f ′ (x) = 0.
(
′
2 − 2x si x ∈ (0, 2),
f (x) =
1 si x ∈ (2, 4).
Los puntos x ∈ (2, 4) no pueden tener derivada primera nula. Resolvemos la ecua-
ción 2 − 2x = 0 ⇒ x = 1 ∈ (0, 2). Luego calculamos f (1) = 1 .
Comparando las imágenes de los puntos calculados, obtenemos que el valor máximo
absoluto de f en [0, 4] es 2 y se alcanza en x = 4, y el valor mı́nimo absoluto de
f en [0, 4] es 0 y se alcanza en los puntos x = 0 y x = 2.
2. Intervalos no acotados. Se requiere el estudio gráfico de la función: estudio de

lı́m f (x), lı́m f (x), ası́ntotas, acotación de f , etc.
x→+∞ x→−∞
Ejemplo 1.52. Estudio de la función f (x) = e−1/x en Dom(f ) = R\{0}:
1.6
1.4
1.2
0.8
–100 –80 –60 –40 –20 0 20 40 x 60 80 100
Se observa que no existen máximos absolutos de la función (ni supremos de f ), pues

la función no está acotada superiormente. Tampoco existen mı́nimos absolutos de la
función, pero sı́ un ı́nfimo de f , que es el 0.
1.6.2. Monotonı́a de la función

Teorema 1.53. Sea f : [a, b] → R continua en [a, b] y derivable en (a, b).
a) Si f ′ (x) > 0 ∀x ∈ (a, b), entonces f es estrictamente creciente en (a, b).
b) Si f ′ (x) < 0 ∀x ∈ (a, b), entonces f es estrictamente decreciente en (a, b).
Teorema 1.54. Sea f : [a, b] → R continua en [a, b]. Supongamos que f es derivable en (a, b)
salvo quizás un punto c ∈ (a, b).
a) Si existe δ > 0 tal que (c − δ, c + δ) ⊂ (a, b) y f ′ (x) > 0 ∀x ∈ (c − δ, c) y f ′ (x) < 0

∀x ∈ (c, c + δ), entonces f tiene un máximo relativo en c.
b) Si existe δ > 0 tal que (c − δ, c + δ) ⊂ (a, b) y f ′ (x) < 0 ∀x ∈ (c − δ, c) y f ′ (x) > 0

∀x ∈ (c, c + δ), entonces f tiene un mı́nimo relativo en c.
Observación 1.55. Este resultado se puede usar para determinar la existencia de extremos
relativos en puntos en los que la función no es derivable.
1.6.3. Regla de L’Hôpital

Teorema 1.56 (Regla de L’Hôpital). Sean f y g dos funciones tales que:
i) lı́m f (x) = lı́m g(x) = 0,

x→a x→a
ii) existe un entorno (a − δ, a + δ) del punto a en el que f ′ y g′ están definidas,
iii) g′ no se anula en (a − δ, a + δ)\{a}.

f ′ (x)
Entonces, si ∃ lı́m = l (finito o infinito) también
x→a g ′ (x)
f (x)
existe lı́m = l.
x→a g(x)
Observación 1.57.
1. El Teorema es válido para x → a+ y x → a− . En esos casos, hay que aplicar el Teorema

en los entornos (a, a + δ) y (a − δ, a) respectivamente.
2. El Teorema es válido para x → ∞, x → +∞ y x → −∞. En estos casos, las hipótesis

son que f ′ y g′ existan en |x| > M , x > M y x < −M , respectivamente; y que g′ no se
anule en |x| > M , x > M y x < −M , respectivamente.
3. El Teorema es válido si lı́m f (x) = ∞ y lı́m g(x) = ∞.

x→a,∞ x→a,∞
4. Si lı́m f (x) = 0 y lı́m g(x) = ∞, entonces se puede intentar aplicar el Teorema de

x→a,∞ x→a,∞
L’Hôpital al cálculo de lı́m f (x) · g(x) escribiéndolo de la forma:
x→a,∞
f (x) g(x)
f (x) · g(x) = 1 o f (x) · g(x) = 1 .
g(x) f (x)
5. Si lı́m f (x) = ∞ = lı́m g(x), entonces se puede usar el Teorema para hallar
x→a,∞ x→a,∞
lı́m (f (x) − g(x)) = ”∞ − ∞”. Para ello, se escribe:
x→a,∞
1 1
g(x) − f (x)
f (x) − g(x) = 1 .
f (x)·g(x)
6. Para las indeterminaciones 00 , ∞0 , 1∞ , se expresa f (x)g(x) = eg(x)·ln(f (x)) y se aplica

al exponente las observaciones anteriores.
f ′ (x) 0
7. En el caso en que lı́m también fuese indeterminado del tipo , se puede usar de
x→a g ′ (x) 0
nuevo el Teorema de L’Hôpital siempre que f ′ y g′ verifiquen las 3 hipótesis de dicho
teorema.
Ejemplo 1.58. Calcular los siguientes lı́mites:
x3 − 3x2 + 4
1. lı́m
x→2 x2 − 4x + 4

x3 − 3x2 + 4 0 3x2 − 6x 6x − 6
lı́m 2 = “ ” = lı́m = lı́m =3
x→2 x − 4x + 4 0 x→2 2x − 4 x→2 2
π
2. lı́m x(arctgx − )
x→+∞ 2
π
π arctgx − 2
lı́m x(arctgx −
) = “∞ · 0” = lı́m 1
x→+∞ 2 x→+∞
x
1
“0” 2 −x2
= = lı́m 1+x1 = lı́m = −1
0 x→+∞ − 2 x→+∞ 1 + x2
x
f ′ (x) f (x)
Observación 1.59. De la no existencia de lı́m ′
no se implica nada sobre lı́m .
g (x) g(x)
1.6.4. Concavidad y convexidad

Definición 1.60. Una función f definida en un intervalo (a, b) se dice convexa en (a, b) si
∀x, y ∈ (a, b), x < y, el segmento que une los puntos (x, f (x)) e (y, f (y)) está por encima de
la gráfica de la función entre esos dos puntos.
–3 –2 –1 0 1 x 2 3
f es convexa en (−1, 2)
Si el segmento está por debajo, se dice que f es cóncava en (a, b).

–3 –2 –1 0 1 x 2 3
–2
–4
f es cóncava en (−2, 1)
Observación 1.61. Las funciones cóncavas y convexas no son necesariamente derivables.
Definición 1.62. Una función derivable en un punto a se dice que es convexa (respectiva-
mente cóncava) en a si existe un entorno de dicho punto en el que la curva se mantiene por
encima (respectivamente, por debajo) de la recta tangente a ella en el punto x = a.
8
6
4
2
–3 –2 –1 0 1 x 2 3
–2
–4
–6
f es convexa en (−2, 2)
10
8
6
4
2
–3 –2 –1 0 1 x 2 3
–2
–4
f es cóncava en (−2, 2)
Definición 1.63. Decimos que f tiene un punto de inflexión en (a, f (a)) si f cambia en
x = a de cóncava a convexa o de convexa a cóncava.
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x
f pasa de cóncava a convexa en (1, 1)
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x
f pasa de convexa a cóncava en (1, 1)
1.6.5. Representación Gráfica de Funciones

En la representación gráfica de funciones, podemos seguir los siguientes pasos:
1. Dominio: Dom(f ) = {x ∈ R/ f (x) ∈ R}.
2. Simetrı́as: funciones pares e impares.
3. Periodicidad
4. Cortes con los ejes:
a) Corte con el eje OX, es decir, puntos donde f (x) = 0, y cuyas coordenadas son
(x, 0).
b) Corte con el eje OY , es decir, es el punto de la forma (0, f (0)), si 0 ∈ Dom(f ).
5. Regionamiento: con las abscisas donde la función se anula y aquellas donde la función
no es continua se forman intervalos en los que la función existe y tiene signo constante
(es decir, zonas donde es positiva y zonas donde es negativa).
6. Ası́ntotas:
a) Ası́ntotas horizontales: Son las rectas horizontales de la forma y = c, donde
c = lı́m f (x).
x→±∞
Para conocer la posición de la curva respecto de la ası́ntota horizontal, tenemos
que estudiar el signo de la expresión lı́m f (x) − c:
x→±∞
(
> 0, la curva está sobre la ası́ntota
Si lı́m f (x) − c
x→±∞
< 0, la curva está debajo de la ası́ntota
Para saber si la curva corta a la ası́ntota horizontal o no, tenemos que resolver la
ecuación:
f (x) = c
b) Ası́ntotas verticales: Son las rectas verticales de la forma x = k, tales que

lı́m f (x) = ±∞.
x→k
Generalmente, los puntos k son puntos que no pertenecen al dominio de la función
f pero están cercanos al dominio. Por ejemplo, si Dom(f ) = (a, b), los puntos a y
b son posibles valores k.
c) Ası́ntotas oblicuas: Son las rectas oblicuas de la forma y = mx + n, donde
f (x)
m = lı́m ∈R
x→±∞ x
y n = lı́m (f (x) − mx) ∈ R.

x→±∞
Ahora bien, dependiendo del valor de m razonamos de la siguiente forma:
1) Si m = 0, se trata de una rama parabólica en la dirección del eje OX (ası́ntota
horizontal en y = 0), y no se calcula n.
2) Si m = ∞, se trata de una rama parabólica en la dirección del eje OY , y no
se calcula n.
3) Si m ∈ R\{0}, entonces
Si n ∈ R, entonces y = mx + n es una ası́ntota oblicua.
Si n = ∞, entonces no hay ası́ntota oblicua (se trata de una rama parabóli-
ca en la dirección de la recta y = mx).
Los puntos de corte de la curva con una ası́ntota oblicua de la forma y = mx + n
se calculan resolviendo el sistema:

y = f (x)
y = mx + n
7. Crecimiento y decrecimiento: Se estudian las zonas en las que la función es creciente

y las zonas en las que es decreciente. Para ello, estudiamos:
los valores de x ∈ Dom(f ) en los que f ′ se anula (si f ′ (x) > 0 la función es
creciente, y si f ′ (x) < 0 la función es decreciente),
los puntos x ∈ Dom(f ) para los que la derivada no existe.
Recordemos que si x = k ∈
/ Dom(f ), entonces puede existir una ası́ntota vertical en
x = k.
8. Máximos y mı́nimos: Con las herramientas estudiadas se buscan los puntos en los
que se alcanzan los máximos y mı́nimos relativos de la función.
9. Concavidad y convexidad: Como se vió anteriormente, se estudian las zonas en las

que la función es convexa (x ∈ Dom(f ) tales que f ′′ (x) > 0) y las zonas en las que es
cóncava (x ∈ Dom(f ) tales que f ′′ (x) < 0).
Observemos que las zonas de concavidad/convexidad pueden estar separadas por:
puntos x ∈ Dom(f ) donde f ′′ (x) = 0,

puntos x ∈ Dom(f ) donde f ′′ no está definida,
o puntos x ∈
/ Dom(f ).
10. Puntos de inflexión: Son los puntos en los que la función pasa de cóncava a convexa
o de convexa a cóncava. Si f es 2 veces derivable en su dominio, entonces se encuentran
entre los puntos que verifican que f ′′ (x) = 0, PERO no todos los que verifican dicha
condición son puntos de inflexión.
Tema 2
Interpolación polinómica
2.1. Introducción
Un problema que se presenta con frecuencia en las ciencias experimentales y en ingenierı́a

es tratar de construir, lo más aproximado posible, una función de la que se conoce una serie
de datos. Estos datos suelen ser fruto de las observaciones realizadas en un determinado
experimento, de manera que se tienen los valores de la función en determinados puntos, pero
no se tiene una expresión de la función. El objetivo es determinar un polinomio que verifique
estos datos y que además sea fácil de construir. Se trata de tener un polinomio que “se parece”
a la función desconocida. Por su sencillez y operatividad utilizaremos el método de diferencias
divididas (o fórmula de interpolación de Newton) para obtener dicho polinomio.
2.2. Análisis previo (existencia y unicidad)
Un problema de interpolación polinómica puede enunciarse de la siguiente forma:

Dado un conjunto de datos que son los valores de una función en determinados puntos xi ,
i = 0, 1, · · · , n, se quiere construir un polinomio de grado menor o igual que n que coincida con
la función dada en los datos. Se tiene el siguiente resultado: Dada una serie de datos (xi , yi )
con i = 0, . . . , n (con xi distintos entre si), ∃! p(x) polinomio de grado ≤ n que interpola dichos
valores, esto es, p(xi ) = yi para todo i = 0, . . . , n. Al polinomio se le conoce como polinomio
de interpolación.
El siguiente teorema afirma que ese polinomio que existe es único.
Teorema 2.1 (Unicidad del polinomio de interpolación). Si p(x) y q(x) son dos polinomios
de grado ≤ n tales que p(xi ) = q(xi ) para i = 0, 1, . . . , n con xi distintos entre si, entonces
p(x) = q(x) ∀x ∈ R.
39
40 TEMA 2. INTERPOLACIÓN POLINÓMICA
2.3. Método de las Diferencias Divididas

Proposición 2.2. Dados {(xi , yi )}i=0,...,n con los xi distintos entre si, el polinomio de inter-
polación de grado ≤ n que los interpola es:
p(x) = y0 + y01 (x − x0 ) + y012 (x − x0 )(x − x1 ) + · · · + y01···n (x − x0 )(x − x1 ) · · · (x − xn−1 )
donde
x0 y0
y1 −y0
y01 = x1 −x0
y12 −y01
x1 y1 y012 = x2 −x0
y2 −y1 y123 −y012
y12 = x2 −x1 y0123 = x3 −x0 ···
y23 −y12
x2 y2 y123 = x3 −x1
y3 −y2
y23 = x3 −x2
x3 y3
.. .. .. .. ..
. . . . .
xi -2 -1 1 2
Ejemplo 2.3. Hallar el polinomio de grado ≤ 3 que interpola
yi -5 1 1 7
Comenzamos calculando los coeficientes:
xi yi yij yijk yijkl
−2 −5
1−(−5)
−1−(−2) =6
0−6
−1 1 1−(−2) = −2
1−1 2−(−2)
1−(−1) =0 2−(−2) =1
6−0
1 1 2−(−1) =2
7−1
2−1 =6
2 7
Entonces, los coeficientes de la diagonal superior señalados en negrita nos permiten

obtener el polinomio del siguiente modo:
p(x) = −5 + 6(x + 2) − 2(x + 2)(x + 1) + (x + 2)(x + 1)(x − 1).
Simplificamos y vemos que obtenemos el polinomio p(x) = x3 − x + 1.

Ventaja: si hiciera falta introducir algún par de valores más, se podrı́a hacer sin problema y
aprovechando los ya calculados (los xi no tienen porqué estar ordenados).
Ahora es claro el nombre que recibe el algoritmo.
Si los puntos {x0 , x1 , . . . , xn } están uniformemente espaciados, es decir, son equidistantes,

de manera que la distancia entre dos puntos consecutivos es siempre un mismo valor h,
2.3. MÉTODO DE LAS DIFERENCIAS DIVIDIDAS 41
entonces la fórmula anterior se simplifica y el polinomio de interpolación se expresa ası́:
∆f (x0 ) ∆2 f (x0 ) ∆n f (x0 )

p(x) = y0 + (x−x0 )+ (x−x0 )(x−x1 )+· · ·+ (x−x0 )(x−x1 ) · · · (x−xn−1 ),
h 2h2 n!hn
siendo
∆f (x0 ) = f (x1 ) − f (x0 ) ∆f (xj ) = f (xj+1 ) − f (xj )
∆k f (x0 ) = ∆(∆k−1 f (x0 )) = ∆k−1 f (x1 ) − ∆k−1 f (x0 ) ∆k f (xj ) = ∆k−1 f (xj+1 ) − ∆k−1 f (xj ),
para k = 2, · · · , n y para j ≥ 1.
Ejemplo 2.4. Experimentalmente se ha observado que el crecimiento celular de un cultivo

microbiano viene dado según la siguiente tabla, donde ti representa el tiempo transcurrido en
horas e yi el número de células en el tiempo ti .
ti 0 2 4 6 8
yi 2.64 ×105 1.84×107 2.53×108 2.95×109 4.35×1010
Hallar el polinomio de interpolación que da una aproximación de la ecuación que sigue el
crecimiento celular.
42 TEMA 2. INTERPOLACIÓN POLINÓMICA
Tema 3
La integral. Integración numérica
Las integrales formalizan un concepto bastante sencillo e intuitivo, el de área (y volúmenes,

y longitudes entre otras aplicaciones). Los orı́genes del cálculo de áreas se pueden encontrar en
el “método de exhaución” desarrollado por los griegos hace más de dos mil años, pero fueron
Newton y Leibnitz quienes le dieron el enfoque riguroso actual.
Se comprobará que los problemas del cálculo integral y diferencial son inversos el uno del
otro, y una sencilla regla (de Barrow) servirá para dar respuesta a problemas como calcular
un área concreta, obtener el cambio acumulativo de magnitudes y calcular promedios.
3.1. Cálculo de primitivas

Definición 3.1. Dadas f, F : D ⊂ R → R, decimos que F es una primitiva de la función f
si:
F ′ (x) = f (x), ∀x ∈ D.
Está claro que si F es una primitiva de f , F + C es también primitiva de f para cualquier

C ∈ R.
Definición 3.2. Al conjunto de todas las primitivas de f se le llama integral indefinida

de f :
Z
f (x) dx = F (x) + C, ∀C ∈ R.
Propiedades:
Z Z
1. Si k ∈ R, entonces k f (x) dx = k f (x) dx.
Z Z Z
2. (f (x) ± g(x)) dx = f (x) dx ± g(x) dx
43
44 TEMA 3. LA INTEGRAL. INTEGRACIÓN NUMÉRICA
3.2. Reglas de cálculo de primitivas

Integrales inmediatas Integrales funciones compuestas
Tipo
Z potencial Z
xn+1 f (x)n+1
xn dx = + C, n 6= −1 f (x)n f ′ (x) dx = + C, n 6= −1
n+1 n+1
Tipo
Z logarı́tmico Z
1 f ′ (x)
dx = ln |x| + C dx = ln |f (x)| + C
x f (x)
Tipo
Z exponencial Z
e dx = ex + C
x
ef (x) f ′ (x) dx = ef (x) + C
Z Z
ax af (x)
ax dx = +C af (x) f ′ (x) dx = +C
ln a ln a
Tipo
Z trigonométricas directas Z
senx dx = −cosx + C senf (x) f ′(x) dx = −cosf (x) + C
Z Z
cosx dx = senx + C cosf (x) f ′ (x) dx = senf (x) + C
Z Z
1 1
dx = tgx + C f ′ (x) dx = tg(f (x)) + C
cos2 x cos2 (f (x))
Z Z
1 1
dx = −cotgx + C f ′ (x) dx = −cotg(f (x)) + C
sen2 x sen2 (f (x))
Tipo
Z trigonométricas inversas Z
dx f ′ (x)
= arctg x + C dx = arctg(f (x)) + C
1 + x2 1 + f (x)2
Z Z
dx f ′ (x)
√ = arcsen x + C p dx = arcsen (f (x)) + C
1 − x2 1 − f (x)2
Ejemplo 3.3 (Tipo potencial).

Z √
2 x4 2 3
5x + 2 − x + 5 dx = 5 − − x5/3 + 5x + C.
3 3
1. 2
x 4 x 5
Z
(3x + 5)3
2. (3x + 5)2 dx = + C.
9
Z
sen5 x
3. sen4 x cosx dx = + C.
5
3.2. REGLAS DE CÁLCULO DE PRIMITIVAS 45
Ejemplo 3.4 (Tipo logarı́tmico).

Z
1 1
1. dx = ln |5x + 3| + C.
5x + 3 5
Z Z
senx
2. tgx dx = dx = − ln |cosx| + C.
cosx
Ejemplo 3.5 (Tipo exponencial).

Z
2 1 x2
1. ex x dx = e + C.
2
Z
1 2sen(3x)
2. cos(3x) 2sen(3x) dx = + C.
3 ln 2
Z
6ln x 6ln x
3. dx = + C.
x ln 6
Ejemplo 3.6 (Tipo trigonométricas directas).

Z
1
1. cos(mx) dx = sen(mx) + C, m 6= 0.
m
Z
sen(lnx)
2. dx = −cos(lnx) + C.
x
Z
x 1
3. dx = tg(x2 ) + C.
cos2 (x2 ) 2
Ejemplo 3.7 (Tipo trigonométricas inversas).
1.
Z Z Z
5 5/2 5 1
dx = 3 2 dx = 2
q dx
2 + 3x2 1 + 2x 1 + ( 32 x)2
q
Z 3 r !
5 2 5 3
=√ q 2 dx = √ arctg x + C.
6 3 6 2
1+ 2x
2.
Z Z ex
ex 2 ex
√ dx = 2 q dx = arcsen + C.
4 − e2x 2
x
1 − ( e2 )2 2
3.2.1. Método de integración por partes

Consiste en aplicar la siguiente regla:
Z Z
u dv = u v − v du.
Veamos algunos ejemplos:

Z
u = x ⇒ du = dx
x ex dx =
dv = ex dx ⇒ v = ex
Z
= x e − ex dx = x ex − ex + C
x
= (x − 1) ex + C.
Z dx
u = arctgx ⇒ du = 1+x2
arctgx dx =
dv = dx ⇒ v = x
Z
x
= x arctgx − dx
1 + x2
1
= x arctgx − 2 ln |x2 + 1| + C.
3.2.2. Integración de funciones racionales

p(x)
Las funciones racionales son aquellas que se escriben de la forma f (x) = , donde p(x)
q(x)
y q(x) son polinomios.
Si grado(p) < grado(q), podemos aplicar el método de descomposición que presentamos

a continuación.
Si no, debemos efectuar la división de polinomios, y escribirlo como:

p(x) r(x)
f (x) = = c(x) + ,
q(x) q(x)
donde c(x) es el polinomio cociente que resulta al hacer la división y r(x) es el polinomio
resto de la división. Observemos que entonces grado(r) < grado(q).
El método: El primer paso es descomponer el denominador en factores simples. Si
grado(q) = n y todas las raı́ces son reales y simples, es decir,
q(x) = a0 (x − x1 ) (x − x2 ) . . . (x − xn ),
se hace una descomposición de la forma (con A1 , . . . , An constantes reales):
p(x) A1 A2 An
= + ··· + ,
q(x) x − x1 x − x2 x − xn
y se integra cada uno de los sumandos que aparecen.
3.2. REGLAS DE CÁLCULO DE PRIMITIVAS 47
Ejemplo 3.8.
Z
2x − 3
dx =
2x3 − x2 − x

dado que 2x3 − x2 − x = x (x − 1) (2x + 1)
Z
A B C
= + +
x x − 1 2x + 1
1 8
= 3 ln |x| − ln |x − 1| − ln |2x + 1| + C.
3 3
donde los coeficientes A, B y C se han calculado resolviendo:
2x − 3 A B C
= + +
2x3− x2 − x x x − 1 2x + 1
A(x − 1)(2x + 1) + Bx(2x + 1) + Cx(x − 1)
=
x(x − 1)(2x + 1)
x2 (2A + 2B + C) + x(−A + B − C) − A
=
2x3 − x2 − x
para lo que se debe cumplir que:

 
 A = 3
 0 = 2A + 2B + C 
 1
2 = −A + B − C ⇒ B = −
  3

−3 = −A  C = − 16

3
También podemos dar valores convenientes a x para obtener un sistema de ecuaciones más
simple para A, B y C.
Si hay alguna raı́z real múltiple, de multiplicidad k, aparecen k sumandos asociados

a esa raı́z. Es decir, si en la descomposición del polinomio del denominador, q(x), aparece
p(x)
(x − x0 )k , entonces descomponemos como:
q(x)
A1 A2 A3 Ak
+ 2
+ 3
+ ··· +
x − x0 (x − x0 ) (x − x0 ) (x − x0 )k
Ejemplo 3.9.
Z
2x − 3
dx =
x3 − 3x2 + 3x − 1

dado que x3 − 3x2 + 3x − 1 = (x − 1)3
Z
A B C
= + + dx
x − 1 (x − 1)2 (x − 1)3
Z
0 2 −1
= + + dx
x − 1 (x − 1)2 (x − 1)3
1 1 1
= −2 + +C
(x − 1) 2 (x − 1)2
donde se ha resuelto:
2x − 3 A B C
= + +
x3 − 3x2 + 3x − 1 x − 1 (x − 1)2 (x − 1)3
Ax2 + x(−2A + B) + (A − B + C)
=
(x − 1)3
lo que implica que A = 0, B = 2 y C = −1.
Hay otras muchas combinaciones, como mezcla de raı́ces reales y complejas (simples y/o
múltiples). Nosotros sólo trataremos aquı́ el caso anterior, y el caso en que la raı́z compleja
1
es imaginaria pura, es decir, del tipo 2 , que ya sabemos es de tipo arcotangente.
a + x2
3.2.3. Método de sustitución
Consiste en hacer un cambio de variable que transforme la integral en otra que sepamos
calcular. No hay que olvidar, una vez resuelta, deshacer el cambio. Veamos algunos ejemplos:
Z
ex
√ dx = (ex = t ⇒ ex dx = dt)
4 − e2x
Z Z
dt dt
= √ q=
4 − t2
2 1 − ( 2t )2
x
= arcsen 2t + C = arcsen e2 + C.
3.3. LA INTEGRAL DEFINIDA 49
Z √
x
√ dx = (x = t6 ⇒ dx = 6 t5 dt)
3
x+1
Z
t8
= 6 dt (dividimos)
t2 + 1
Z Z
6 4 2 dt
= 6 (t − t + t − 1) dt + 6
1 + t2

t7 t5 t3
= 6 − + − t + 6 arctg(t) + C
7 5 3
7 5 1
!
x6 x6 x2 1
= 6 − + − x 6 + 6 arctg(x1/6 ) + C.
7 5 3
Cambios de variable importantes

1. senx = t:

cosx dx = dt
En este caso ,
cos2 x = 1 − t2
dt dt
lo que implica que dx = =√ .
cosx 1 − t2
Por ejemplo,
Z Z Z
sen3 x t3 dt t3
dx = √ √ = dt
cosx 1 − t2 1 − t2 1 − t2
que se ha transformado en una integral de tipo racional.
También podemos intentar el cambio cosx = t o tgx = t.
Observación 3.10. Estos tres cambios no siempre funcionan, pero son fáciles de hacer.

El cambio que más habitualmente funciona es tg x2 = t, pero los cálculos son más
complicados.
2. x = tn
Entonces dx = ntn−1 dt. Ver ejemplo anterior.
3.3. La integral definida

Un anticipo de las aplicaciones que nos permite introducir el concepto de esta sección es
el siguiente problema:
Sea f : [a, b] → R una función continua y positiva. Denotemos Af (c) al área contenida
entre la función, el eje OX, y las rectas x = a y x = c.
Veamos la relación entre las funciones Af y f. Como la función f es continua en c, entonces,

para cualquier h > 0 (pequeño), se tiene que Af (c + h) − Af (c) es aproximadamente f (c)h, o
lo que es lo mismo,
Af (c + h) − Af (c)
∼ f (c).
h
Tomando ahora lı́mites cuando h → 0 en ambos miembros de la igualdad anterior (recordar

la definición de derivada), se tiene que
A′f (c) = f (c), es decir, Af es una primitiva de f.
La propiedad anterior nos lleva a considerar el siguiente concepto:

Definición 3.11. Llamamos integral definida a una expresión del tipo
Z b
f (x) dx,
a
donde a < b. En caso de a > b, se considera:
Z b Z a
f (x) dx = − f (x) dx.
a b
Observemos que sólo se diferencia de las primitivas o integrales indefinidas en que aparecen
lı́mites de integración a, b.
Si dada la función f (x) conocemos una primitiva de ésta, F (x), entonces se verifica la
Regla de Barrow:
Z b
f (x) dx = F (x)|ba = F (b) − F (a).
a
Z
Observemos que f (x) dx = F (x) + C, es decir, el valor de C no afecta a la aplicación
de la Regla de Barrow.
Z 2 2
2 x3 8 1 7
Ejemplo 3.12. x dx = = − = .
1 3 1 3 3 3
3.4. APLICACIONES DE LA INTEGRAL DEFINIDA 51
3.3.1. Propiedades de la integral definida

1. La fórmula de integración por partes para integrales definidas es:
Z b Z b
′
f (x) g (x) dx = f (x) g(x)|ba − f ′ (x) g(x) dx
a a
Z b Z b
2. Si k ∈ R, entonces k f (x) dx = k f (x) dx.
a a
Z b Z b Z b
3. (f (x) ± g(x)) dx = f (x) dx ± g(x) dx.
a a a
4. Si c ∈ [a, b], entonces:

Z b Z c Z b
f (x) dx = f (x) dx + f (x) dx.
a a c
Z b
5. Si f (x) ≥ 0, ∀x ∈ [a, b], entonces f (x) dx ≥ 0.
a
Z b Z b
6. Si f (x) ≤ g(x) ∀x ∈ [a, b], entonces f (x) dx ≤ g(x) dx.
a a
3.4. Aplicaciones de la integral definida

3.4.1. Cálculo de áreas de superficies planas
Queremos calcular el área A determinada por x = a, x = b, el eje OX e y = f (x). Gracias al
análisis heurı́stico hecho en la Sección 2.3 tenemos que
Z b
Si f (x) ≥ 0, entonces A = f (x) dx.
a
Z b
Si f (x) ≤ 0, entonces A = − f (x) dx.
a
Si la función tiene cambios de signo en [a, b], hay que separar los intervalos donde f (x)
tiene signo constante y aplicar lo anterior. Por ejemplo, si f (x) ≥ 0 en [a, c] y f (x) ≤ 0
en [c, b], entonces:
Z c Z b
A= f (x) dx − f (x) dx.
a c
Si queremos calcular el área determinada por x = a, x = b y las curvas y = f (x) e y = g(x),

donde f (x) ≥ g(x), entonces:
Z b
A= (f (x) − g(x)) dx.
a
En otro caso, hay que separar [a, b] en intervalos y se actúa como antes en cada intervalo.
Obsérves que todos los casos pueden escribirse de manera uniforme como
Z b
A= |f (x) − g(x)| dx.
a
Ejemplo 3.13. Calcular el área encerrada por f (x) = x, g(x) = x2 en el intervalo (0, 1) y
en el intervalo (0, 2).
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4
x
donde la lı́nea continua corresponde a y = x, y la lı́nea discontinua corresponde a y = x2 .

El área en el intervalo (0, 1), donde f siempre está por encima de g, es:
Z 1 1
2 x2 x3 1 1 1
A= (x − x ) dx = − = − = .
0 2 3 0 2 3 6
El área en el intervalo (0, 2), donde hay dos zonas diferenciadas, una en la que f está sobre
g y otra donde g está sobre f , es:
Z 2 Z 1 Z 2
2
A = |f (x) − g(x)| dx = (x − x ) dx + (x2 − x) dx
0 0 1
2
1 x3 x2 1 8 1 1
= + − = + −2− −
6 3 2 1 6 3 3 2
1 8 1 1 1 + 16 − 12 − 2 + 3
= + −2− + = = 1.
6 3 3 2 6
Ejemplo: Área del cı́rculo: La curva√ que define el contorno de un cı́rculo de centro
2 2 2
(0, 0) y radio r es x + y = r , luego y = r 2 − x2 .
1
0.8
0.6
y
0.4
0.2
–1–0.8 –0.4 0 0.2 0.4 0.6 0.8 1

–0.2 x
–0.4
–0.6
–0.8
–1
Gracias a la simetrı́a de la figura, para calcular el área lo hacemos para x ∈ [0, r] y multipli-
camos por 4:
Z rp Z rr x 2
A = 4 2 2
r − x dx = 4 r 1− dx
0 0 r
( x
= sent
haciendo el cambio de variable r
dx = r cost
Z π/2
= 4r 2 cos2 t dt
0
1 + cos(2t)
usando la fórmula trigonométrica cos2 (t) =
2
Z π/2 π/2
1 + cos(2t) t sen(2t)
= 4r 2 dt = 4r 2 + = π r2.
2 2 4
0 0
3.4.2. Cambio acumulativo o neto

Vamos a ver cómo el cálculo integral nos sirve para obtener el cambio acumulativo en el
tamaño de una población o en la distancia recorrida por una partı́cula, entre dos instantes de
tiempo.
Pensemos en una población cuyo tamaño en el tiempo t viene representado por la función
N (t) y que sabemos que su dinámica de crecimiento a lo largo del tiempo, viene dada por una
función conocida f (t). En términos matemáticos, estamos diciendo que
N ′ (t) = f (t). (3.1)
Además, sabemos el tamaño de la población en el instante inicial, que sin pérdida de generali-
dad lo podemos suponer t = 0. Este valor es un dato conocido N0 y en términos matemáticos
se escribe ası́ N (0) = N0 .

El cálculo integral es la herramienta matemática para obtener el cambio acumulativo o neto
en el tamaño de la población entre Z los instantes 0 y t ya que de (3.1) se tiene que N es
una primitiva de f . Recordemos que f (s)ds son las infinitas primitivas de f , es decir, una
primitiva sumándole cualquier constante, de modo que N (t) es una primitiva genérica que se
Z t
escribe f (s)ds más una constante C,
0
Z t
N (t) = f (s)ds + C.
0
Como N (0) = N0 se tiene, sustituyendo en la igualdad anterior t por 0, N0 = C. En definitiva,

Z t
N (t) = f (s)ds + N0
0
de donde, Z t
N (t) − N0 = f (s)ds.
0
Z t
Esta expresión nos dice que el cambio neto de población entre 0 y t es la integral f (s)ds.
0
Ejemplo 3.14. Si el tamaño de una población en el instante t es N (t) y su ritmo de creci-

miento viene dado por
N ′ (t) = e−t ,
con población inicial N (0) = 100, calcular el cambio acumulativo del tamaño de la población
entre t = 0 y t = 5. ¿Cuál es su interpretación geométrica? ¿Cuál es el tamaño de la población
en t = 5?
Solución: Basta hacer la siguiente integral definida

Z 5
N (5) − N (0) = e−t dt = 1 − e−5 .
0
La interpretación geométrica es que el cambio acumulativo entre 0 y 5 es el área comprendida

por la gráfica de la función f (t) = e−t , el eje OX y las rectas t = 0 y t = 5.
De la misma forma podemos calcular el cambio acumulativo en la distancia recorrida

por una partı́cula que se mueve. Pensemos que el movimiento es en lı́nea recta, que en cada
instante de tiempo su posición viene expresada por la función e(t) y que en el instante inicial
la posición es e0 . Si conocemos la velocidad de la partı́cula en cada instante, v(t), la relación
entre e(t) y v(t) viene dada por
e′ (t) = v(t).
Z t
Entonces, e(t) es una primitiva de v(t), por tanto, es una primitiva genérica, v(s)ds, más
0
una constante C arbitraria, Z t
e(t) = v(s)ds + C.
0
Como e(0) = e0 se tiene que e(0) = C = e0 , por tanto,
Z t
e(t) − e0 = v(s)ds,
0
que es el cambio acumulativo de la distancia recorrida entre 0 y t.
3.4.3. Cálculo de valores medios

La integral definida nos va a servir para calcular el valor medio o el promedio de una
magnitud. Por ejemplo, pensemos que se ha medido la concentración de nitrógeno en el suelo
cada metro, en una sección transversal de tundra húmeda y se han obtenido los datos
Distancia (m) 1 2 3 4 5
Concentración (g/m3 ) 589.3 602.7 618.5 667.2 641.2
Distancia (m) 6 7 8 9 10
Concentración (g/m3 ) 658.3 672.8 661.2 652.3 669.8
Si llamamos c(x) a la concentración a una distancia x del origen, la concentración media

c̄ es
1
c̄ = (c(1) + · · · + c(10))
10
Estamos hallando la concentración media entre los puntos 1 y 10. Pero, si en lugar de tomar
valores cada metro lo hiciéramos cada centı́metro o cada milı́metro, o en general, dividiendo
el intervalo [0, 10] en n partes con n grande, obtendrı́amos
n
1X
c̄ = c(xk ) (3.2)
n
k=1
y cada parte tiene una longitud de 10−0 n que denotaremos por h. Por tanto, h = 10
n y de
aquı́ n1 = 10
1
h, que sustituyéndolo en (3.2) da
n
1 X
c̄ = c(xk )h.
10
k=1
Cuando n tiende a ser muy grande, matemáticamente decimos que n tiende a infinito, la suma
Xn Z 10
c(xk )h se parece mucho a c(x)dx. Por tanto,
k=1 0
Z 10
1
c̄ = c(x)dx,
10 0
es decir, la integral de c(x) en el intervalo [0, 10] dividida por la longitud de este intervalo. A
esto se le llama valor medio de c.
La concentración media entre a y b es
Z b
1
c̄ = c(x)dx.
b−a a
Ejercicio 3.15. La temperatura de una cámara varı́a en un periodo de 24 horas de la siguiente

forma:
π
T (t) = 68 + sen( t)
12
para 0 ≤ t ≤ 24.
1. Dibujar la temperatura T en función del tiempo.
2. Calcular la temperatura media.
3.5. Integración numérica

Hay integrales que son imposibles de calcular de forma exacta, como
Z 2
2
e−x dx
1
2
porque no se puede obtener de forma explı́cita una primitiva de e−x . Otras veces, no se
tiene una expresión de la función que se quiere integrar sino sque ólo se conocen valores de la
función en ciertos puntos.
En estas situaciones son necesarios métodos numéricos que proporcionen una aproximación
de la integral.
La idea que subyace en el método que explicaremos a continuación consiste en aproximar
el integrando f (x) por una función más sencilla, haciendo interpolación, de manera que sólo
sea necesario conocer los valores de f en determinados puntos. Además, la nueva función
(interpoladora) se integrará de una manera muy simple porque será un polinomio, y en nuestro
caso, un polinomio de grado 1. Por consiguiente, en este apartado deduciremos una fórmula
Z b
que nos da de manera aproximada el valor de f (x)dx.
a
En todo lo que sigue supondremos que el intervalo [a, b] se divide en n partes iguales, de modo
que la longitud de cada subintervalo es h = b−a n , y que f es una función continua en [a, b] de
la que conocemos sus valores en los puntos x0 , x1 , . . . , xn , que se han obtenido de dividir el
intervalo [a, b] en n partes, es decir, x0 = a, x1 = x0 + h, x2 = x1 + h,...,xn = b. Y conocemos
f (x0 ), . . . , f (xn ).
En cada subintervalo [xi , xi+1 ] vamos a aproximar f (x) por el polinomio de interpolación de
grado menor o igual que 1 en [xi , xi+1 ], es decir,
f (xi+1 ) − f (xi )
pi (x) = f (xi ) + (x − xi ).
h
3.5. INTEGRACIÓN NUMÉRICA 57
Figura 3.1: Aproximación de integral por trapecios
Z xi+1 Z xi+1
Entonces, f (x)dx se aproxima por pi (x)dx.
xi xi
Z xi+1 Z xi+1
f (xi+1 ) − f (xi ) f (xi+1 ) + f (xi )
f (x)dx ∼ pi (x)dx = f (xi )h + h= h.
xi xi 2 2
Ahora expresamos la integral en [a, b] de f (x) como suma de integrales en los subintervalos
[xi , xi+1 ] (por la propiedad que ya vimos de las integrales definidas) y sustituimos cada una
de estas integrales por su aproximación:
Z b X Z xi+1
n−1
f (x)dx = f (x)dx ∼
a i=0 xi
n−1
X f (xi+1 ) + f (xi )
∼ h=
2
i=0
h
[f (a) + 2f (x1 ) + · · · + 2f (xn−1 ) + f (b)].
=
2
Es decir, h/2 por la suma de f en los dos extremos a y b y la suma del doble de f en los
puntos intermedios x1 , · · · , xn−1 . A esta fórmula se la conoce como fórmula de los trapecios
Z b
porque, si f fuese positiva, f (x)dx representarı́a el área limitada por f entre a y b, y la
a
fórmula de los trapecios no es más que la suma de las áreas de todos los trapecios que se
forman uniendo por rectas los puntos (xi , f (xi )), como muestra la figura.
El error cometido al aproximar la integral por la fórmula de los trapecios, denotada por
Tn , viene dado por la estimación siguiente
Z b

′′ (b − a)3 b−a 2
f (x)dx − Tn ≤ máx |f (x)| 2
= máx |f ′′ (x)| h .
a x∈[a,b] 12n x∈[a,b] 12
La fórmula es exacta para polinomios de primer grado.
Con el mismo argumento de la interpolación, se puede mejorar la fórmula de integración

usando polinomios de interpolación de grado dos en lugar de grado uno. Se tiene ası́ la fórmula
de Simpson para 3 puntos
Z b
b−a h
f (x)dx ∼ [f (a) + 4f (x1 ) + f (b)] = [f (a) + 4f (x1 ) + f (b)],
a 6 3
b−a
si llamamos h = 2 , y la fórmula de Simpson generalizada para n puntos (n debe ser par)
Z b
h
f (x)dx ∼ [f (a) + 4(f (x1 ) + f (x3 ) + · · · + f (xn−1 )) + 2(f (x2 ) + · · · + f (xn−2 )) + f (b)]
a 3
El error cometido por la fórmula generalizada de Simpson, denotada por Sn , es ahora del
orden de h4 Z b

IV ) (b − a)5
f (x)dx − S n ≤ máx |f (x)|
a x∈[a,b] 2880( n )4 4
y la fórmula es exacta hasta polinomios de grado tres.
Tema 4
Programación lineal
Mientras que para funciones reales de variable real la derivación ha permitido resolver el
problema de optimalidad en su conjunto, en este tema, la programación lineal resuelve proble-
mas de optimización en varias variables para funciones objetivos de un tipo muy particular:
funciones lineales.
Existen multitud de aplicaciones relativas a la programación lineal, y métodos de resolu-
ción mucho más complejos del único que aquı́ describimos, que será el método geométrico.
Ilustraremos con ejemplos el tipo de marco que se puede recoger y tratar a través de este
método.
4.1. Introducción / motivación

-La optimización en problemas reales depende en general de varias variables
-Las técnicas de diferenciabilidad siguen siendo válidas (con una extensión adecuada a varias
variables)
-La tarea se simplifica si la expresión a optimizar (en adelante función objetivo) usa sólo
combinaciones lineales
f (x1 , . . . , xn ) = a1 x1 + . . . + an xn ,
donde los coeficientes ai ∈ R son conocidos.
Definición 4.1. Los problemas de óptimos para expresiones lineales donde las res-
tricciones son desigualdades dadas a partir de más expresiones lineales (inecuaciones)
conforman la PROGRAMACIÓN LINEAL.
Ejemplo 4.2. Un ejemplo de tal tipo de problemas es el siguiente:
Maximizar la función P (x, y) = 300x + 240y

sujeta a las siguientes restricciones:
x≥0
y≥0
200x + 140y ≤ 78000
59
60 TEMA 4. PROGRAMACIÓN LINEAL
100x + 1601y ≤ 48000

Observación 4.3. Nota histórica: el suministro a Berlı́n durante el bloqueo de la guerra frı́a
(1948-49) se planificó usando programación lineal.
4.2. Aplicaciones básicas

-Problema de la dieta: determinar cantidades a mezclar de diferentes alimentos para reci-
bir la alimentación necesaria a un coste mı́nimo
En una granja se da una dieta “para engordar” con una composición mı́nima de 15 uni-
dades de una sustancia A y otras 15 de una sustancia B. En el mercado sólo se encuentran
dos clases de compuestos: el tipo X con una composición de una unidad de A y cinco de B, y
el tipo Y, con una composición de cinco unidades de A y una de B. El precio del tipo X es de
10 euros y el del tipo Y es de 30 euros. Se pregunta: ¿Qué cantidades se han de comprar de
cada tipo para cubrir las necesidades con un coste mı́nimo?
El planteamiento matemático es: Hallar x (latas del tipo X) e y (latas del tipo Y) que
resuelven el problema
mı́n(10x + 30y)
D
siendo  
 x ≥ 0, y ≥ 0, 

D = (x, y) ∈ R2 x + 5y ≥ 15, .
 
5x + y ≥ 15
-Problema del transporte: organizar reparto de mercancı́as con coste mı́nimo de tiempo,
dinero o riesgo
Para atender el suministro diario de gas a tres ciudades C1 , C2 y C3 una empresa tiene
destinadas dos fábricas F1 y F2 que producen 20 y 30 m3 respectivamente. Las necesidades de
las tres ciudades son: 20, 18 y 12 m3 respectivamente. Si los costes de transporte por tonelada
de las industrias a las ciudades son, en cientos de euros, los indicados en la tabla adjunta,
planificar el reparto óptimo para que dicho coste sea mı́nimo.
F1 4 3 1
F2 2 2 1
C1 C2 C3
-Problema de la ruta más corta (o del viajante): ordenar etapas de un viaje con el propósi-
to de minimizar el recorrido
4.3. RESOLUCIÓN POR EL MÉTODO GEOMÉTRICO 61
-Otras variantes: maximizar (el siguiente ejemplo está en la hoja de problemas)
En una confiterı́a se dispone de 24 kg. de polvorones y 15 kg. de mantecados que se en-

vasan en dos tipos de cajas de la siguiente forma: Caja 1: 200 g. de polvorones y 100 g. de
mantecados. Precio: 2,5 euros. Caja 2: 200 g. de polvorones y 300 g. de mantecados. Precio:
4 euros.
¿Cuántas cajas de cada tipo se tendrán que preparar y vender para obtener el máximo de
ingresos?
4.3. Resolución por el método geométrico
-Resolver problemas prácticos de programación lineal con dos variables independientes

[-Para más variables, se puede usar el Método del Simplex. Esto no se verá en este curso.]
Usaremos el método geométrico, que implica dominar los conceptos de función objetivo,
restricciones, región factible, rectas de nivel ası́ como la resolución de sistemas de
ecuaciones e inecuaciones lineales.
4.3.1. Análisis previo: Regiones factibles
En los ejercicios de programación lineal existe un “dominio” (análogo al de las funciones

reales de variable real) de puntos donde tiene sentido plantear/resolver el problema.
Inecuaciones lineales con dos incógnitas son expresiones de la forma Ax + By < C (o bien
≤, >, ≥). Los puntos que satisfacen la inecuación forman un semiplano de R2 .
La región factible estará determinada por un sistema de inecuaciones lineales.
Geométricamente esto es la intersección de los semiplanos que generan las soluciones
de cada una de las inecuaciones por separado.
En lo que sigue manejaremos las desigualdades ≤ y ≥, por lo que la región será cerrada,
y cuando los haya, hablaremos de máximo y mı́nimo (si la región no es cerrada, en principio
sólo habları́amos de supremo e ı́nfimo).
Por ejemplo, consideramos:
D = {(x, y) ∈ R2 | 0 ≤ x, 0 ≤ y, 3x + y ≤ 4, 2x + 3y ≤ 6}.
Representamos primero las rectas y = 4 − 3x e y = 2 − 23 x.

4.5
3.5
2.5
1.5
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4
Ahora marcamos la intersección de los semiplanos (región coloreada) que verifican todas las
desigualdades que definen D.
4.5
3.5
2.5
1.5
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4
Ahora consideramos la función objetivo, que debemos maximizar o minimizar dentro de

la región factible. En estos problemas será otra combinación lineal de las variables x e y :
c1 x + c2 y, pongamos por ejemplo x + y.
Las funciones
c1 x + c2 y = constante
son rectas, y todas son paralelas entre si cuando la constante cambia (dicha constante es el
valor de la función objetivo a lo largo de todos los puntos (x, y) de esa recta),
Dicha función, “trasladada paralelamente” sobre la región genera los valores posibles de la
constante. Ası́, los valores mayores y menores se obtienen en los extremos, por ejemplo, el
máximo saldrı́a de...
(Programación lineal: Método geométrico)

4.3. RESOLUCIÓN POR EL MÉTODO GEOMÉTRICO 63
4.5
3.5
2.5
1.5
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4
4.3.2. Método geométrico en regiones factibles acotadas

Aunque no se haya sido muy preciso con la representación gráfica –no obstante se necesita
hacer para confirmar que la región es acotada– se pueden sacar estas conclusiones:
el mayor y menor valor de la función objetivo se alcanzan en algunos de los
puntos “lı́mites” (llamados vértices) de la región factible.
Ası́, los candidatos a extremos absolutos de la función objetivo son los vértices de ésta.
Paso 1: calculamos los vértices Esto es, los puntos de la intersección dos a dos de las
“ecuaciones asociadas” d1 x + d2 y = d3 a las inecuaciones d1 x + d2 y < (>, ≤, ≥) d3 que definen
el dominio (ojo: asegurarse que están en la región factible).
En el caso de la región D del dibujo anterior se trata de los puntos (0, 0), (0, 2), (4/3, 0),
(6/7, 10/7).
Paso 2: evaluar la función objetivo en dichos candidatos para obtener el máximo y

mı́nimo (o supremo e ı́nfimo si es sobre puntos no incluidos en el dominio). La función
f : D ⊂ R2 → R : (x, y) 7→ f (x, y) = x + y evaluada en los puntos anteriores es 0, 2, 4/3 y
16/7.
Máximo de f : 16/7, se alcanza en (6/7, 10/7). Mı́nimo de f : 0, alcanzado en (0, 0) (ojo:
no tiene porqué alcanzarse en un único punto: si se alcanza en dos vértices, por convexidad,
se alcanza en toda una arista del polı́gono que delimita la región).
4.3.3. Sobre la existencia de solución y regiones factibles no acotadas

Igual que ocurrı́a con funciones continuas de una variable, las funciones objetivo tratadas
en este tema tienen máximo y mı́nimo si la región factible es cerrada y acotada.
O al menos tienen supremo e ı́nfimo si la región es acotada aunque no cerrada.

Pero puede ocurrir que la región factible sea no acotada, en cuyo caso puede que el pro-
blema no tenga o bien máximo o bien mı́nimo (o supremo o ı́nfimo, como ya dijimos, si
la región no es cerrada).
Ilustramos con un ejemplo las posibilidades: sea como antes la función f (x, y) = x + y,
pero ahora considerada sobre la región factible:
E = {(x, y) ∈ R2 | 0 ≤ x, 0 ≤ y, 3x + y ≥ 4, 2x + 3y ≥ 6}.
Entonces, dados los problemas
mı́n f (x, y), máx f (x, y),

(x,y)∈E (x,y)∈E
el primero tiene solución mientras que el segundo no posee solución: f tiene mı́nimo sobre E
pero no máximo, de hecho veremos que sup f (x, y) = +∞.
E
Razónese la respuesta en ambos casos trazando rectas paralelas a x + y = 0.
Ahora se puede comprobar que, si bien lı́neas que minimizan el valor constante= x + y
tienen un “tope” pues van descendiendo y el último punto factible es el (6/7, 10/7), en sentido
ascendente (generando valores cada vez mayores constante= x + y) no tiene máximo finito:
5
4.5
3.5
2.5
1.5
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4
Existen puntos (x, y) ∈ E tan grandes como queramos, haciendo, como anunciamos, que
sup f (x, y) = +∞.
E
Tema 5
Estadı́stica descriptiva
5.1. Introducción
En un curso general de Matemática Aplicada suele haber, por necesidades de sus recepto-
res, un bloque de estadı́stica. La estadı́stica pretende extraer información relevante a partir de
una serie de experimentos realizados de forma repetitiva. Dada una tabla de valores, a veces
existen relaciones entre los mismos, medidas caracterı́sticas que apuntan a cierta dirección, o
que señalan cuánto se ha alejado la muestra de un valor central.
El objetivo de éste y los siguientes temas es poder obtener este tipo de información de
tablas dadas.
5.2. Distribuciones estadı́sticas. Representaciones gráficas

5.2.1. Conceptos fundamentales
La Estadı́stica es el conjunto de métodos necesarios para recoger, clasificar, representar y
resumir datos (Estadı́stica Descriptiva), ası́ como de obtener consecuencias cientı́ficas a partir
de estos datos (Inferencia Estadı́stica).
Población es el conjunto de todos los elementos observados al realizar un experimento.
Muestra es cualquier subconjunto de la población.
Individuo es cada uno de los elementos de la población.
Tamaño de la muestra es el número de elementos de la muestra.
Un carácter estadı́stico es cualquier propiedad que permite clasificar a los individuos
de una población. Se clasifican en cualitativos y en cuantitativos.
Modalidad de un carácter es cada una de las diferentes situaciones que puede presentar
un carácter. Éstas en un mismo carácter son incompatibles. Por ejemplo, el carácter sexo,
presenta dos modalidades: masculino y femenino.
Variable estadı́stica es la correspondencia que a cada modalidad de un carácter cuan-
titativo le asocia un número real. Se clasifican en discretas (por ejemplo, el número de hijas
de una familia, el número de obreros en una fábrica) y continuas (temperaturas registradas
en un observatorio, la presión sanguı́nea de enfermos). Se suelen representar por X, Y ó Z.
65
66 TEMA 5. ESTADÍSTICA DESCRIPTIVA
Distribución de frecuencias. Los datos recogidos se van a clasificar y representar en

una tabla en la que aparecen distintas frecuencias.
Sean N el tamaño de la muestra, C el carácter a analizar presentando las modalidades
C1 , C2 , ..., Ck .
Sea ni la frecuencia absoluta de Ci , es decir, el número de individuos que presentan la
modalidad Ci .
La frecuencia relativa de Ci es fi = nNi .
El porcentaje relativo a 100 individuos de Ci es pi = 100fi .
k
P k
P
Se verifica que ni = N, fi = 1.
i=1 i=1
i
P
La frecuencia absoluta acumulada es Ni = nj y la frecuencia relativa acumu-
j=1
i
P i
P Ni
lada Fi = fj = N . Entonces Nk = N , Fk = 1.
j=1 j=1
i
P
El porcentaje relativo acumulado es Pi = pj .
j=1
5.2.2. Tablas estadı́sticas
Muestra de tamaño N para analizar un carácter cualitativo
Supongamos dada la siguiente tabla, donde las variables C1 , C2 , ..., Ck son posibles moda-
lidades.
Modalidades F. abs. F. relativas Porcentajes
C1 n1 f1 100f1
C2 n2 f2 100f2
.. .. .. .. (5.1)
. . . .
Ck nk fk 100fk
Total N 1 100 %
Ejemplo: Distribución del color de los ojos en una muestra de 50 personas:
Modalidades F. abs. F. relativas Porcentajes

Azules 16 0′ 32 32 %
Verdes 12 0′ 24 24 %
(5.2)
Marrones 14 0′ 28 28 %
Negros 8 0′ 16 16 %
Total 50 1 100 %
5.2. DISTRIBUCIONES ESTADÍSTICAS. REPRESENTACIONES GRÁFICAS 67
Tabla estadı́stica para una variable discreta
En una muestra de tamaño N se ordenan de menor a mayor los valores de la variable,

x1 < x2 < ... < xk, y se añaden la frecuencias absolutas y relativas junto con los porcentajes.
Valores F. abs. F. relativas Porcentajes

x1 n1 f1 100f1
x2 n2 f2 100f2
.. .. .. .. (5.3)
. . . .
xk nk fk 100fk
Total N 1 100 %
Se puede completar la tabla con las frecuencias acumuladas para facilitar posteriores cálcu-
los.
Ejemplo: Distribución del número de hijos en una muestra de 100 familias españolas:
xi ni Ni fi Fi pi
0 14 14 0′ 14 0′ 14 14 %
1 26 40 0′ 26 0′ 40 26 %
2 30 70 0′ 30 0′ 70 30 % (5.4)
3 16 86 0′ 16 0′ 86 16 %
≥4 14 100 0′ 14 1 14 %
Total 100 1 100 %
Tabla estadı́stica para una variable continua
Los datos se agrupan en clases, que van a ser intervalos semiabiertos, [e0 , e1 ), [e1 , e2 ),
· · ·, [ek−1 , ek ). Se considera que todos los individuos de una misma clase tienen el valor que
señala la marca de clase, siendo
ei−1 + ei
ci = , i = 1, · · ·, k. (5.5)
2
La amplitud de la clase [ei−1 , ei ) es ai = ei − ei−1.

Ventaja: menor número de cálculos.
Desventaja: pérdida de información.
Clases Marcas ni Ni fi Fi pi Pi
[e0 , e1 ) c1 n1 N1 f1 F1 p1 P1
[e1 , e2 ) c2 n2 N2 f2 F2 p2 P2
.. .. .. .. .. .. .. .. (5.6)
. . . . . . . .
[ek−1 , ek ) ck nk Nk fk Fk pk Pk
Total N 1 100 %
Ejemplo: Pesos en miligramos de 40 pastillas de ciertos medicamentos:
Peso [200, 210) [210, 215) [215, 220) [220, 230)

(5.7)
ni 3 10 14 13
5.2.3. Representaciones gráficas

Van a completar la información recogida en la tabla estadı́stica.
Dependiendo de la naturaleza del carácter estudiado hay diferentes tipos de representa-
ciones.
Gráficas para caracteres cualitativos

Diagramas de barras. Sobre un sistema de ejes cartesianos en uno de los ejes se
representan las distintas modalidades y en el otro los valores de la frecuencia. Sobre cada
modalidad se levantan rectángulos de la misma base y altura proporcional (normalmente
igual) a la frecuencia.
Ejemplo. Distribución del estado civil de 150 personas:
Estado Solt. Cas. V. Div. Rel. No declara

(5.8)
Fr.abs. 20 78 15 26 7 4
Diagramas de sectores. Se traza una circunferencia de radio arbitrario y se divide su

cı́rculo en sectores. Cada sector se asocia a una modalidad siendo el ángulo correspon-
diente de cada sector proporcional a la frecuencia de cada modalidad.
Pictogramas. Cada modalidad se representa por una figura no geométrica de tamaño

proporcional a su frecuencia, o bien se toma un dibujo como modelo y se repite un
número de veces proporcional a la frecuencia de la modalidad correspondiente1 .
1
Tomado de la página web: http://www.me.gov.ve/SegundaEtapa/Glosario/matematica.htm
Gráficas para caracteres cuantitativos
Variable discreta
Diagramas de barras. Cuando la variable es discreta y toma pocos valores, el gráfico
adecuado es el diagrama de barras o rectángulos. Se construye de la misma forma que para
los caracteres cualitativos pero ahora sobre el eje X se sitúan los valores de la variable.
Uniendo los extremos superiores de las barras o los puntos medios de los lados superiores
de los rectángulos se obtiene el polı́gono de frecuencias simples.
Ejemplo: Distribución del número de hijos en una muestra de 100 familias españolas:
xi ni fi
0 14 0′ 14
1 26 0′ 26
(5.9)
2 30 0′ 30
3 16 0′ 16
≥4 14 0′ 14
El diagrama de barras es el siguiente:
Los polı́gonos de frecuencias simples para ni y fi (para ser precisos, y dado que cualquier
columna proporcional es válida en estas representaciones, se aclara qué polı́gono de frecuencias
se está construyendo: absolutas, relativas o porcentuales) vienen dados simplemente por:
Variable continua
Histogramas. Como los datos usados en este caso proceden de una variable continua, se
mantiene el tamaño real de la base de cada modalidad para no generar gráficas equı́vocas.
Precisamente por ello serı́a igualmente tendencioso poner una altura proporcional a la fre-
cuencia absoluta o cualquier otra (un intervalo con ni grande puede deberse simplemente a
ser demasiado grande). De modo que sobre cada intervalo de clase se levanta un rectángulo
de área igual o proporcional a la frecuencia del correspondiente intervalo. Esto implica
que leer meramente las alturas en un histograma es incorrecto, la información está codificada
en las áreas.
Si las amplitudes son iguales, entonces las alturas se toman iguales a las frecuencias.
Amplitudes diferentes: En la clase [ei−1 , ei ), considerando área igual a la frecuencia absolu-
ta (también valdrı́a cualquier otra columna proporcional: la relativa o la porcentual), tenemos
hi = naii , donde hi es la altura del rectángulo correspondiente a esa clase, y ai la amplitud.
Ejemplo: Tabla, histograma y polı́gono de frecuencias acumuladas en las calificaciones
de 200 alumnos:
Notas ni pi hi
[0, 3) 48 24 % 8
[3, 5) 69 34′ 5 % 17′ 25
(5.10)
[5, 7) 55 27′ 5 % 13′ 75
[7, 9) 20 10 % 5
[9, 10) 8 4% 4
Uniendo los puntos medios de los lados superiores de los rectángulos se obtiene el polı́gono
de frecuencias simples enmarcado en el histograma: para ser precisos, y dado que
cualquier columna proporcional es válida en estas representaciones, se aclara qué polı́gono de
frecuencias se está construyendo (absolutas, relativas o porcentuales), en este caso el de los
porcentajes relativos.
Polı́gono de frecuencias acumuladas. En el eje X se representan los extremos de

las clases. A e0 se le asigna ordenada 0 y a cada extremo derecho de las clases se le asigna
como ordenada la frecuencia acumulada (absoluta, relativa o porcentual) de dicha marca.
La poligonal que une dichos puntos es el polı́gono de frecuencias acumuladas. El hecho de
tomar ahora la poligonal de los extremos a la derecha de los rectángulos es que, suponiendo
uniformemente distribuido el número de individuos en cada clase, dicha poligonal deberı́a
reflejar al final de cada intervalo el total de individuos en él contenido.
5.3. MEDIDAS DE POSICIÓN Y DISPERSIÓN 73
Aplicación: supuesto conocido el polı́gono de frecuencias acumuladas y fijado un valor

x0 de la variable, la ordenada correspondiente, que se obtiene por interpolación lineal, es el
porcentaje acumulado de individuos de la muestra para los que la variable es menor o igual
que x0 .
Ejemplo: Peso en kg de 100 personas:
Peso [20, 40) [40, 60) [60, 80) [80, 100)

(5.11)
Pi 10 59 91 100
Porcentaje de individuos cuyo peso es menor o igual que 69: como 69 ∈ [60, 80), se calcula
la recta que pasa por (60, 59) y (80, 91) y se sustituye la abscisa por 69:
91 − 59
y = 59 + (69 − 60) = 73′ 4 %. (5.12)
80 − 60
5.3. Medidas de posición y dispersión

Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que
sintetizan la información. Estudiaremos dos grandes secciones:
Medidas de tendencia central o de posición: situación de los valores alrededor de

los cuales fluctúan los demás.
Medidas de dispersión: grado de desviación de los datos respecto de las medidas de

tendencia central.
Acabaremos este resumen con el proceso de tipificación de una variable aleatoria.
5.3.1. Medidas de tendencia central

Estudiaremos la media aritmética y la mediana.
Media aritmética
Se suele representar por x̄, aunque también por µ e incluso abusando de la notación
probabilista EX (esperanza de la variable X). Es el valor de tendencia central de mayor
interés.
Caso discreto
Sea X una variable discreta que toma los valores x1 , x2 , · · ·, xk con frecuencias absolutas
n1 , n2 , · · ·, nk resp. La media aritmética de X viene dada por
k
P
xi ni k
X
i=1
x̄ = = xi fi . (5.13)
N
i=1
Ejemplo. Calificaciones de 20 alumnos en Matemáticas:
xi ni Ni Pi
2 3 3 15
4 6 9 45
5 5 14 70 (5.14)
6 3 17 85
8 1 18 90
10 2 20 100
2·3+4·6+5·5+6·3+8·1+10·2
La nota media es x̄ = 20 = 5′ 05.
Propiedades
k
P
1) La suma de todas las desviaciones a la media es cero: (xi − x̄)ni = 0.
i=1
2) Si X toma los valores x1 , x2 , . . . , xk , e Y los valores yi = xi + c, i = 1, 2, . . . , k, c ∈ R,

entonces ȳ = x̄ + c.
3) Si X toma los valores x1 , x2 , . . . , xk , e Y los valores yi = cxi , i = 1, 2, . . . , k, c ∈ R,

entonces ȳ = cx̄.
Aplicación: si X toma los valores x1 , x2 , . . . , xk , y Z los valores zi = xid−c , i = 1, 2, . . . , k,

con c, d ∈ R, d 6= 0, entonces z̄ = x̄−cd , lo cual facilita a veces los cálculos cambiando de
variable. Por ejemplo, se quiere calcular el diámetro medio de 100 émbolos cuyas medidas en
mm son:
(xi ) 153′ 7 153′ 8 153′ 9 154′ 0 154′ 1 154′ 2 154′ 3

(5.15)
ni 10 15 19 21 14 13 8
X−154
Definimos Z = 0′ 1 cuya distribución de frecuencias es
Diámetro (zi ) −3 −2 −1 0 1 2 3
(5.16)
ni 10 15 19 21 14 13 8
La media de Z es z̄ = −0′ 15, luego x̄ = 0′ 1z̄ + 154 = 153′ 985.
Caso continuo
Si la variable aleatoria es continua, para simplificar se calculará la media aritmética de

una variable discreta cuyos valores son las marcas de clase de cada uno de los intervalos y las
frecuencias absolutas las de cada clase. Con ello se pierde precisión, porque sólo se tendrá en
cuenta el número de valores que está dentro de un intervalo de clase pero no la forma en la
que están repartidos.
Ventajas de la media aritmética:
- Contiene toda la información de los datos de la distribución, por lo que es representativa.
- Siempre puede ser determinada, es fácil de calcular y admite operaciones aritméticas.
Desventaja: presenta una gran sensibilidad a valores extremos.
Percentiles. Caso particular: la mediana
Se suponen los valores de la variable ordenados en orden creciente. Si n ∈ N, con 1 ≤ n ≤

100, el percentil de rango n es el valor de la variable estad’ıstica que deja por debajo de él
al n % de los valores y al resto por encima. La mediana es el percentil de rango 50 (divide
a la muestra en dos partes iguales; al menos la mitad de la muestra cumple estar por debajo
del valor destacado).
Estudiaremos el valor de la variable correspondiente a un percentil dado; y dado un valor

de la variable calcularemos el percentil correspondiente.
Caso discreto
Se realiza en primer lugar la tabla de frecuencias porcentuales acumuladas (f.p.a.).
a) Si el porcentaje n no figura en la columna de f.p.a. se toma como percentil de rango n

el primer valor de la variable cuya f.p.a. sobrepasa a n.
b) Si el porcentaje n coincide con la f.p.a. de algún valor xi , se toma como percentil de

rango n el valor xi +x
2
i+1
.
Ejemplo. Consideramos de nuevo la tabla dada en la página 74 sobre las calificaciones de

20 alumnos en Matemáticas.
La mediana es 5, el percentil de rango 84 es 6, mientras que el percentil de rango 85 es
6+8
2 = 7.
Caso continuo
Se construye el polı́gono de frecuencias porcentuales acumuladas (no debe construirse

sobre el histograma, sino solo, pues las alturas deben reflejar el porcentaje correspondiente
independientemente de la amplitud de cada clase). La abscisa correspondiente a la ordenada
n es el percentil de rango n. El cálculo se hace por interpolación suponiendo que todos los
individuos de un intervalo de clase están distribuidos homogéneamente.
Ejemplo. Peso en kg de 100 personas:
Peso [20, 40) [40, 60) [60, 80) [80, 100)

(5.17)
Pi 10 59 91 100
100
91
59
Pi
10
20 40 60 80 100
peso
Recuérdese que la recta que pasa por los puntos (x0 , y0 ) y (x1 , y1 ) viene dada, por ejemplo,
como y − y0 = xy11 −y
−x0 (x − x0 ).
0
En este caso la mediana está en el intervalo [40, 60). Es aquel x tal que
59 − 10
50 − 10 = (x − 40) ⇒ x = 41′ 6. (5.18)
60 − 40
El percentil de rango 91 es 80.
5.3.2. Medidas de dispersión

La dispersión de una distribución es la mayor o menor separación de sus datos respecto
de una de las caracterı́sticas de tendencia central, pretendiendo medir la representatividad de
dicha caracterı́stica.
Ejemplo. Calificaciones de 28 alumnos:
Fı́sica 3 9 Biologı́a 3 6 9
(5.19)
ni 14 14 ni 5 6 7
La calificación media en ambas asignaturas es de 6 puntos, pero ¿dónde es más represen-

tativa?
Estudiaremos
el recorrido,
la desviación media,
la varianza,
la desviación tı́pica y
el coeficiente de variación de Pearson.
Recorrido
Viene definido como

R = max(xi ) − min(xi ). (5.20)
Proporciona una primera información de la variabilidad de la distribución, pero es insufi-

ciente ya que si la variable toma un valor muy alto o muy bajo en relación con el resto, puede
inducir a engaño (de nuevo, como ocurrı́a con la media, es muy sensible a valores extremos).
Desviación media
Dada una caracterı́stica de tendencia central C, los valores |xi − C| representan la des-
viación a C. Estas cantidades definen una variable estadı́stica que se usa como medida de
dispersión. En concreto, la desviación media es la media aritmética de las desviaciones a la
media:
Pk
|xi − x̄|ni
i=1
Dx̄ = . (5.21)
N
Problema: los valores absolutos no son muy adecuados para realizar cálculos y posteriores
estudios.
Varianza
Se define como la media aritmética de los cuadrados de las desviaciones a la media:
Pk
(xi − x̄)2 ni
s2X = i=1 . (5.22)
N
Si la varianza es nula, todos los valores de la variable coinciden con la media, es decir,
dispersión nula. Cuanto más alejadas estén las observaciones de la media, mayor será la va-
rianza. A veces también aparece (por ejemplo en muchas calculadoras) expresada como σn2 .
Propiedades: Sea X una variable, c, d ∈ R, d 6= 0.
1) Si Y = dX, entonces s2Y = d2 s2X .
2) Si Y = X + c, entonces s2Y = s2X .
Teorema 5.1 (de König). la varianza es la diferencia entre la media de los cuadrados y el
cuadrado de la media, es decir,
k
P k
P
(xi − x̄)2 ni xi 2 ni
i=1 i=1
= − x̄2 (5.23)
N N
Problema: como todas las desviaciones están elevadas al cuadrado, la unidad de medida
de la varianza viene dada en cuadrados de las unidades de los datos originales.
Desviación tı́pica
Se define como la raı́z cuadrada positiva de la varianza:
 1/2
Pk
2
 (xi − x̄) ni 
 i=1 
sX =   . (5.24)
 N 
Esto aparece representado en muchas calculadoras como σn .
Propiedades: Sea X una variable, c, d ∈ R, d 6= 0.
1) Si Y = dX, entonces sY = dsX .
2) Si Y = X + c, entonces sY = sX .
3) Usando de nuevo el Teorema de König:

 1/2
Pk
2
xi ni
 
 i=1 
sX =  − x̄2  (5.25)
 N 
Ejemplo. Calificaciones de 20 alumnos en Matemáticas:

xi ni (xi − x̄)2 (xi − x̄)2 ni x2i x2i ni
2 3 9’3025 27’9075 4 12
6 6 1’1025 6’6150 16 96
5 5 0’0025 0’0125 25 125
(5.26)
6 3 0’9025 2’7075 36 108
8 1 8’7025 8’7025 64 64
10 2 24’5025 49’0050 100 200
Total 20 94’95 605
Sabemos que x̄ = 5′ 05.

P
k
(xi −x̄)2 ni
94′ 95
Usando la definición, s2X = i=1
N = 20 = 4′ 7475, y sX = 2′ 1788.
P
k
x i 2 ni
605
Usando el Teorema de König, s2X = i=1
N − x̄2 = 20 − (5′ 05)2 = 4′ 7475.
Coeficiente de variación de Pearson

A veces hay que comparar las dispersiones de dos distribuciones expresadas en distintas
unidades. Es por ello que estudiamos una medida relativa de la variabilidad de la distribución
mediante un número abstracto independiente de las unidades de medida de las variables. El
coeficiente de variación de Pearson es
sX
CV = . (5.27)
x̄
Multiplicándolo por cien permite usar el lenguaje de porcentajes. Cuanto mayor sea CV
menor será la representatividad de la media. Su valor mı́nimo es cero, cuando sX = 0, en cuyo
caso, obviamente, no hay dispersión.
Tipificación de la variable
En ocasiones interesa deducir el valor relativo de un dato respecto al grupo que pertenece,
usando para ello la media y desviación tı́pica del grupo.
Ejemplo. Se quiere asignar un puesto de trabajo entre dos candidatos. La plaza la consigue
el que obtenga mejor calificación en una prueba que ambos realizaron en sus ciudades de proce-
dencia. El candidato A obtuvo 55 puntos sobre 80, el candidato B 7 sobre 10 puntos. Son cono-
cidas las medias y las desviaciones tı́picas de ambas pruebas: x̄A = 45, sA = 12; x̄B = 6, sB = 2.
¿Quién consigue entonces el puesto de trabajo? O dicho más generalmente: ¿cómo com-
parar datos de dos muestras distintas asociadas a un mismo tipo de estudio? Se hace un
reescalamiento, denominado tipificación.
Se llama tipificación de la variable X, que toma los valores x1 , x2 , . . . , xk , a la trans-
formación
xi − x̄
zi = . (5.28)
sX
A la variable Z que toma los valores z1 , z2 , . . . , zk , se le llama variable tipificada.
Gracias a las propiedades de la media y desviación tı́pica, la variable tipificada tiene media
nula y desviación tı́pica uno (y ahora sı́ podemos compararlas).
Notamos ZA y ZB a dos nuevas variables estadı́sticas, las tipificaciones de las calificaciones
habidas en las respectivas ciudades. Ası́, las notas de ambos individuos “tipificadas” son:
xA − x̄A xB − x̄B
zA = = 0′ 83; zB = = 0′ 5. (5.29)
sA sB
Estos valores ahora sı́ son comparables, y elegimos el valor mayor, es decir, el candidato de la
ciudad A como el más apto.
Tema 6
Variables estadı́sticas
bidimensionales
6.1. Introducción
Los individuos de una población pueden ser clasificados atendiendo a dos caracteres si-
multáneamente. Por ejemplo, pulso y temperatura de los enfermos de un hospital, producción
y venta de una fábrica, etc.
El objetivo de este tema será mostrar algunos resultados sobre el estudio de la relación
entre dos caracterı́sticas dadas en el mismo problema y cómo diagnosticar posibles valores
esperados (cabe decir que al contrario que la interpolación dada en el primer bloque de la
asignatura, ahora se usarán técnicas de aproximación).
Consideremos una muestra de N individuos, que clasificamos atendiendo a dos caracteres

X e Y, que presentan, respectivamente, las modalidades x1 , x2 , . . . , xp e y1 , y2 , . . . , yq . Por nij
representamos al número de individuos que presenta la modalidad xi de X y la modalidad
n
yj de Y. Es decir, nij es la frecuencia absoluta del par (xi , yj ). Y fij = Nij es la frecuencia
relativa. Entonces
Xp Xq Xp X q
nij = N, fij = 1. (6.1)
i=1 j=1 i=1 j=1
Representando los pares (xi , yj ) se obtiene un conjunto de puntos en el plano llamado

diagrama de dispersión o nube de puntos. Nuestro objetivo en este tema es analizar,
dada una nube de puntos, si existe una relación lineal entre las dos caracterı́sticas estudiadas.
6.2. Tablas de doble entrada

Mediante ellas vamos a representar las variables bidimensionales. En la primera columna
se colocan las modalidades de X y en la primera fila las de Y . La intersección de la fila donde
está xi con la columna donde está yj corresponde a nij .
81
82 TEMA 6. VARIABLES ESTADÍSTICAS BIDIMENSIONALES
X\Y y1 ··· yj ··· yq Total

x1 n11 ··· n1j ··· n1q n1·
.. .. .. ..
. . . .
xi ni1 ··· nij ··· niq ni· (6.2)
.. .. .. ..
. . . .
xp np1 ··· npj ··· npq np·
Total n·1 ··· n·j ··· n·q
q
P p
P
ni· = nij es la frecuencia absoluta marginal de X, y n·j = nij es la frecuencia
j=1 i=1
absoluta marginal de Y.
Se verifica que
p
X q
X
ni· = N, n·j = N. (6.3)
i=1 j=1
Se pueden definir las medias, varianzas y desviaciones tı́picas marginales de X e Y, pero en

la práctica vamos a simplificar los cálculos pues toda tabla de doble entrada va a poderse
escribir como una tabla simple.
Veámoslo con el ejemplo siguiente: estudiamos el número de toneladas de sandı́as y de

melones producidos en 50 granjas. X es el número de toneladas de sandias e Y el número de
toneladas de melones. La tabla de doble entrada
X\Y 0 1 2 3 4 5 6 Total
0 2 0 4 3 1 0 0 10
1 3 0 9 0 0 3 0 15
2 0 6 0 6 0 0 1 13
(6.4)
3 1 4 0 0 2 1 0 8
4 0 0 2 0 1 0 0 3
5 0 0 0 1 0 0 0 1
Total 6 10 15 10 4 4 1 50
6.3. RELACIONES ENTRE LAS VARIABLES X E Y 83
la convertimos en una tabla simple (donde cambiamos los subı́ndices)
xi yi ni
0 0 2
0 2 4
0 3 3
0 4 1
1 0 3
1 2 9
1 5 3
2 1 6
(6.5)
2 3 6
2 6 1
3 0 1
3 1 4
3 4 2
3 5 1
4 2 2
4 4 1
5 3 1
En la tabla de doble entrada se puede calcular, por ejemplo,
0 · 10 + 1 · 15 + 2 · 13 + 3 · 8 + 4 · 3 + 5 · 1
x̄ = = 1′ 64,
Pk 50
2
i=1 xi ni·
s2X = − x̄2 = 1′ 55. (6.6)
N
6.3. Relaciones entre las variables X e Y

1- El primer indicador del grado de relación entre las variables va a ser la covarianza o
varianza conjunta de las variables X e Y .
La covarianza de la variable bidimensional (X, Y ), es decir, la que toma los valores
(x1 , y1 ), (x2 , y2 ), . . . , (xk , yk ) con frecuencias absolutas n1 , n2 , . . . , nk es
k
P k
P
(xi − x̄)(yi − ȳ)ni xi yi ni
i=1 i=1
sXY = = − x̄ȳ. (6.7)
N N
(Esta última igualdad se comprueba simplemente desarrollando el producto previo.)
2- Curva de regresión. Buscamos una curva y = f (x) cuya gráfica se adapte lo más
posible a la nube de puntos, de manera que conocido el valor de una de las variables podamos
obtener un valor aproximado de la otra mediante esta curva. Ası́ podemos encontrar regresión
lineal, parabólica, exponencial, etc.
Vamos principalmente a analizar la regresión lineal, es decir, el caso de la recta que más
cerca pase de los puntos dados (esto se hace midiendo y minimizando la distancia, en
cierto sentido, de la recta a la nube de puntos; según qué se minimice se pueden obtener
distintas rectas).
La recta de regresión de Y sobre X y la de X sobre Y son, respectivamente,

sXY sXY
y − ȳ = 2 (x − x̄), x − x̄ = 2 (y − ȳ). (6.8)
sX sY
Ejemplo. Las calificaciones en Matemáticas (X) y Quı́mica (Y ) de 15 alumnos de Far-
macia son
X 8 8 6 6 7 8 5 6 7 7 8 7 8 6 8
(6.9)
Y 4 6 3 5 4 6 4 4 6 4 5 7 6 5 6
Gráficamente vemos su distribución:
8
2
4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9
Nos planteamos el siguiente problema: mediante la recta de regresión de Y sobre X,

determinar la nota que tendrá un alumno en Quı́mica que tiene un 8 en Matemáticas.
Calculamos para ello las medias, varianzas y covarianza de las variables:
x̄ = 7; s2X = 0′ 93; ȳ = 5; s2Y = 1′ 2; sXY = 0′ 53. (6.10)
La recta de regresión de Y sobre X es
0′ 53
y−5= (x − 7) ⇒ y = 0′ 57x + 1′ 01. (6.11)
0′ 93
2
4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9
Esta recta, que minimiza la distancia (en el sentido de mı́nimos cuadrados) de la nube
de puntos a ella más que cualquier otra recta, sirve para “aventurar” aproximaciones de
valores buscados estén o no en los datos iniciales.
Por ejemplo, la nota “más esperada” por esta vı́a en Quı́mica para un alumno con un 8
en Matemáticas será 0′ 57 · 8 + 1′ 01 = 5′ 57.
También podemos, por ejemplo, plantearnos la regresión exponencial. Se trata de hallar

la curva exponencial de la forma y = cax , con a ∈ (0, 1) ∪ (1, ∞), que pase más cerca de
los puntos que forman la nube de puntos.
Para calcular dicha curva tenemos entonces que hallar las constantes c y a. La idea es
transformar la curva exponencial en una recta tomando logaritmos, es decir,
y = cax ⇒ log y = log(cax ) = log c + x log a

con lo que si hacemos el cambio de variables z = log y, entonces z = (log a)x + log c, es
decir, lo que tendremos que calcular es la recta de regresión para las variables (x, z) y
después deshacer el cambio (tomando exponenciales) para finalmente obtener los valores
de a y c.
Ejemplo. El ingreso de ventas, en billones de dólares, de una determinada marca de
ordenadores viene dada por la siguiente tabla, donde t representa años medidos desde
el año 2000:
t 0 2 4 7
(6.12)
y 3 4 11 25
Obtener la curva exponencial de regresión que mejor se ajuste a los datos anteriores.
Para ello, consideramos la tabla siguiente
t 0 2 4 7
(6.13)
z 0.4771 0.6020 1.0413 1.3979
donde z está representando el logaritmo de x (en este ejemplo se está usando el logaritmo
en base diez).
Calculando la recta de regresión lineal correspondiente a la tabla anterior, obtenemos
z = 0,13907x + 0,42765, con lo que entonces
c = 100,42765 = 2,677, a = 100,13907 = 1,3774
y ası́ la curva de regresión exponencial que se ajusta a los datos dados es y = 2,677(1,3774)x .
3- La correlación es la teorı́a que analiza el grado de intensidad de la relación entre las

dos variables. Diremos
Correlación positiva si la curva de regresión es creciente.
Correlación negativa si la curva de regresión es decreciente.
Correlación nula si no existe ninguna relación entre las variables (variables incorreladas).
Correlación de tipo funcional cuando todos los puntos de la nube de puntos pertenecen
a la curva de regresión.
Supongamos que la regresión es lineal. Analizamos como ı́ndice de la correlación entre las
variables X e Y el coeficiente de correlación lineal de Pearson:
sXY
r= . (6.14)
sX sY
Se puede probar que −1 ≤ r ≤ 1. Además:
Si r = 0, entonces las rectas de regresión son y = ȳ, x = x̄, es decir, paralelas a

los ejes, no habiendo ningún tipo de dependencia entre ellas. Corresponde a variables
incorreladas.
Si |r| = 1, ambas rectas de regresión son iguales y hay regresión de tipo funcional entre
las variables.
Si −1 < r < 0, la correlación es negativa siendo mayor la intensidad cuanto más se

aproxima r a −1.
Si 0 < r < 1, la correlación es positiva siendo mayor la intensidad cuanto más se

aproxima r a 1.
Ejemplo. En el ejemplo anterior, r = ssXXY

′
0 53 ′
sY = 0′ 97,1·1 = 0 5, por tanto, la correlación es
positiva pero no muy fuerte, y de ahı́ que la predicción realizada no es muy fiable.
Tema 7
Probabilidad. Distribuciones
binomial y normal
7.1. Introducción
En este tema trataremos algunas cuestiones básicas sobre Probabilidad. Tanto la Pro-
babilidad como la Estadı́stica son dos campos de las Matemáticas que proporcionan útiles
herramientas para el estudio de las ciencias de la vida. Muchos fenómenos de la naturaleza no
son deterministas, es decir, conllevan una aleatoriedad. La teorı́a de la Probabilidad estudia
las leyes que modelan esa aleatoriedad mientras que la teorı́a estadı́stica analiza los datos con-
cretos obtenidos de los experimentos; ambas son las caras de una misma moneda que deben
conocerse para entender mejor la realidad que se estudia en su conjunto.
Los primeros investigadores de la probabilidad de sucesos, sobre todo aplicada a los juegos
de azar, fueron los franceses Pierre Fermat (1601-1665) y Blaise Pascal (1623-1662).
El nombre de azar proviene de los juegos de dados, donde aparecı́a pintada la flor de
azahar y estaba asociada a la buena suerte, significaba una buena partida. Incluso el nombre
de suceso aleatorio, es decir, suceso del cual es imposible predecir el resultado, proviene del
latı́n “aleas”que significa dado. Sin embargo, ya un siglo antes Galileo estudió problemas
sencillos como porqué es mejor apostar a sacar un 10 que a sacar un 9 en una tirada de tres
dados. Antes que Galileo también se dedicó al estudio de estos problemas Cardano, quien
incluso escribió un libro sobre los juegos de dados en el que llega a explicar cómo hacer
trampas para ganar.
La introducción de Pascal y Fermat en este tema vino de la amistad de Pascal con un
jugador profesional, conocido como Caballero de Meré, quien propuso a Pascal una serie de
problemas sobre distintas situaciones en las apuestas de dados. Pascal enviaba los problemas a
Fermat, con quien le unı́a una buena amistad y ası́ mantuvieron una continua correspondencia
sobre ideas y métodos. Pierre Simon Laplace (1749-1827) construyó la formulación definitiva
de la teorı́a general de la probabilidad. Laplace definió el cálculo de probabilidades como “el
sentido común expresado con números”.
Este tema consta de las siguientes secciones:
1. Probabilidad.
89
90 TEMA 7. PROBABILIDAD. DISTRIBUCIONES BINOMIAL Y NORMAL
2. Distribuciones discretas. La distribución binomial.
3. Distribuciones continuas. La distribución normal.
7.2. Probabilidad
Llamamos experimento a cualquier proceso que genera un conjunto de datos. Un expe-
rimento se dice aleatorio cuando se puede repetir en las mismas condiciones, sus posibles
resultados son conocidos previamente y el resultado de cada prueba depende del azar. Un
experimento se dice determinista cuando al repetirlo en las mismas condiciones, produce
siempre el mismo resultado.
Son experimentos aleatorios
- -El lanzamiento de un dado.
- -El lanzamiento de una moneda.
- -La extracción de un naipe de la baraja.
- -El tiempo de espera de una persona en la parada del autobús.
- -El número de hijos de una pareja, el sexo del mayor, su estatura o el número de años que
vivirá.
- -El número de veces que hay que lanzar una moneda hasta que salga cara.
El espacio muestral, que se denota por Ω, es el conjunto de todos los posibles resultados
de un experimento aleatorio. Cualquier subconjunto del espacio muestral se denomina suceso.
Se llama suceso elemental al constituido por un solo punto del espacio muestral.
Example En el lanzamiento del dado una vez, Ω{1, 2, 3, 4, 5, 6}. Un suceso elemental es,
por ejemplo, “que salga el 4”, es decir, A = {4}. Un suceso no elemental es “que salga un
número impar”, que se representará como B = {1, 3, 5}.
Un espacio muestral puede ser discreto (formado por puntos sueltos) o continuo. Los es-
pacios discretos pueden tener un número finito o infinito de valores. Algunos ejemplos,
- -Lanzamiento de un dado, Ω = {1, 2, 3, 4, 5, 6}.
- -Lanzamiento de una moneda, Ω = {C, X}.

7.3. DISTRIBUCIONES DISCRETAS. LA DISTRIBUCIÓN BINOMIAL 91
- -Número de veces que hay que lanzar una moneda hasta que salga cara, Ω = {1, 2, ..., n, ...}.
- -Tiempo de espera de una persona en la parada del autobús, Ω = [0, 40] (si la frecuencia
del autobús es de 40 minutos).
La teorı́a de la probabilidad se ocupa de medir la posibilidad de que ocurra un suceso,

hasta qué punto se puede esperar que ocurra un suceso. La definición de probabilidad es:
Definición 7.1. Se llama probabilidad a una regla que asocia a cada suceso, A, del espacio de
sucesos, un número, que representamos por P (A) y llamamos probabilidad de A y que cumple
los siguientes axiomas:
1. P (A) ≥ 0 cualquiera que sea A.
2. P (Ω) = 1.
3. Si A y B son dos sucesos disjuntos (es decir, incompatibles), entonces
P (A ∪ B) = P (A) + P (B).
La probabilidad es un ejemplo de los que se llama una variable aleatoria.
Definición 7.2. Se llama variable aleatoria a toda regla que asocia a cada elemento de un
espacio muestral, Ω, un número real.
Ejemplo. Al lanzar tres veces una moneda, donde
Ω = {(CCC), (CCX), (CXC), (XCC), (CXX), (XCX), (XXC), (XXX)},
se puede considerar la variable aleatoria Z que indique “el número de caras que salen”. Ası́,
por ejemplo,
Z(CCC) = 3, Z(CXC) = 2, Z(XXC) = 1, Z(XXX) = 0
Las variables aleatorias pueden ser discretas y continuas. A cada una de ellas y los ejemplos
más relevantes dedicamos las siguientes preguntas.
7.3. Distribuciones discretas. La distribución binomial

Una variable aleatoria se llama discreta cuando sólo puede tomar ciertos valores enteros.
El ejemplo más importante de este tipo de variable es el siguiente.
Supongamos que un experimento aleatorio con las siguientes caracterı́sticas.
1. En cada prueba del experimento sólo son posibles dos resultados a los que se suele llamar
éxito y fracaso.
2. El resultado obtenido en cada prueba es independiente de los resultados anteriores.
3. La probabilidad del éxito es constante, esto es, no varı́a de una prueba a otra. Se
representa por p.
Se dice que este experimento sigue el modelo de la distribución binomial. A la variable

aleatoria que expresa el número de éxitos obtenidos en cada prueba, se la llama variable
aleatoria binomial y se la representa por B(n, p), siendo n y p los parámetros de dicha
distribución.
7.4. Distribuciones continuas. La distribución normal

Una variable aleatoria se llama continua cuando puede tomar todos los valores posibles
dentro de un cierto intervalo de la recta real. En este caso, no tiene sentido hablar de la
probabilidad de que tome un valor concreto, porque es 0; en cambio tiene interés conocer la
probabilidad correspondiente a un intervalo.
A una variable aleatoria continua, X, que toma los valores x, se puede asociar una función,
f (x), con las siguientes propiedades:
1. f (x) ≥ 0 en todo su dominio de definición.
2. El área encerrada bajo la gráfica de f (x) es la unidad.
Entonces, f (x) se llama la función de densidad de la variable X. Con esta función, se

determinan las probabilidades de la manera siguiente: la probabilidad de que la variable X
tome los valores comprendidos entre a y b es el área limitada por la curva y = f (x), el eje OX
y las rectas verticales x = a y x = b. Si a = −∞ y/o b = +∞, la extensión es evidente.
El ejemplo más importante de variable aleatoria continua es la llamada distribución
normal, llamada ası́ porque en un tiempo se creyó que describı́a el comportamiento “nor-
mal”de los fenómenos. En todo caso, describe multitud de fenómenos en biologı́a, pedagogı́a,
psicologı́a,.., y esto es ası́ por varios motivos:
1. En gran número de situaciones hay una fuerte influencia a eliminar por igual a lo que se
desvı́an en análoga medida de la media, sea esta desviación por arriba o sea por debajo.
2. Se observa que muchos fenómenos son sumas de efectos parciales independientes, que
estos efectos parciales pueden estar sesgados, pero que la suma sı́ se ajusta a una dis-
tribución simétrica que va disminuyendo de forma regular al alejarse de la normal. Por
ejemplo, en el peso de las personas de una población, influye la componente genética, el
clima, la alimentación,..; algunas de estas influencias puede no distribuirse normalmente,
pero sı́ lo hace el peso. Este hecho fue justificado matemáticamente en un importan-
te teorema llamado Teorema Central del Lı́mite, que nos dice que si se suman un
número grande de variables aleatorias independientes, idénticamente distribuidas con
media y varianza finitas, entonces tras un cambio de variable adecuado, la distribución
de la variable resultante es aproximadamente, la normal.
7.4. DISTRIBUCIONES CONTINUAS. LA DISTRIBUCIÓN NORMAL 93
La distribucón continua más importante es la normal, porque es la que aparece más frecuen-
temente. Su funcón de densidad tiene esta forma
Definición 7.3. La función de densidad de una variable aleatoria, X, con distribución normal
de parámetros µ y σ, que denotaremos N (µ, σ) es
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) − ∞ < x < +∞.
σ 2π
El parámetro µ es la media y el parámetro σ 2 es la varianza.
Definición 7.4. Se llama función de distribución de la distribución normal N (µ, σ) a la

función definida por Z x
F (x) = f (s) ds, −∞ < x < +∞.
−∞
Puede observarse que la función f (x) es una función de densidad, esto es,
Z +∞
1 1 x−µ 2
f (x) ≥ 0, √ e− 2 ( σ ) dx = 1,
σ 2π −∞
y que tiene además las siguientes propiedades:
1. Es simétrica respecto de la recta x = µ.
2. El máximo está en x = µ.
3. La función tiene dos puntos de inflexión en x = µ − σ y x = µ + σ.

Por lo que se ha dicho antes
Z b
1 1 x−µ 2
P (a ≤ X ≤ b) = F (b) − F (a) = √ e− 2 ( σ
)
dx,
σ 2π a
pero esta integral sólo puede aproximarse numéricamente.
Existe una tabla que contiene los valores de estas integrales, de la que hablamos en la
Sección siguiente, para la normal N(0,1). Para el caso general de una variable normal X de
media µ y desviación tı́pica σ, se hace el cambio de variable
X −µ
Z= ,
σ
que es ya una variable normal estándar. Ası́
x−µ
F (x) = P (X ≤ x) = P (σZ + µ ≤ x) = P (Z ≤ ),
σ
que se puede obtener mediante la tabla siguiente:

7.5. CÁLCULO DE PROBABILIDADES USANDO LA TABLA 95
7.5. Cálculo de probabilidades usando la tabla

Ejemplos:
1. P (Z ≤ 1,43)
2. P (Z ≤ −1,34)
3. P (1,18 ≤ Z ≤ 1,56)
4. P (−1,65 ≤ Z ≤ −1,24)
5. P (−0,18 ≤ Z ≤ 1,73)
6. P (Z ≤ k) = 0,75
7. P (Z ≤ k) = 0,35
Tema 8
Teorı́a de muestras y diseño de

experimentos
Como ya se dijo en el tema de Estadı́stica Descriptiva, cuando realizamos un experimento

observamos un conjunto de elementos que llamamos población. Estos elementos pueden ser
personas, espárragos, chinchetas, animales, etc.
Con la Estadı́stica se pretende estudiar alguna caracterı́stica de la población ahorrando
tiempo y dinero, por lo que se elige una parte de la población, a la que hemos llamado
muestra, sobre la que se realiza el estudio para posteriormente inferir estos resultados sobre
toda la población. El proceso mediante el cual se extrae una muestra de una población de
llama muestreo.
Para que el estudio sea fiable, la muestra tendrá que ser realmente representativa de la
población. Por ejemplo, últimamente se utiliza con mucha frecuencia la realización de sondeos
de opinión llamando por teléfono. Está claro que este tipo de muestreo da más oportunidades
a aquellas personas que tienen más de un teléfono. Una muestra como ésta obtenida por un
procedimiento que no contempla que todos los individuos de la población tengan la misma
oportunidad de ser elegidos se denomina muestra sesgada. Las conclusiones obtenidas a
partir de ella son poco fiables.
8.1. Tipos de muestreo

8.1.1. Muestreo aleatorio simple
En el muestreo aleatorio simple todos los elementos de la población tienen la misma
probabilidad de ser elegidos para formar parte de la muestra.
Ejemplo: Para realizar una encuesta sobre la intención de voto en una ciudad se elige, al
azar, una muestra formada por 1000 personas.
8.1.2. Muestreo aleatorio estratificado

En el muestreo aleatorio estratificado la población se divide en grupos homogéneos
que llamamos estratos, y, posteriormente, se extrae una muestra aleatoria simple de cada
97
98 TEMA 8. TEORÍA DE MUESTRAS Y DISEÑO DE EXPERIMENTOS
estrato.
Ejemplo: En una ciudad de sabe que el 60 % son mujeres y el 40 % hombres. Se quiere
realizar una encuesta sobre la intención de voto escogiendo una muestra de 1000 personas.
Para ello, previamente se divide la población en dos estratos: mujeres y hombres, y luego, se
extrae de cada estrato una muestra proporcional, es decir, en este caso, 600 mujeres y 400
hombres.
8.1.3. Muestreo aleatorio sistemático

En el muestreo aleatorio sistemático se selecciona al azar un elemento de la población,
y a partir de él, se seleccionan de k en k los siguientes elementos.
Ejemplo: En una carretera se va a hacer un control de alcoholemia. Se elige al azar al
conductor de un vehı́culo y se le hace pasar el control, a continuación, se seleccionan de 50 en
50 los siguientes conductores (aquı́ se ha elegido k = 50).
8.1.4. Muestreo por conglomerados y áreas

En el muestreo por conglomerados y áreas se divide la población en secciones o con-
glomerados. Se eligen luego al azar algunas de estas secciones y se toman todos los elementos
de las secciones elegidas para formar la muestra.
Ejemplo: Para realizar una encuesta entre los alcaldes de España, se consideran las pro-
vincias de España. Se eligen al azar algunas provincias y la muestra estará formada por todos
los alcaldes de las provincias elegidas (claramente en este ejemplo las secciones son todas las
provincias de España).
8.2. Distribución en el muestreo de la media

Consideremos el siguiente ejemplo: los fabricantes de envasado de espárragos desean saber
la longitud media de los espárragos. La longitud media la representaremos por µ y por σ la
desviación tı́pica.
Con el fin de hacernos una idea de cómo puede ser µ, elegimos una muestra aleatoria
formada por 40 espárragos, y se obtiene que:
La longitud media muestral es x̄1 = 17,3 cm,
La desviación tı́pica muestral es s1 = 0,8 cm.
Si elegimos otras muestras de tamaño 40 y calculamos sus medias y desviaciones tı́picas,

obtendremos: x̄2 , x̄3 , ·, ·, ·, x̄n y s2 , s3 , ·, ·, ·, sn .
Los distintos valores de x̄i dan lugar a una variable aleatoria que representamos por X̄.
La distribución de X̄ se llama distribución de las medias muestrales o distribución en
el muestreo de la media. Se puede demostrar que:
Teorema 8.1. La variable aleatoria X̄ tiene media µ, desviación tı́pica √σ , y cuando n es

n
grande (n ≥ 30), se aproxima a la normal correspondiente.
8.2. DISTRIBUCIÓN EN EL MUESTREO DE LA MEDIA 99
Observación 8.2. Cuando σ es desconocida y n ≥ 30, sustituiremos σ por la denominada

desviación tı́pica muestral, que esta situación viene dada por
sP
n
− µ)2
i=1 (x̄i
ŝ = (8.1)
n−1
Ejemplo: Se supone que la distribución de la temperatura del cuerpo humano tiene de

media 37 grados y de desviación tı́pica 0,85 grados. Se elige una muestra de 105 personas.
Hallar las siguientes probabilidades:
1. Que la media sea superior o igual a 36,9.
2. Que la media esté comprendida entre 36,5 y 37,5.
En este caso, la distribución de la media muestral es

σ 0,85
N µ, √ =N 37, √ = N (37, 0,083).
n 105
Entonces:
1.

36,9 − 37
P (X̄ ≤ 36,9) = P Z≤ = P (Z ≤ −1,2) = 1−P (Z ≤ 1,2) = 1−0,8849 = 0,115.
0,083
2.
36,5 − 36,9 37,5 − 36,9
P (36,5 ≤ X̄ ≤ 37,5) = P ( ≤Z ≤ ) = P (−4,82 ≤ Z ≤ 7,23) = 1.
0,083 0,083
Ejemplo: El cociente intelectual (CI) de unos universitarios se distribuye normalmente

con media 100 y desviación tı́pica 11.
1. Se elige una persona al azar. Hallar la probabilidad de que su CI esté entre 100 y 103.
2. Se elige al azar una muestra de 25 de los universitarios. Encontrar la probabilidad de

que la media de sus CI esté entre 100 y 103.
1. La distribución de partida es N (100, 11).

100 − 100 103 − 100
P (100 ≤ X ≤ 103) = P ≤Z≤ = P (0 ≤ Z ≤ 0,27) = 0,1064.
11 11
2. La distribución de la media muestral, como procede de una población de partida normal,

es normal cualquiera que sea el valor de n.
Los parámetros de esta distribución son:
σ 11
µ = 100, √ = √ = 2,2.
n 25
Por tanto, X̄ ∈ N (100, 2,2), y entonces,
100 − 100 103 − 100

P (100 ≤ X̄ ≤ 103) = P ( ≤Z≤ ) = P (0 ≤ Z ≤ 1,36) = 0,4131.
2,2 2,2
8.3. Distribución de la proporción

Consideremos el siguiente ejemplo: los fabricantes de una determinada marca de chinchetas
quieren saber cuántas salen defectuosas. Sea p la proporción de chinchetas buenas, es decir,
las que no presentan defectos.
Ya que no se conoce p, la idea es aproximar su valor de alguna manera. Para ello, se
toma una muestra aleatoria de 100 chinchetas y se observa que 86 de ellas están bien. Al
valor 86/100 lo llamamos p̂, que nos es el valor de p, pero sı́ da una idea de la proporción de
chinchetas buenas en la muestra elegida. Evidentemente, al considerar otras muestras de 100
chinchetas el valor de p̂ cambiará.
Sin embargo, los distintos valores de p̂ dan lugar a una variable aleatoria que representamos
por P̂ y que llamaremos estadı́stico. La distribución de P̂ se llama distribución muestral
o distribución en el muestreo de la proporción. Se puede demostrar que:
r
p(1 − p)
Teorema 8.3. La variable aleatoria P̂ tiene media p, desviación tı́pica , y cuando
n
n es grande se aproxima a la normal correspondiente, siempre que p no se acerque ni a 0 ni
a 1.
Ejemplo: Se sabe que un nuevo fármaco ha curado al 85 % de los enfermos a los que se
les ha aplicado. Calcular la distribución en el muestreo de la proporción de enfermos curados
para muestras de tamaño 30, 100 y 1000 personas.
La proporción de enfermos curados es p = 85, ası́ que en todos los casos µ = 0,85.
Discutamos el valor de la desviación tı́pica y la distribución muestral según el valor n en cada
muestra:
q
0,85 0,15
1. n = 30. Entonces σ = 30 = 0,065, y la distribución muestral sigue la ley
N (0,85; 0, 065).
2. n = 100. En este caso, σ = 0,036, y la distribución muestral sigue la ley N (0,85; 0, 036).
3. n = 100. En este caso, σ = 0,011, y la distribución muestral sigue la ley N (0,85; 0, 011).
8.4. DISTRIBUCIÓN EN EL MUESTREO DE LA DIFERENCIA DE MEDIAS 101
8.4. Distribución en el muestreo de la diferencia de medias

Consideremos el siguiente ejemplo: supongamos que los espárragos de La Rioja tienen
de media µ1 y desviación tı́pica σ1 , y que los espárragos de Aranjuez tienen de media µ2 y
desviación tı́pica σ2 .
Tomamos una muestra de tamaño n1 de espárragos de La Rioja y una muestra de tamaño
n2 de espárragos de Aranjuez. Sean x̄1 y x̄2 sus longitudes medias respectivas.
Si elegimos otras medias de tamaños n1 y n2 respectivamente, y calculamos sus medias y
las diferencias de las medias, obtenemos:
x̄′1 − x̄′2 , x̄′′1 − x̄′′2 , x̄′′′ ′′′

1 − x̄2 , ···
Estos valores dan lugar a una variable aleatoria que representaremos por X̄1 − X̄2 . La
distribución de X̄1 − X̄2 se llama distribución en el muestreo de la diferencia de las
medias. Se puede demostrar que:
s
σ12 σ22
Teorema 8.4. La variable aleatoria X̄1 −X̄2 tiene media µ1 −µ2 , desviación tı́pica + ,
n1 n2
y cuando n es grande se aproxima a la normal correspondiente.
Observación 8.5. Cuando las desviaciones tı́picas son desconocidas y las muestras son gran-
des, sustituiremos σ1 y σ2 por ŝ1 y ŝ2 respectivamente.
Ejemplo: Escojamos al azar una muestra de 40 hombres, los cuáles tienen un salario
medio de 914 euros y desviación tı́pica 42 euros. También se escoge al azar una muestra
de 30 mujeres que tienen salario medio 883 euros y desviación tı́pica 30 euros. ?’Cuál es la
probabilidad de que la diferencia de los sueldos medios sea mayor que 36 euros?
Para la muestra de hombres tenemos x̄1 = 914, σ1 = 42 y n1 = 40.
Para la muestra de mujeres tenemos x̄2 = 883, σ2 = 30 y n2 = 30.
Entonces, X̄1 − X̄2 sigue una distribución
r !
422 302
N 914 − 883, + = N (31, 8,61).
40 30
Por tanto, tipificando la variable,
36 − 31
P (X̄1 −X̄2 > 36) = P (Z̄1 −Z̄2 > ) = P (Z̄1 −Z̄2 > 0,58) = 1−P (Z̄1 −Z̄2 ≤ 0,58) = 1−0,719 = 0,281.
8,61
8.5. Ensayos clı́nicos

El objetivo que persigue un ensayo clı́nico es planificar las experiencias de modo que,
de ocurrir la significación, ella sólo pueda deberse al tratamiento aplicado a cada grupo de
individuos y no a cualquier otra caracterı́stica no controlada. Esto conlleva que los grupos de
individuos que forman parte de las dos muestras han de ser comparables en todo lo relevante
excepto en el tratamiento aplicado a cada uno de ellos.
La palabra tratamiento debe ser entendida en sentido amplio.

Ejemplo: Si se compara un grupo de madres gestantes con otro de madres no gestantes,
la gestación será considerada un tratamiento.
8.5.1. El grupo de control.

Son frecuentes ciertos razonamientos tendentes a probar la importancia de un determi-
nado agente respecto a una cierta enfermedad o accidente. Por ejemplo, puede afirmarse
que el alcohol predispone a un accidente de automóvil, puesto que el 10 % de los conducto-
res accidentados habı́an consumido alcohol. Esta afirmación es cierta, pero no por la razón
que se esgrime: resulta evidente que los conductores accidentados habrán tomado leche en
el desayuno, tendrán hermanos o llevarán dinero en el bolsillo y, sin embargo, nadie señala
tales variables como responsables del accidente. Lo que llevará a ratificar la conclusión inicial
será la comparación de los porcentajes de los individuos que han tomado bebidas alcohólicas
en un grupo de accidentados y en otro de no accidentados.
Se hace, por tanto, necesaria la existencia de un grupo de control de individuos que,
tomados de la población general que no sufre accidentes, permita la comparación de dichos
porcentajes.
De modo general, la investigación médica es, por naturaleza, comparativa. El problema
de estudio debe implicar al menos dos grupos: un grupo de pacientes tratados con cierto
tratamiento (por ejemplo, tener un accidente) ha de ser comparado con otro grupo de pacientes
no tratados llamado grupo de control (lo que no tienen accidente). Eventualmente, puede
haber además uno o más grupos de pacientes tratados con otro/s tratamiento/s (nuevo o
estándar).
8.5.2. Concepto de ensayo clı́nico.

Según Meinert (1986): “Un ensayo clı́nico es un diseño experimentalmente planificado
para verificar la eficacia de un tratamiento en humanos a través de la comparación de los
resultados obtenidos en dos grupos de pacientes que reciben uno el tratamiento problema
y el otro un tratamiento alternativo (nuevo o clásico) o ningún tratamiento, ambos grupos
tomados, tratados y seguidos durante igual periodo de tiempo y obtenidos por la partición al
azar en dos grupos de un grupo inicial único”. El segundo grupo es el grupo de control.
Las caracterı́sticas que en la definición aparecen sobre un ensayo clı́nico son las siguientes:
se realizan con humanos (no con animales),
ambos grupos son seguidos durante igual periodo de tiempo (si el grupo de control consta
de individuos diagnosticados y tratados con anterioridad al estudio actual (controles
históricos) no son válidos),
partición al azar del grupo único en los dos grupos, lo que implica que el tratamiento
ha de estar controlado (a cada individuo de la muestra inicial se le debe poder asignar
un tratamiento u otro a voluntad del investigador).
8.5. ENSAYOS CLÍNICOS 103
8.5.3. Control del sesgo

En un ensayo clı́nico los dos grupos deben ser comparables en todas sus caracterı́sticas ex-
cepto en el tratamiento recibido. Por lo complejo del ser humano, esto no es fácil de conseguir.
Las diferencias observadas entre los dos grupos pueden deberse a las siguientes razones:
a) azar en la toma de muestras: lo controla la estadı́stica,
b) diferencias entre los individuos distintas del tratamiento y previas a su aplicación: lo

controla el diseño de ensayo,
c) diferencias en la evaluación y manipulación de los grupos: lo controla el tipo de ensayo,
d) diferencias en los efectos de los dos tratamientos: es el objetivo del ensayo.
Control del sesgo ocurrido por la aplicación de los tratamientos: tipos de ensayos
clı́nicos.
Para evitar que las diferencias obtenidas en el tratamiento se deban al “rito” y no al
tratamiento en sı́, a ambos grupos se le deben aplicar las mismas técnicas fı́sicas. En este
caso, el grupo de control pasa a llamarse grupo placebo, por aplicarse un tratamiento
placebo (ficticio). Esta técnica debe complementarse con la técnica de simple ciego en la
que el paciente no sabe si recibe el tratamiento efectivo o el placebo. También se puede usar la
técnica de doble ciego, en la que ni el paciente ni el investigador conocen qué enfermos son
tratados con uno u otro tratamiento. Existe también la técnica de triple ciego (en la que ni
el paciente, ni el investigador, ni el comité que monitoriza el estudio conocen el tratamiento),
pero es bastante complicada de aplicar.
Señalar también que, para evitar que la significación sea debida a distinta pericia en la
aplicación de los tratamiento, los dos tratamientos han de ser aplicados por el mismo equipo
y con un similar entrenamiento en ambos.
De ese modo, podemos distinguir los siguientes tipos de ensayo:
a) con grupo control
b) con grupo placebo
c) técnica de simple ciego
d) técnica de doble ciego
e) técnica de triple ciego
Control del sesgo ocurrido por la selección de los individuos: selección de las
muestras.
Los estudios clı́nicos han de ser:
a) el ensayo ha de ser experimental o controlado (el investigador decide acerca de

qué tratamiento debe recibir cada paciente), evitando los estudios observacionales (el
investigador no tiene control sobre el tratamiento a aplicar, por ejemplo, cuando unos
pacientes se prestan a ser grupo de tratamiento o grupo de control dependiendo de sus
miedos, antecedentes médicos, experiencias, etc.),
b) el ensayo ha de ser concurrente, es decir, realizado en el mismo periodo de tiempo.

Los controles históricos presentan problemas ya que la enfermedad varı́a con el tiem-
po (especialmente las infecciosas) y los criterios de selección de los pacientes también
(evolución de las técnicas de diagnóstico, tratamientos más especializados,...).
c) el ensayo ha de ser aleatorizado, es decir, la asignación del tratamiento se hace por un

mecanismo de sorteo. En cualquier caso, debe incluirse la ficha técnica de las muestras
utilizadas, incluyendo toda la información pertinente sobre la distribución en cada mues-
tra de todos los posibles factores de riesgo, especialmente la edad y el sexo. Conviene
señalar que la asignación aleatoria (proceso mediante el cual se asignan individuos a
los grupos que son sometidos a tratamiento en un determinado ensayo) es diferente de
la selección aleatoria (proceso mediante el cual se se selecciona al azar una muestra
de individuos a partir de una población). Los ensayos clı́nicos rara vez imponen una
selección al azar, ya que lo que hace el investigador es aceptar los pacientes disponibles
para el estudio (siempre y cuando cumplan los requisitos de inclusión en el mismo).
8.5.4. Diseños de un ensayo clı́nico

Tan importante como un adecuado tratamiento es una correcta planificación de la
experiencia a realizar. Existen varios modos de planificar un ensayo clı́nico (también válidos
para el diseño de experimentos en general):
a) en muestras independientes (cada individuo recibe un único tratamiento) o apa-

readas (cada individuo recibe los dos tratamientos).
b) diseños cruzados (en muestras apareadas): la mitad de los individuos reciben los
tratamientos en un orden y la otra mitad en el orden contrario.
c) diseños estratificados: es un método a medio camino entre las muestras independien-

tes y las apareadas. Se aparea parcialmente en base a una estratificación de uno o más
factores de riesgo (edad, sexo, etc.).
Por ejemplo: Cuando la variable es cualitativa (sexo), hay dos estratos (varón y hem-
bra). Cuando la variable es cuantitativa (edad) los estratos se consiguen por una agru-
pación por clases (jóvenes, adultos, ancianos,...)
d) diseños factoriales: los individuos reciben combinaciones de tratamientos (pueden

recibir los dos tratamientos, uno o ninguno).
8.5. ENSAYOS CLÍNICOS 105
e) diseños secuenciales: los individuos van entrando uno a uno en la experiencia y con
cada entrada se realiza un test para decidir si se toma una decisión o un nuevo individuo.
Los diseños no secuenciales saben de antemano el tamaño del ensayo o se van incluyendo
alternativamente individuos en el ensayo hasta que alguna circunstancia ajena a la
efectividad de los tratamientos en los individuos ya tratados le aconseja detenerlo (coste,
tiempo,..).
8.5.5. Métodos de asignación aleatoria del tratamiento

La aleatorización debe realizarse con una tabla de números aleatorios. Si p es la probabili-
dad de asignar el tratamiento A a un individuo (B es el otro tratamiento), el proceso consiste
en tomar un grupo de números de la tabla, convertirlos en decimales y asignar A si el número
resultante es menos o igual que p (si la muestra es apareada, es que el individuo empieza
recibiendo el tratamiento A).
Consideramos n1 la cantidad de individuos que reciben el tratamiento A y n2 la cantidad
de individuos que reciben el tratamiento B, con N = n1 + n2 . La aleatorización puede ser:
a) con asignación igual (n1 = n2 ) o desigual (n1 6= n2 ), siendo r = n1 /N la razón de

asignación.
b) con asignación fija (no adaptativa) o adaptativa: según la probabilidad p sea

constante o no a lo largo del proceso de asignación.
c) con asignación adaptativa a la baselina (antes de la aplicación del tratamien-

to) o a la respuesta: según p varı́e en función de factores medidos antes o después de
la aplicación del tratamiento.
d) estratificada o no estratificada: según el tipo de diseño de base.
8.5.6. Otros conceptos relacionados con el ensayo clı́nico

El ensayo clı́nico ideal.
Es aquel que es aleatorizado a doble ciego con diseño cruzado.
Medida de la respuesta
Para determinar la eficacia relativa de los tratamientos a comparar es crucial decidir
qué tipo de resultado va a medirse. La medida de la respuesta al tratamiento puede ser un
suceso clı́nico (curación, muerte, mejorı́a manifiesta,...) o una medida indirecta (resultado
numérico de un test psicológico, cambio en la presión sanguı́nea, nivel de lı́pidos en suero,...),
y debe tener las siguientes caracterı́sticas deseables:
ser fácil de diagnosticar,

estar libre de errores de medida,
poder ser observada con independencia del tratamiento,
tener relevancia clı́nica,
ser elegida antes de comenzar la recolección de datos.
Tamaño de la muestra
Depende del diseño estadı́stico utilizado, del tipo de respuesta medida (cualitativa o cuanti-
tativa), de la distribución estadı́stica de la respuesta, de si se desea probar que los tratamientos
son distintos o si son iguales, de la razón de asignación, de si el test es de una cola o de dos, del
error α del test, de la mı́nima diferencia δ importante que se desea detectar entre los valores
de los parámetros que son objeto de test en las dos poblaciones,...
Duración del ensayo

Depende del tiempo requerido hasta observar la respuesta, del tamaño de las muestras y
del número de centros participantes.
Ética de los ensayos clı́nicos

Son éticamente admisibles por ser el único mecanismo cientı́fico válido para probar la
eficacia de un tratamiento. Requieren del consentimiento informativo del paciente.
Los ensayos clı́nicos en la legislación española.

La legislación española (BOE del 13/05/1993) entiende por tal a toda evaluación experi-
mental de una sustancia o medicamento en el ser humano. Los divide en cuatro tipo (según
sus objetivos):
De Fase I: estudios, generalmente en individuos sanos, para evaluar preliminarmente el

efecto, seguridad y dosificación del producto.
De Fase II: estudios en enfermos para evaluar la eficacia del producto y ampliar la
información sobre su seguridad y dosificación.
De Fase III: estudios, en un grupo representativo de enfermos, para evaluar la eficacia y

seguridad del tratamiento frente a otros alternativos y en condiciones de uso habituales.
De Fase IV: estudios con medicamentos ya comercializados para valorar nuevos aspectos
de los mismos.
Bibliografı́a
[1] A. Martı́n Andrés y J. de D. Luna del Castillo. Bioestadı́stica para las Ciencias de la
Salud. Ed. Norma S. A., 1994.
107
108 BIBLIOGRAFÍA
Tema 9
Inferencia estadı́stica
9.1. Intervalos de confianza

Para estudiar alguna caracterı́stica de la población serı́a necesario sondear a todos y cada
uno de sus individuos. Evidentemente, eso es imposible, pero aún ası́ se intentan dar respuestas
aproximadas. Una forma es extraer una muestra aleatoria que nos permita inferir qué va a
ocurrir. Es decir, inferir información basándonos en la información contenida en una muestra.
La inferencia estadı́stica es el conjunto de métodos que permiten obtener una conclusión
acerca de una población a través de la información proporcionada por una muestra. Cuando
la información deseada de la población es el valor de alguno de sus parámetros, la técnica a
utilizar es la estimación.
Ya que el conocimiento de la población lo va a proporcionar la muestra, es lógico que la
misma no se deba tomar de un modo arbitrario, sino que debe representar adecuadamente a
toda la población. Si la muestra no es representativa, nada de lo que se concluya a partir de ella
será válido para la población de interés, sino que lo será para la subpoblación que representa
(que no es el objetivo del estudio). Ası́, para determinar el nivel medio de colesterol de todos
los que viven en España, la muestra no puede tomarse sólo de personas de edad avanzada
(pues el nivel de colesterol varı́a con la edad), ni en base a individuos de una sola región
(pues la alimentación varı́a con las regiones), ni en base a los individuos que acuden a un
hospital (pues lógicamente en su mayorı́a estarán enfermos), etc. Para que la muestra sea
representativa de la población es preciso que:
Todos los individuos de la población tengan la misma probabilidad de ser seleccionados
e incluidos en la muestra.
La selección de un individuo no influya para nada en la selección o no de otro individuo
cualquiera.
Con estas condiciones se asegura la representatividad de toda la población.
9.2. Estimaciones de parámetros

Hay dos tipos básicos de estimaciones:
109
110 TEMA 9. INFERENCIA ESTADÍSTICA
Estimaciones Puntuales: se estima el parámetro desconocido con un solo valor, quedando

sin especificar como de buena es tal aproximación.
Estimaciones por intervalos: se persigue dar un intervalo de valores, alguno de los cuales
es el verdadero valor del parámetro desconocido, con una cierta seguridad de que la
afirmación sea verdadera.
9.3. Estimación puntual: parámetro y estadı́stico

Distinguimos entonces entre población (conjunto de todos y cada uno de los individuos)
y muestra (conjunto formado por algunos individuos elegidos de forma “aleatoria”). Cuando
queramos estudiar una caracterı́stica de la población, como será imposible, en realidad
estudiaremos una caracterı́stica de la muestra.
El valor numérico que describe una caracterı́stica de la población es un parámetro. El
valor numérico que describe una caracterı́stica de la muestra es un estadı́stico.
Trabajamos entonces con estadı́sticos.
Un estimador puntual es el estadı́stico que se usa para estimar un parámetro pobla-
cional. Es una variable aleatoria en el muestreo que tiene su correspondiente distribución
muestral. Una estimación puntual es el valor numérico que toma el estimador puntual para
una muestra determinada.
9.4. Propiedades de los estimadores puntuales

Citaremos dos propiedades que pueden poseer o no los estimadores:
El estimador se llama insesgado cuando su media coincide con el valor del parámetro
que se va a calcular y se llama sesgado en caso contrario.
El estimador se dice que es tanto más eficiente cuanto menor sea su varianza, y tanto
más no eficiente cuanto mayor sea su varianza.
Ejemplo: Cuando n es muy grande, se toma como estimador de la media poblacional

µ la media muestral x̄, y de la varianza poblacional la cuasivarianza muestral. Estos dos
estimadores son insesgados y eficientes.
9.5. Estimación por intervalos

En lugar de una estimación puntual para obtener una aproximación de un valor que
queremos estimar, parece más interesante obtener un intervalo dentro del cual haya una cierta
confianza de que se encuentre el valor del parámetro que queremos estimar.
Por ejemplo, suponiendo que un paciente concurre a varios analistas a efectuarse el mismo
análisis y estos le informan, por ejemplo,: A1=85 mg/dl; A2=75 mg/dl; A3=90 mg/dl. El
paciente podrı́a desconfiar de estos valores por la diversidad de los resultados obtenidos, a
simple vista le parecerı́an diferentes. Por su parte, el médico que encargó el trabajo podrı́a
9.5. ESTIMACIÓN POR INTERVALOS 111
mandar a hacer de nuevo el análisis. Muy diferente hubiese sido la situación si en sus informes
hubieran usado intervalos como: A1 (85 ± 15) mg/dl; A2 (75 ± 4) mg/dl y A3 (90 ± 20)
mg/dl. En este caso hay coincidencia entre los tres informes, A1 dice entre 70 y 100, A2 dice
entre 71 y 79 y A3 dice entre 70 y 110. Hay una zona donde los tres coinciden, cosa imposible
de ver si se hubieran usado estimadores puntuales.
Por su parte, en la industria farmacéutica, lo normal es trabajar con lı́mites superiores
e inferiores en las composiciones quı́micas de los medicamentos, tanto para el proceso pro-
ductivo, como para su posterior control de calidad. La idea es siempre informar o establecer
la probabilidad de que el verdadero valor caiga dentro del intervalo informado. Por tanto, la
forma más prudente de informar es utilizando intervalos.
Describimos entonces los siguientes conceptos asociados:
1. Intervalo de confianza: intervalo que contiene el valor del parámetro con una cierta
probabilidad.
2. Nivel de confianza o coeficiente de confianza: se denota por 1 − α. Es la probabilidad de

que el valor del parámetro esté dentro del intervalo de confianza.
3. Margen de error: es la amplitud del intervalo de confianza.
4. Nivel de significación o riesgo: α. Es la diferencia entre la certeza y el nivel de confianza

deseado.
5. Valores crı́ticos: Son los valores de la abscisa que limitan el intervalo de confianza.
El tipo de intervalo que se quiere determinar depende de la situación en concreto que

queramos resolver:
Si la variable X representa el nivel de glucosa en sangre, lo que nos interesa es conocer un

lı́mite superior del parámetro que nos permita decidir si un individuo es o no diabético,
es decir, en este caso buscamos un intervalo de la forma (−∞, b).
Si lo que se considera es el número de espermatozoides por mm3 , interesa buscar un

lı́mite inferior por debajo del cual el individuo será considerado estéril, es decir, el
intervalo se escribe (a, +∞).
Si estamos considerando la concentración de potasio en plasma, es vital conocer tanto el

lı́mite inferior como uno superior fuera de los cuales el individuo corre peligro. Aquı́ı́ el
intervalo es (a, b).
En los dos primeros casos se llaman intervalos de un cola y en el tercer caso se denomina inter-
valo de dos colas. El coeficiente Zα toma distintos valores según se este calculando intervalos
de una o dos colas.
En la siguiente tabla presentamos los valores crı́ticos, Zα o Zα/2 , para los porcentajes más
habituales en el caso de una y dos colas.
N. de confianza N. de significación Coef. Zα una cola Coef. Zα/2 dos colas

99’95 % 0’0005 3’29 3’89
99’90 % 0’0010 3’09 3’29
99’50 % 0’0050 2’58 3’09
99’00 % 0’0100 2’33 2’58
97’50 % 0’0250 1’96 2’33
95’00 % 0’0500 1’65 1’96
9.6. Intervalo de confianza para el parámetro p de una distri-

bución binomial
Supongamos que una población sigue una distribución binomial con parámetro p desco-
nocido, que se pretende estimar mediante un intervalo de dos colas con un nivel de confianza
1 − α. Para ello escogemos una muestra aleatoria de tamaño n en el que hay x éxitos, de modo
que el estimador es
x
p̂ = .
n !
r
p(1 − p)
Entonces, p̂ es una variable aleatoria que sigue una N p, .
n
Si n es grande (np > 5 y n(1−p) > 5), entonces el intervalo de confianza para el parámetro
p viene dado por
r r !
p̂(1 − p̂) p̂(1 − p̂)
IC = p̂ − Zα/2 · , p̂ − Zα/2 ·
n n
Aplicación: Se desea hacer un estudio de mercado sobre el nivel de aceptación de un
tipo de desodorante. Para ello se toma una muestra aleatoria de 60 personas de las cuales
9.7. INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL 113
45 son asiduas usuarias del mismo. Hallar un intervalo de confianza al nivel del 99 % para la
proporción de usuarios del citado desodorante en una comarca muy poblada.
9.7. Intervalo de confianza para la media poblacional
Supongamos que la población de partida sigue una distribución normal N (µ, σ) y que
queremos estimar el parámetro µ mediante un intervalo de dos colas con un nivel de confianza
1 − α. Para ello escogemos una muestra aleatoria
de tamaño
n y media muestral x̄. Entonces
σ
X̄ es una variable aleatoria que sigue una N µ, √ .
n
1. Caso en el que se conoce la varianza.

σ σ
IC = x̄ − Zα/2 · √ , x̄ + Zα/2 · √
n n
2. Caso en el que no se conoce la varianza y n es grande (n ≥ 30).

ŝ ŝ
IC = x̄ − Zα/2 · √ , x̄ + Zα/2 · √ ,
n n
n
siendo ŝ2 la cuasivarianza muestral. Recordemos que ŝ2 = s2 n−1 , siendo s2 la varianza
de la muestra.
Aplicación : Suponiendo que a un paciente se le extrae una muestra de sangre y al suero

obtenido se lo fracciona en 50 alı́cuotas, luego a cada una se le determina la creatinina, y
con los valores medidos se obtienen un promedio de 10 mg/dl y una cuasi-desviación tı́pica
muestral de 2’2 mg/dl. Estimar un intervalo de confianza al 95 % para el valor medio real.
En este caso podemos decir que la variable aleatoria
√ correspondiente a la media sigue una
′
distribución Normal de media 10 y desviación 2 2/ 50. Por tanto el intervalo de confianza es

2′ 2 2′ 2
10 − Zα/2 √ , 10 + Zα/2 √
50 50
En la figura siguiente vemos el intervalo de confianza que hemos calculado. Para este
intervalo calculamos el area que encierra la función de distribución de Gauss obteniendo un
área de 0.9480 lo cual es una buena aproximación, ya que querı́amos que el intervalo de
confianza fuera al 95 %. (Solución: (9’39, 10’60).)
9.8. Intervalo de confianza para la diferencia de medias.

Supongamos que tenemos dos poblaciones que siguen N (µ1 , σ1 ) y N (µ2 , σ2 ), respectiva-
mente. De cada una de ellas, elegimos una muestra de tamaño n1 y n2 respectivamente, y de
medias x̄1 y x̄2 respectivamente.
1. Caso en el que se conocen las varianzas σ1 y σ2 .

 s s 
σ 2 σ 2 σ 2 σ 2
1
IC = x̄1 − x̄2 − Zα/2 · + 2 , x̄1 − x̄2 + Zα/2 · 1
+ 2
n1 n2 n1 n2
2. Caso en el que no se conocen las varianzas y n1 y n2 son grandes (n1 , n2 ≥ 30).

 s s 
2
ŝ1 ŝ 2 2
ŝ1 ŝ 2
IC = x̄1 − x̄2 − Zα/2 · + 2 , x̄1 − x̄2 + Zα/2 · + 2,
n1 n2 n1 n2
siendo ŝ1 y ŝ2 las cuasivarianzas de cada muestra.
Aplicación: Se tomaron 200 muestras aleatorias de presión sistólica a niños cuyos padres
son hipertensos, obteniéndose una media de 107 mmHg y una desviación tı́pica de 7 mmHg.
Luego se tomaron 100 muestras de niños cuyos padres tiene la presión sanguı́nea normal, y
se obtuvo una media de 98 mmHg con una desviación tı́pica de 6 mmHg. Obtener los lı́mites
de confianza del 95 % a la diferencia de medias. (Solución (7’4755,10’5245)).
9.9. Tamaño de la muestra.

Un procedimiento para aumentar la confianza es aumentar el tamaño de la muestra. Por
tanto, lo lógico es preguntarse sobre el tamaño de la muestra para tener una confianza deter-
minada.
9.9. TAMAÑO DE LA MUESTRA. 115
El error máximo E viene dado por el radio del intervalo de confianza en cada caso. Por
σ
ejemplo, en el caso de la media, es E = Zα/2 · √ . Por tanto, despejando obtenemos que el
n
tamaño mı́nimo de la muestra deber ser:

Zα/2 σ 2
n= .
E
Tema 10
Contraste de hipótesis
10.1. Contraste de hipótesis

Un problema que se presenta frecuentemente en la investigación cientı́fica es el de tener
que decidir a partir de los datos aportados por un experimento sobre la validez o no de un
planteamiento previamente establecido.
Para ello, el investigador necesita establecer un postulado, (Hipótesis nula), denotada por
H0 , que deseamos contrastar. Ante este postulado inicial, plantea otro alternativo, (Hipótesis
alternativa), denotada por H1 , y realiza una prueba o experiencia con una muestra repre-
sentativa de la población. La hipótesis nula se mantendrá a menos que los datos indiquen
lo contrario: la hipótesis nula nunca se considera probada, pero puede ser rechazada por los
datos, en cuyo caso se acepta la hipótesis alternativa.
A la vista del resultado de la prueba, el investigador tiene que decidir si acepta la hipótesis
nula o, por el contrario, la rechaza, asumiendo en su lugar la hipótesis alternativa. Por muy
poderosa que sean las razones que le inclinen en uno u otro sentido, el investigador debe tener
siempre claro que, a no ser que examine toda la población, no hay certeza de que su decisión
sea correcta, puesto que siempre existe la posibilidad de cometer un error.
Hay que resaltar que, para apoyar una nueva teorı́a, el método más adecuado consiste en
encontrar razones para el rechazo de la teorı́a en uso. Por tanto, el interés debe centrarse en
encontrar razones poderosas para rechazar la hipótesis nula.
Los elementos que tiene un contraste de hipótesis son los siguientes:
1. El nivel de significación del contraste. Es un número, α, que se elige a voluntad del

investigador para construir el contraste de tal modo que la probabilidad de cometer el
error de aceptar H0 cuando en realidad es falsa, no sea superior a α. Debe fijarse antes
de tomar la muestra sobre la que se realizará dicho contraste.
2. El estadı́stico de contraste. Es un estadı́stico o función de la muestra que extrae de la

misma la información más adecuada para discernir cual de las dos hipótesis, H0 o H1 ,
es más verosı́mil. Debe conocerse la distribución del estadı́stico de contraste cuando H0
es cierta.
117
118 TEMA 10. CONTRASTE DE HIPÓTESIS
3. La región crı́tica y la región de aceptación de un contraste. Con un nivel de significación

dado, se divide el conjunto de valores que puede tomar el estadı́stico de contraste en
todas las posibles muestras de tamaño dado, n, en dos regiones complementarias. Una
se llama la región crı́tica y es el conjunto de valores del estadı́stico de contraste para
los que se rechaza la hipótesis nula y se acepta la hipótesis alternativa; la otra se llama
la región de aceptación y es el conjunto de valores del estadı́stico de contraste para los
que no hay evidencia muestral suficiente para rechazar la hipótesis nula, sin que eso
implique que se acepte la misma.
La región crı́tica está limitada por uno o dos valores crı́ticos que se determinan de tal
modo que la probabilidad de que el valor del estadı́stico de contraste que se obtenga de
la muestra elegida esté en la región crı́tica, no sea mayor que el nivel de significación.
Indicamos a continuación las fórmulas de los estadı́sticos de contraste en algunos casos.

Para muestras grandes (n ≥ 30), se puede aplicar el teorema central del lı́mite y se obtienen:
1. El estadı́stico de contraste para la media de una ley Normal de desviación tı́pica σ.

Suponiendo cualquiera de los tres casos siguientes:
a) H0 : µ = µ0 frente a H1 : µ 6= µ0 (contraste bilateral),

b) H0 : µ ≤ µ0 frente a H1 : µ > µ0 (contraste unilateral por la derecha),
c) H0 : µ ≥ µ0 frente a H1 : µ < µ0 (contraste unilateral por la izquierda),
el estadı́stico de contraste es
X − µ0
Z= √ ,
σ/ n
que sigue la ley N(0,1) si H0 es cierta. En esta fórmula, X es la media muestral.
2. El estadı́stico de contraste para la proporción. En cualquiera de los tres casos siguientes
a) H0 : p = p0 frente a H1 : p 6= p0 (contraste bilateral),

b) H0 : p ≤ p0 frente a H1 : p > p0 (contraste unilateral por la derecha),
c) H0 : p ≥ p0 frente a H1 : p < p0 (contraste unilateral por la izquierda),
si la muestra es grande (n ≥ 30), el estadı́stico de contraste es
p̂ − p0
Z=p ,
p0 q0 /n
donde p̂ es la proporción de éxitos observados en la muestra y q0 = 1 − p0 .
3. El estadı́stico de contraste para la diferencia de medias. Supongamos que tenemos dos

variables aleatorias que siguen las distribuciones N (µ1 , σ1 ) y N (µ2 , σ2 ), y que en la
población tomamos dos muestras independientes de tamaños respectivos n1 y n2 y cuyas
medias son respectivamente X1 y X2 . Si suponemos
H0 : µ1 = µ2 frente a H1 : µ1 6= µ2
10.1. CONTRASTE DE HIPÓTESIS 119
(contraste bilateral), el estadı́stico de contraste es

X1 − X2
Z=s
σ12 σ22
+
n1 n2
Para muestras pequeñas de tamaño n < 30, se puede incrementar la eficacia del test
reemplazando la distribución Normal para la determinación de las regiones de aceptación y
crı́tica por la llamada distribución t con n−1 grados de libertad, introducida por W.S. Gosset,
que usó una pluma de marca Student, lo que le dio nombre a la distribución.
Esta distribución tiene la misma forma que la Normal, simétrica respecto del origen,
acampanada, con media nula, pero más aplastada. Por ello, los valores bajo los que se encierra
una determinada área son mayores y las regiones de aceptación para un determinado nivel de
significación son mayores también.
10.1.1. Contrastes de hipótesis sobre la media de una distribución

Como ya ocurriera en el caso de estimación de intervalos de confianza podemos encontrar-
nos en dos casos, según la desviación tı́pica sea o no conocida. Supongamos primeramente que
la conocemos.
Vamos a tomar un ejemplo sencillo que nos va a permitir ilustrar las distintas situaciones
y los conceptos que intervienen en un contraste de hipótesis.
Ejemplo: Un fabricante de baterı́as recibe la oferta de la patente de un nuevo proceso de
fabricación, que le permitirá mejorar notablemente la vida media de las mismas y, por tanto,
su calidad. El fabricante es conocedor de la vida media de las baterı́as que produce su empresa,
es más, sabe que sigue una distribución normal de media µ = 4950 horas y desviación tı́pica
σ = 350 horas.
Para decidir si el nuevo proceso de producción supone una mejorı́a en la calidad, ha dis-
puesto de una muestra de 100 de las nuevas baterı́as que, una vez probadas, han dado una
duración media de 5025 horas.
Por lo tanto, el problema que se le plantea al fabricante es el de averiguar si el valor de
5025 horas puede ser debido únicamente al error propio del muestreo, en cuyo caso no se
podrı́a concluir que la vida media de las baterı́as en el nuevo proceso es diferente de la que se
obtiene con el proceso tradicional, o bien, si el resultado de 5025 horas es suficiente garantı́a
para invertir en la patente que le ofrecen.
Planteamiento del problema como contraste de hipótesis.
I-Establecimiento de la hipótesis nula y alternativa
Partimos de la hipótesis de que la vida media de la población de baterı́as con el nuevo
proceso no varı́a. Esta hipótesis corresponde a la hipótesis nula y se denota por H0 . En
términos estadı́sticos, se formula como sigue:
H0 ≡ µ = 4950
Aceptar esta hipótesis supone admitir que la muestra, cuya media es igual a 5025, es una
muestra que procede de una población de media 4950, de forma que la diferencia entre el valor
estimado 5025 y el valor del parámetro es debida al error del muestreo.
Frente a esta hipótesis, se plantea la hipótesis alternativa que denotamos por H1 , que en
este caso va a ser
H1 ≡ µ 6= 4950.
El significado de esta alternativa supone admitir que la diferencia entre el valor del esti-
mador y el valor del parámetro no se debe a un error de muestreo, sino que la hipótesis nula
no es correcta. En otras palabras, si la hipótesis nula fuera correcta, se habrı́a producido un
suceso suficientemente improbable como para rechazar dicha hipótesis, lo cual supone admitir
que la muestra seleccionada pertenece a otra población con una media distinta de 4950.
II-Decisiones posibles
Fijadas las hipótesis nula y alternativa, al fabricante de baterı́as se le ofrecen las siguientes
opciones:
Aceptar la hipótesis nula H0 :

Entonces puede suceder que:
1. La vida media de la nueva producción sea 4950. Al aceptar la hipótesis, el fabricante

habrá procedido correctamente.
2. La vida media de la nueva producción no sea 4950. Aceptando la hipótesis H0 ,
el fabricante habrá cometido un error (error de tipo II), que ocasiona pérdidas
que suponen la inversión en una nueva patente más el coste de adaptación de la
maquinaria, etc.
Rechazar la hipótesis nula H0 : Esto equivale a aceptar la hipótesis alternativa H1 .

Ahora puede suceder que:
1. La vida media de la nueva producción sea 4950. Rechazando H0 , se habrı́a cometido

un error (error de tipo I), pues favorece a la competencia, que tendrı́a la posibilidad
de adquirir la patente.
2. La media de la nueva producción no sea 4950. La decisión es acertada, suponiendo
una situación de ventaja en el mercado.
En siguiente cuadro recoge las distintas alternativas y los posibles resultados:
Situación Real
H0 es cierta H1 es cierta
Decisión del Acepta H0 Decisión correcta Error de tipo II
fabricante Rechaza H0 Error de tipo I Decisión correcta
III-Nivel de significación
El problema se centra ahora en averiguar cuándo se puede afirmar que el suceso obtener un
valor de la media muestral de 5025 siendo la media de la población µ = 4950 es suficientemente
improbable
10.1. CONTRASTE DE HIPÓTESIS 121
Se utilizan diferentes criterios para medir cuándo un suceso es suficientemente improbable,

dependiendo de la importancia que se quiera dar al riesgo de cometer un error de tipo I. Se
suelen establecer tres valores, que corresponden al nivel de significación α y que correspon-
den al valor de la probabilidad por debajo del cual un suceso se considera suficientemente
improbable:
1. α = 0,005 y se dice que el resultado ha sido muy significativo.
2. α = 0,05 y se dice que el resultado ha sido significativo.
3. α = 0,01 y se dice que el resultado ha sido casi significativo
El nivel de significación especifica, por tanto, la probabilidad de cometer un error de tipo

I (rechazar la hipótesis nula, siendo cierta). Este nivel se fija previamente, teniendo en cuenta,
en el momento de fijarlo, que cuando disminuye la probabilidad de cometer un error de tipo
I, aumenta la probabilidad de cometer un error de tipo II.
Recordemos que el criterio estadı́stico que ha llevado a tomar esta decisión no garantiza
que dicha decisión sea correcta, ya que una garantı́a total sólo se tendrı́a si se pudieran probar
todas la baterı́as que se van a producir.
Vamos a utilizar un nivel de significación α = 0,05, con lo que, si se ha de rechazar la
hipótesis nula, el resultado será significativo.
Las áreas de rechazo de la hipótesis nula corresponden a las dos colas que podemos ver en
la figura 29.
Figura 29: Colas o áreas de rechazo.
El área de cada cola es α/2 y unión de ambas regiones es lo que hemos llamado área de
rechazo, o región crı́tica.
Cuando el valor del estadı́stico de contraste se encuentre en la región crı́tica o área de
rechazo, entonces la decisión será rechazar la hipótesis nula. Para conocer si este valor está en
la región crı́tica o en la región de aceptación, seguimos el siguiente procedimiento:
1.- Determinamos parámetros: Aceptar la hipótesis H0 nos dirı́a que tenemos una muestra
de 100 baterı́as donde la media sigue una normal de media 4950 y desviación 350.
2.- Dado el nivel de significación, determinamos el nivel de confianza. En nuestro caso
95 %.
3.- Calculamos ahora la región de aceptación; en este caso obtenemos: (-1’96, 1’96).
4.- Sólo tenemos que comprobar ahora si el estadı́stico de contraste para la media está o no
en este intervalo, ya que el área de rechazo o la región crı́tica está limitada por estos valores.
En este ejemplo
5025 − 4950
Z= √ = 2′ 14
350/ 100
no pertenece al intervalo de confianza y en consecuencia la decisión adecuada es la de rechazar
la hipótesis nula.
El fabricante de baterı́as, a la vista del resultado, considerarı́a que ha tenido lugar un
suceso suficientemente improbable, por lo que se rechazarı́a la hipótesis nula, adoptando el
nuevo proceso de producción, lo que se expresa diciendo que el contraste es significativo al
nivel del 5 %
En el caso de que no conozcamos la desviación tı́pica, necesitamos tener los datos experi-
mentales para hacer una estimación de la desviación tı́pica y a partir de ahı́ procedemos como
en el caso anterior.
Consideremos la misma situación anterior pero en este caso de lo que disponemos es de
una muestra de 20 baterı́as elaboradas según el nuevo proceso de producción, que han sido
probadas, dando unos perı́odos de duración en horas de:
4917 4948 5082 5105 4865 5068 4935 5090 5045 5080
5136 5084 4909 4935 5120 4936 5014 5125 4933 5088
Con estos valores en primer lugar se calcula una estimación puntual para la nueva media
y una estimación puntual para la desviación tı́pica, y a partir de ahı́ podemos hacer todo el
proceso.
Aquı́ planteamos otro ejemplo: Un laboratorio farmacéutico ha elaborado un fármaco en
forma de comprimidos cuyo peso está distribuido normalmente con una desviación tı́pica de
0.12 mg. Se sabe que una dosis de comprimido cuyo peso media sea superior a 0.60 mg,
produce efectos muy perjudiciales. Por este motivo, el hospital comprueba el peso medio de
una partida de 150 comprimidos, que resulta ser de 0.64 mg. Hacer un contraste de hipótesis
con un nivel de significación del 0.05 para averiguar si es posible administrar la medicación al
enfermo sin riesgo.
10.2. Inferencia Estadı́stica para la diferencia de dos muestras

El contraste de la diferencia de medias de dos poblaciones es un problema muy frecuente
en todas las áreas que se sirven de la estadı́stica como instrumento de trabajo. Por ejemplo,
podemos estar interesado en averiguar la diferencia en la presión sistólica de niños que tienen
padres hipertensos con niños cuyos padres tienen una presión normal, o determinar si cierto
fármaco sigue siendo efectivo, etc.
10.2. INFERENCIA ESTADÍSTICA PARA LA DIFERENCIA DE DOS MUESTRAS 123
En todos los casos, hay un modelo común de trabajo, que consiste en seleccionar dos
muestras, una formada por individuos de la población en los que se va a ensayar la nueva
experiencia, por lo que recibe el nombre de grupo experimental y otra segunda muestra a la
que se le aplica un método clásico y que se utiliza para contrastar los resultados, por lo que
se llama grupo de contraste.
Veamos el siguiente ejemplo:
Se tomaron 200 muestras aleatorias de presión sistólica a niños cuyos padres son hiper-
tensos, obteniéndose una media de 107 mmHg y una desviación tı́pica de 7 mmHg. Luego
se tomaron 100 muestras de niños cuyos padres tiene la presión sanguı́nea normal, y se ob-
tuvo una media de 98 mmHg con una desviación tı́pica de 6 mmHg. Obtener los lı́mites de
confianza del 95 % a la diferencia de medias. (Solución (7’4755,10’5245)).
La finalidad es este caso es comprobar si la diferencia entre los resultados de las medias
muestrales es un reflejo de una situación real en las poblaciones o se trata de una diferencia
debida al azar.
Los datos del ejemplo anterior son:
G. experimental G. de contraste
Media 107 98
Desviación 7 6
Tamaño Muestral 200 100
Queremos conocer si la diferencia entre las medias de ambas muestras es motivo suficiente
para afirmar que las medias de las respectivas poblaciones son también diferentes y, por
tanto, lo son las propias poblaciones, o bien, su dicha diferencia se debe únicamente al error
que introduce el azar al seleccionar cada muestra.
Nuestro interés se centra en discernir si la diferencia µ1 − µ2 entre las medias de las dos
poblaciones, que se suponen distribuidas normalmente, es igual a cero, o lo que es igual, si
µ1 = µ2 . Luego la hipótesis nula y la alternativa para un contraste bilateral o test pareados
son:
H 0 ≡ µ1 = µ2
H1 ≡ µ1 6= µ2
Vamos a determinar en primer lugar el estadı́stico de contraste que, en este caso, es
X1 − X2 107 − 98
Z=s =r = 11,57
σ12 σ22 49 36
+ +
n1 n2 200 100
Como en otros casos, la región de aceptación es el intervalo (-1.96, 1.96). Claramente, el

estadı́stico de contraste cae en la región crı́tica por lo que hay evidencias para rechazar la
hipótesis nula y admitir que la diferencia de medias no se debe al azar, sino que es real y que
se debe admitir que el hecho de que los padres sean hipertensos influye en la presión sistólica
de sus hijos.

1011gf Mae Apuntes

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

1011gf Mae Apuntes

Загружено:

Авторское право:

Доступные форматы

Universidad de Sevilla

Dpto. Ecuaciones Diferenciales y Análisis Numérico

Resúmenes teóricos de la asignatura

Matemática Aplicada y Estadı́stica

1. Funciones, lı́mites, continuidad y derivabilidad 7

3. La integral. Integración numérica 43

3.3.1. Propiedades de la integral definida . . . . . . . . . . . . . . . . . . . . . 51

6. Variables estadı́sticas bidimensionales 81

7. Probabilidad. Distribuciones binomial y normal 89

8. Teorı́a de muestras y diseño de experimentos 97

8.3. Distribución de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

9. Inferencia estadı́stica 109

10.Contraste de hipótesis 117

Funciones reales de variable real.

1.1. Números reales y nociones básicas sobre funciones

Naturales N = {1, 2, 3, . . .} (contar)

Enteros Z = N ∪ {0} ∪ {−n : n ∈ N} (N ⊂ Z)

Operaciones y orden. Propiedades

a ≤ b ⇒ a+c≤ b+c ∀a, b, c ∈ Q,

(Q, +, ·, ≤) es un cuerpo ordenado. Podemos representarlos en un recta, PERO hay puntos

Números reales. Axioma del supremo

Definición 1.2. Sea S ⊂ R. Se dice que:

Axioma del supremo Todo subconjunto no vacı́o de R acotado superiormente tiene un

Propiedad (axioma) del ı́nfimo: todo subconjunto no vacı́o de R acotado inferiormente

Propiedad arquimediana: ∀x > 0 ∀y ∈ R, ∃n ∈ N : y < nx. Una regla corta puede

Densidad de los racionales:

∀x, y ∈ R, ∃q ∈ Q : x < q < y.

Densidad de los irracionales:

[a, b] = {x ∈ R : a ≤ x ≤ b} intervalo cerrado.

Función valor absoluto

1.1.2. Algunos conceptos sobre funciones. Composición e inversa

Domf = {x ∈ R : ∃f (x) ∈ R}.

Imf = {f (x) : x ∈ Domf }.

Sea f : Domf ⊂ R → R. Se dice que es:

Par si f (−x) = f (x) ∀x ∈ Domf.

{(x, f (x)) ∈ R2 : x ∈ Domf }.

Antes incluso de describir las funciones elementales, debemos mostrar un procedimiento

Definición 1.5. Dadas dos funciones f : S ⊂ R → R, g : T ⊂ R → R tales que f (S) ⊂ T, se

Ejemplo 1.6. En general g ◦ f 6= f ◦ g. Sean f (x) = x2 , g(x) = x + 1. g(f (x)) = x2 + 1,

Definición 1.7. Llamamos función inversa o recı́proca respecto de la composición de una

Se cumple entonces que (f ◦ f −1 )(x) = x ∀x ∈ S,

1.2. Funciones elementales

Caso n = 2. La parábola p(x) = ax2 + bx + c (con a 6= 0)

(compruébalo desarrollando la expresión de la derecha). Dicho de otro modo, si evaluamos

x4 + x3 − 7x2 + 4 = (x − 2)(x3 + 3x2 − x − 2).

Se define/construye usando sucesivamente exponentes de N, Z y Q, y se extiende a todo

Función logarı́tmica (a > 0, a 6= 1)

loga x = y ⇔ ay = x inversa exponencial.

a > 1 y 0 < x < y ⇒ loga x < loga y. (función creciente)

f (x) = sen x. Domf = R, Imf = [−1, 1], 2π−periódica.

f (x) = cos x. Domf = R, Imf = [−1, 1], 2π−periódica.

Teorema 1.10. (Pitágoras) En un triángulo rectángulo el cuadrado de la hipotenusa es igual

Si normalizamos: (sen x)2 + (cos x)2 = 1.

Sus respectivas funciones inversas (respecto de la división):

Funciones inversas (respecto de la composición):

arcsen x, arccos x, arctg x.

1.3. Lı́mites de funciones

Definición 1.11. Sean f : S ⊂ R → R y x0 ∈ S. Decimos que l ∈ R es el lı́mite de f cuando

∀ε > 0 ∃δ : ∀x ∈ S con 0 < |x − x0 | < δ ⇒ |f (x) − l| ≤ ε.

El lı́mite, si existe, es único.

También se puede adaptar al caso en que la función “explota”

lı́m f (x) = +∞ ⇔ ∀M > 0 ∃ δ > 0 : ∀x ∈ S con

lı́m f (x) = −∞ ⇔ ∀M > 0 ∃ δ > 0 : ∀x ∈ S con

Análogamente, el caso en que el lı́mite existe cuando x tiende a infinito: