Вы находитесь на странице: 1из 463

ser1e

Escola Pilota em Engenharia Quimica


GOPFE/UFRJ
Série
Escola Piloto de
Engenharia Química
COPPE/UFRJ

Análise de Dados
Experimentais - Volume I
Fundamentos de Estatística
e Estimação de Parâmetros
Marcio Schwaab
José Carlos Pinto

Apoio

Rio de Janeiro, 2007

[:..:] e-papers
PERTENCE AO N O DE O I

Agradecimentos

Agradecemos a todos os alunos do Programa de Engenharia Química


do Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Enge-
nharia da Universidade Federal do Rio de Janeiro (PEQ/ COPPE/ UFRJ) que,
durante as discussões da disciplina “COQ866 – Estimação de Parâmetros
e Planejamento de Experimentos”, foram nos convencendo da relevância
desse tema para a formação de pesquisadores e engenheiros em geral.
Agradecemos ainda a esses alunos pelas várias oportunidades que nos
deram de aplicar e ampliar os nossos conhecimentos sobre o assunto nos
mais diversos ramos da Engenharia. Agradecemos também aos colegas
do PEQ que, ao recomendarem o curso a seus alunos, abriram portas
para o desenvolvimento desse livro.
Agradecemos em particular aos Profs. José Luiz Fontes Monteiro (PEQ/
COPPE/ UFRJ) e Marcos Wandir Nery Lobão (Universidade Tiradentes, Ara-
caju-SE), companheiros de primeiras horas no PEQ/ COPPE/ UFRJ durante
um período importante de descobertas na área e, como nós, entusiastas
do tema. Na verdade, tudo começou no longínquo ano de 1987, quando
o Marquinhos descobriu uma tese orientada pelo Prof. Gilbert F. Froment
na biblioteca do CENPES /PETROBRAS, com mais de quinhentos pontos
experimentais ... (J. Franckaerts, “Kinetic Study of the Dehydrogenation
of Ethanol.”, Tese de PhD, 1963).
Agradecimentos especiais são encaminhados ao Prof. Príamo Albu-
querque Melo Jr., entusiasta e incentivador constante da confecção desse
livro. Muito do que aqui está apresentado foi preparado para as muitas
versões da Escola Piloto do PEQ/ COPPE/ UFRJ, curso oferecido através
da Internet para alunos de graduação de todo o Brasil, organizado bri-
lhantemente pelo Príamo.
PERTENCE AO N O DE O I

Agradecemos a Ana Cláudia Ribeiro e a Rachel Rodrigues pelo trabalho


de organização e confecção do livro, em tempo recorde, para lançamento
durante o Colóquio de Engenharia Química do PEQ / COPPE / UFRJ de
2007. Agradecemos a boa vontade da Ana e de toda a equipe da E-Papers
durante a realização desse projeto.
Marcio Schwaab agradece aos seus pais, irmãos e cunhadas pelo apoio
em sua jornada de Maripá, interior do Paraná, ao Rio de Janeiro. Marcio
Schwaab também agradece aos diversos alunos da disciplina “COQ866
– Estimação de Parâmetros e Planejamento de Experimentos” que o
procuravam para tirar dúvidas sobre a solução dos exercícios e sobre a
confecção do trabalho final da disciplina. Muitos não sabiam, mas quem
mais aprendia com estas “ajudas” era o próprio Marcio Schwaab. Por fim,
Marcio Schwaab agradece a José Carlos Pinto, dentre muitas outras coisas,
pela confiança e pela oportunidade do término conjunto desse livro.
José Carlos Pinto agradece também a confiança que o Marcio Schwaab
sempre depositou nas muitas propostas que foram a ele encaminhadas,
incluindo o término conjunto desse livro. Obrigado, Marcio, por comprar
as loucuras do Zé.
PERTENCE AO N O DE O I

Dedicatória

Dedicamos esse livro a nossas mulheres:


Elisa Barbosa Coutinho e Márcia Moura Cerqueira Pinto.
Estivemos longe delas por bom tempo,
enquanto estimávamos parâmetros.
PERTENCE AO N O DE O I

© Marcio Schwaab e José Carlos Pinto/E-papers Serviços Editoriais Ltda., 2007.


Todos os direitos reservados a Marcio Schwaab e José Carlos Pinto/E-papers Serviços
Editoriais Ltda. É proibida a reprodução ou transmissão desta obra, ou parte dela, por
qualquer meio, sem a prévia autorização dos editores.
Impresso no Brasil.

ISBN 85-7650-088-4

Projeto gráfico e diagramação


Livia Krykhtine

Capa
Ana Claudia Ribeiro

Foto da capa
Felix Möckel

Revisão
Rachel Rodrigues

Esta publicação encontra-se à venda no site da


E-papers Serviços Editoriais.
http://www.e-papers.com.br
E-papers Serviços Editoriais Ltda.
Rua Mariz e Barros, 72, sala 202
Praça da Bandeira – Rio de Janeiro
CEP: 20.270-006
Rio de Janeiro – Brasil

CIP-Brasil. Catalogação na Fonte


Sindicato Nacional dos Editores de Livros, RJ

S425a
v.1
Schwaab, Marcio
Análise de dados experimentais, I : fundamentos de estatística e estimação de
parâmetros / Marcio Schwaab, José Carlos Pinto. Rio de Janeiro: E-papers, 2007.
462p. : il. ; . (Escola Piloto em Engenharia Química ; v.1)
Apêndice
ISBN 8576500884
1. Engenharia química - Pesquisas - Métodos estatísticos. 2. Estimativa de
parâmetros. 3. Planejamento experimental - Modelos matemáticos. I. Pinto,
José Carlos. II. Título. III. Série.
07-3272. CDD: 660.2
CDU: 66.011
PERTENCE AO N O DE O I

Sumário

19 Princípios Básicos de Estatística


19 1.1. A Natureza dos Problemas Científicos e da Experimentação
21 1.2. Metodologia Científica e Experimentação
24 1.3. As Fontes de Erro e o Ideal Determinístico
30 1.4. Os Conceitos de Probabilidade e de Média
37 1.5. O Conceito de Variáveis Independentes e as Propriedades
da Média
43 1.6. Os Conceitos de Espalhamento, Variância e Covariância
62 1.7. Extensão dos Conceitos de Distribuição, Média e Variância
para Variáveis Contínuas
71 1.8. Conclusões
71 1.9. Leitura Adicional
72 1.10. Exercícios Sugeridos

75 Distribuições de Probabilidade
76 2.1. A Distribuição Binomial
86 2.2. A Distribuição de Poisson
92 2.3. A Distribuição Hipergeométrica
96 2.4. A Distribuição Uniforme ou Retangular
103 2.5. A Distribuição Exponencial
110 2.6. A Distribuição Normal
113 2.7. A Distribuição Log-Normal
114 2.8. Extensão de Conceitos para Sistemas Multidimensionais

Análise de Dados Experimentais - Volume I 7


PERTENCE AO N O DE O I

120 2.9. A Distribuição Multinomial


120 2.10. A Distribuição Normal Multidimensional
123 2.11. Conclusões
123 2.12. Leitura Adicional
124 2.13. Exercícios Sugeridos

127 O Problema Amostral: Inferências e Comparações


128 3.1. Definição de Intervalo de Confiança
135 3.2. O Problema de Amostragem
149 3.3. Distribuições e Intervalos de Confiança de Grandezas
Amostrais
169 3.4. Fazendo Comparações entre Grandezas Amostrais
184 3.5. A Região de Confiança em Problemas Multidimensionais
196 3.6. Conclusões
196 3.7. Leitura Adicional
197 3.8. Exercícios Sugeridos

201 Estimação de Parâmetros


202 4.1. Modelos, Modelagem e Simulação
209 4.2. Classificação de Modelos
224 4.3. Definição do Problema de Estimação de Parâmetros
229 4.4. Características Fundamentais do Problema de Estimação
de Parâmetros
236 4.5. A Definição da Função Objetivo
255 4.6. O Método da Máxima Verossimilhança
290 4.7. Interpretação Estatística dos Dados Estimados
306 4.8. Conclusões
306 4.9. Leitura Adicional
307 4.10. Exercícios Sugeridos

309 Procedimentos Numéricos para Estimação de


Parâmetros
310 5.1 Definição do Problema Numérico de Otimização
318 5.2 Método de Newton
331 5.3 Método de Gauss-Newton
334 5.4 Outros Métodos com Derivadas
338 5.5. Métodos de Busca Direta
340 5.6. Métodos Heurísticos
360 5.7. Cálculo Numérico da Região de Confiança dos Parâmetros

8 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

370 5.8. A Forma de Apresentação dos Dados Experimentais


374 5.9. Conclusões
375 5.10. Leitura Adicional
376 5.11. Exercícios Sugeridos

379 Soluções dos Exercícios Propostos


379 Capítulo 1
391 Capítulo 2
400 Capítulo 3
414 Capítulo 4
428 Capítulo 5

434 Apêndice A

Análise de Dados Experimentais - Volume I 9


PERTENCE AO N O DE O I
PERTENCE AO N O DE O I

Prólogo

A história desse livro começa no segundo período de aulas do curso de


Doutoramento do Programa de Engenharia Química do Instituto Alberto
Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia da Universi-
dade Federal do Rio de Janeiro (PEQ / COPPE / UFRJ), em Junho de 1987.
Motivado pela necessidade de reduzir os tempos de desenvolvimento e
confecção de teses de Mestrado e Doutorado e os custos dos trabalhos
experimentais, o Prof. José Luiz Fontes Monteiro, da área de Cinética e
Catálise – envolvido, portanto, com a manipulação de centenas de dados
experimentais e esforços contínuos para caracterização de parâmetros
cinéticos de reações químicas – propôs a dois alunos do curso “COQ878
– Problemas Especiais em Cinética e Reatores” (José Carlos Pinto e Marcos
Wandir Nery Lobão) que desenvolvessem um projeto de disciplina visando
à implementação de algumas rotinas de planejamento experimental para
estimação ótima de parâmetros, descritas por Froment e Bischoff em um
livro clássico da área de Cinética de Reações Químicas (“Chemical Reactor
Analysis and Design“, G.F. Froment and K.B. Bischoff, 1st Ed., John Wiley
& Sons, New York, 1979). O projeto foi aceito e então, à medida que os
estudos avançaram, Zé Carlos, Zé Luiz e Marquinhos foram se entusias-
mando com o tema. Começamos a sentir necessidade de aprofundar os
conhecimentos e a verificar que muitas de nossas dúvidas e perguntas
ainda não haviam sido respondidas pela literatura técnica. Pronto! Estava
aberta uma linha de pesquisa da qual nunca mais nos afastamos. Durante
esses primeiros momentos, foi extremamente importante observar que
os parâmetros cinéticos obtidos para uma reação de desidrogenação de
etanol a etanal, conduzido por Franckaerts e Froment (J. Franckaerts e G.F.
Froment,“Kinetic Study of the Dehydrogenation of Ethanol“, Chemical

Análise de Dados Experimentais - Volume I 11


PERTENCE AO N O DE O I

Engineering Science, 19, 807-818, 1964), ao longo do qual foram coletados


mais de 500 experimentos, poderiam ser reproduzidos com o mesmo
nível de confiança estatística com não mais do que 25 experimentos
(J.C. Pinto, M.W. Lobão e J.L. Monteiro, “Sequential Experimental Design
for Parameter Estimation: a Different Approach”, Chemical Engineering
Science, 45, 883-892, 1990). Do ponto de vista da estimação dos parâ-
metros, o ganho era simplesmente fantástico, de maneira que a isca foi
mordida irreversivelmente.
Ao longo desses anos, muitas foram as aventuras no mundo da estima-
ção de parâmetros e planejamento experimental. Tivemos a oportunidade
de desenvolver novas técnicas e de formular aplicações em várias áreas
afins à área de Engenharia Química, como na Química, na Biotecnologia, na
Engenharia de Materiais, na Mecânica etc., sempre com resultados extre-
mamente satisfatórios. No entanto, para nossa surpresa, sempre que uma
nova oportunidade de aplicação aparecia, tínhamos que primeiramente
convencer nossos interlocutores de que aquele conjunto de técnicas podia
de fato ser útil para o trabalho por eles desenvolvidos. Alguns argumentos
foram ouvidos com tanta freqüência, que merecem ser aqui discutidos:

 Argumento 1: “Nada substitui o bom senso do experimentador!”


Nada pode ser mais preconceituoso do que essa frase. Aliás, diz-se que
a qualidade mais bem distribuída por Deus sobre a Terra foi exatamente
o bom senso, pois todos acham que o têm em boa quantidade. Brinca-
deiras à parte, o certo é que não parece ser de bom senso a decisão de
usar um conjunto de técnicas que podem ser colocadas num contexto
matemático formal, onde pode ser provado que é possível minimizar
erros de análise e maximizar a certeza das conclusões tiradas, já que
essas duas propriedades são continuamente buscadas por quaisquer
investigadores. Parece de bom senso, pois, utilizar o conjunto de técnicas
aqui apresentadas. Creditamos esse primeiro argumento a uma certa
postura conservadora que todos nós possuímos, em particular quando
pensamos que algo que nunca usamos possa ter alguma utilidade. E o
fato é que a disciplina de Estimação de Parâmetros e Planejamento de
Experimentos é parte integrante de pouquíssimos currículos escolares,
de forma que poucos são os investigadores que de fato tiveram a opor-
tunidade de verificar formalmente as vantagens que esses conjuntos
de técnicas podem proporcionar. Se você quer começar a ler esse livro,
desarme-se e tenha espírito aberto!

 Argumento 2: “Já usei estas técnicas e não alcancei qualquer resul-


tado positivo!”

12 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Nada pode doer mais no crente do que a descrença embasada. Como


um crente como nós podemos convencer alguém a usar algo que não
funcionou? Bom, a experiência acumulada ao longo desses anos tem
mostrado que a freqüência com que se houve esse segundo argumento é
bem maior do que a freqüência com que nos deparamos com problemas
que não podem ser resolvidos e otimizados com o uso do conjunto de
técnicas aqui apresentadas. Na realidade, com freqüência as técnicas
aqui apresentadas e discutidas são usadas como caixas-pretas, onde se
imagina que um conjunto de dados pode ser alimentado, resultando
numa resposta ótima desejada. Nada mais falso do que esta expectati-
va, em parte vendida por nós crentes. Toda e qualquer resposta ótima
fornecida pelo conjunto de técnicas aqui apresentadas depende de que
certas hipóteses sejam satisfeitas. Por exemplo, às vezes é necessário
que os erros tenham uma distribuição estatística particular, às vezes é
necessário que o sistema se comporte linearmente (ou seja, que o efeito
global possa ser obtido como uma soma dos efeitos causados por cada
variável do problema), às vezes é necessário que as variáveis sejam me-
didas de forma independente etc. E como saber se essas hipóteses são
satisfeitas pelo sistema estudado? Bom, supõe-se que o experimentador
possa fornecer essas informações, o que nem sempre é verdade! Portanto,
para sermos bem sucedidos é necessário que sejamos capazes de avaliar a
qualidade das hipóteses feitas, o que significa que devemos estar cientes
das hipóteses feitas e que devemos ser capazes de caracterizar de forma
apropriada o processo de obtenção dos dados experimentais. Logo, essas
técnicas não devem ser usadas como caixas-pretas, pois basta que uma
das hipóteses seja falsa para que toda a utilidade da técnica seja desfei-
ta! Esteja pronto para interagir com as técnicas aqui apresentadas e a
verificar as hipóteses. Esse conjunto de técnicas não vai ter realmente
nenhuma utilidade se você não estiver disposto a analisar as hipóteses
e adequar o seu problema ao contexto correto.

 Argumento 3: “Tem muita Matemática e eu preciso de algo prático!”


Esse é um argumento difícil de rebater, pois de fato tudo o que aqui
será apresentado toma por base princípios de Cálculo, Álgebra e, prin-
cipalmente, Estatística. Apesar disso, uma vez entendidas as hipóteses
fundamentais em que se baseiam as técnicas, é possível aplicá-las como
receitas bem estruturadas. Além disso, muito provavelmente você não vai
ter que desenvolver qualquer rotina computacional para a sua aplicação,
uma vez que vários grupos de pesquisa ao redor do mundo produzem
continuamente pacotes computacionais cada vez mais sofisticados,
onde resultados podem ser obtidos com o clicar de um mouse. E, se isso

Análise de Dados Experimentais - Volume I 13


PERTENCE AO N O DE O I

ainda não o convence a desenvolver a aplicação sozinho, por que não


trabalhar em conjunto com um grupo capaz de tocar a tarefa matemática
de forma apropriada?
E foi assim, desenvolvendo aplicações e simultaneamente ouvindo e
questionando esses e outros argumentos ao longo desses 10 anos, que
fomos amadurecendo a idéia de escrever esse livro. Hoje acreditamos que
a gama de aplicações possíveis para as técnicas apresentadas nesse livro
são infinitamente mais amplas do que o universo de aplicações sugere.
Mais ainda, acreditamos sinceramente que todo investigador deveria
ter a oportunidade de estudar formalmente essas técnicas já nos cursos
de graduação como disciplina básica, tendo em vista que o horizonte
de aplicações extrapola os limites das áreas tecnológicas. Apesar disso,
estamos também convencidos de que nós crentes não temos sido muito
eficientes na comunicação com o grande público de usuários potenciais
dessas técnicas e de que temos vendido caixas-pretas, como se fosse
possível tratar todos os problemas do mundo da mesma forma.
O objetivo fundamental desse livro é apresentar técnicas de estima-
ção de parâmetros e planejamento de experimentos para todos aqueles
interessados em aplicações experimentais práticas e no desenvolvimento
de novas aplicações e técnicas. Procura-se valorizar aqui o contexto em
que as técnicas podem ser utilizadas, discutindo-se as hipóteses funda-
mentais e as principais limitações existentes. Não temos o objetivo de
apresentar uma visão exaustiva de qualquer dos pontos discutidos, uma
vez que nesse caso teríamos que escrever uma enciclopédia. Sempre que
necessário, leitura suplementar é sugerida como referência para soluções
existentes para problemas específicos.
A idéia básica que permeia todo o livro e que une todos os volumes
desta série é a de que existe um experimentador interessado em co-
nhecer em um problema particular se e como determinadas variáveis
influenciam outras. Por exemplo, se e como as quantidades de leite,
açúcar e sal alteram o gosto do Panettone. Além disso, se possível, o
experimentador gostaria de otimizar os valores de certas variáveis do
problema. Por exemplo, quais são as quantidades de leite, açúcar e sal
que permitem fazer o Panettone mais saboroso. Finalmente, a resposta
adequada deve ser obtida com a máxima precisão possível, no menor
tempo possível e com o menor custo. É aos experimentadores e pesqui-
sadores interessados nesse cenário que nos dirigimos. A apresentação é
certamente influenciada pela nossa formação de engenheiros, de forma
que algumas vezes alguns procedimentos heurísticos são utilizados, em
detrimento de procedimentos teóricos mais bem embasados.

14 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Para atingir os objetivos propostos, a série “Análise de Dados Expe-


rimentais” será composta por três volumes e organizada da seguinte
maneira:

 Volume 1: Fundamentos de Estatística e Estimação de Parâmetros.


Neste volume são abordadas as questões relacionadas ao desenvolvi-
mento dos aspectos teóricos e numéricos da estimação de parâmetros.
O livro se inicia com a definição de conceitos e ferramentas estatísticas,
fundamentais para a estimação de parâmetros, passando depois pela
formulação do procedimento de estimação de parâmetros e pela aná-
lise dos resultados obtidos, sempre sob a luz da estatística. A tese que
permeia a discussão é a de que a técnica de estimação de parâmetros
só atinge a plenitude do rigor científico quando pode ser suportada por
argumentos estatísticos sólidos.

 Volume 2: Planejamento de Experimentos.


Neste volume são abordadas as questões relacionadas ao planejamento de
experimentos, visando à construção de procedimentos de planejamento
experimental que permitam otimizar de alguma forma os resultados
finais perseguidos pelo experimentador. Dá-se ênfase à compreensão dos
argumentos teóricos que fundamentam o desenvolvimento dos proce-
dimentos de planejamento, analisando-se o significado e a utilidade de
diferentes classes de técnicas experimentais, incluindo desde os planos
fatoriais clássicos até os procedimentos avançados de planejamento se-
qüencial de experimentos. A tese que permeia a discussão é a de que os
planejamentos experimentais devem ser encarados como procedimentos
sofisticados de otimização da etapa de estimação de parâmetros.

 Volume 3: Reconciliação de Dados e Controle de Qualidade


Neste volume são abordadas as questões relacionadas à análise de dados
industriais, visando à otimização e ao controle dos processos. Por isso,
discutem-se procedimentos de Reconciliação de Dados e de Controle de
Qualidade, dando-se ênfase particular aos procedimentos de estimação
de parâmetros que podem ser implementados em linha e em tempo real
no ambiente industrial. A tese que permeia a discussão é a de que é pos-
sível implementar modelos fenomenológicos e empíricos nos sistemas
de aquisição e manipulação de dados das plantas industriais, para fins
de monitoramento e controle avançado do processo.

Análise de Dados Experimentais - Volume I 15


PERTENCE AO N O DE O I

Análise de Dados Experimentais. I.


Fundamentos de Estatística e Estimação de Parâmetros
O primeiro volume desta série foi dividido em seis capítulos da seguinte
maneira:

 Capítulo 1: Princípios Básicos de Estatística


O principal objetivo desse capítulo é introduzir conceitos básicos de
estatística, como a noção de aleatoriedade e de determinismo, e definir
as grandezas estatísticas fundamentais: probabilidade, média, variância,
covariância etc. A leitura desse capítulo não é necessária para aqueles
que conhecem a conceituação estatística fundamental, embora seja re-
comendada para todos os leitores porque estabelece os fundamentos e
o linguajar técnico usado em todos os demais capítulos do livro.

 Capítulo 2: Distribuições de Probabilidade


O principal objetivo desse capítulo é introduzir os conceitos de distribui-
ção de probabilidade em problemas discretos e contínuos, os quais são
depois usados para caracterização dos dados. A leitura desse capítulo
não é necessária para aqueles que conhecem a conceituação estatística
fundamental e as distribuições estatísticas mais comuns.

 Capítulo 3: O Problema Amostral – Inferências e Comparações


O principal objetivo desse capítulo é introduzir os conceitos de inferência
amostral das grandezas estatísticas fundamentais e construir procedi-
mentos para comparação entre estas grandezas. Esses procedimentos
são fundamentais para caracterização apropriada da qualidade dos dados
amostrados. A leitura desse capítulo não é necessária para aqueles que
conhecem as técnicas básicas de inferência e comparação estatística. No
entanto, como esses procedimentos são usados em todos os demais capí-
tulos dessa série de livros, é possível que mesmo o leitor experimentado
sinta-se motivado para enfrentar essa leitura.

 Capítulo 4: Estimação de Parâmetros


O principal objetivo desse capítulo é definir o procedimento de estimação
de parâmetros em bases estatísticas firmes e apresentar o arcabouço
teórico necessário para interpretação adequada dos resultados finais. São
valorizados nesse capítulo principalmente os aspectos teóricos formais
e a discussão das hipóteses fundamentais, em detrimento dos aspectos
numéricos do problema. Acreditamos sinceramente que mesmo o leitor
mais experimentado vai encontrar nesse capítulo discussões teóricas
úteis sobre o problema de estimação de parâmetros.

16 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

 Capítulo 5: Procedimentos Numéricos para Estimação de Parâmetros


O principal objetivo desse capítulo é apresentar procedimentos numé-
ricos apropriados para obtenção das estimativas paramétricas, uma
vez que em raríssimas vezes é possível obter tais estimativas de forma
direta, como função explícita dos dados experimentais. Valoriza-se aqui
a apresentação conceitual e o desenvolvimento de algoritmos numéricos
básicos, em detrimento dos detalhes numéricos, que são propostos como
leitura adicional. Aqueles pouco interessados nos aspectos algorítmicos
de implementação dos procedimentos de estimação podem dispensar a
leitura desse capítulo. No entanto, recomendamos a leitura cuidadosa
desse texto a todos, uma vez que o leitor certamente terá que usar
procedimentos numéricos para resolver seus problemas reais. Dessa
forma, mesmo os usuários de pacotes comerciais poderão encontrar
nesse capítulo informações úteis sobre como escolher e definir critérios
numéricos para resolução de problemas.

 Capítulo 6: Soluções dos Exercícios Propostos


O principal objetivo desse capítulo é apresentar a solução dos exercícios
propostos no final de cada um dos outros capítulos. Como os exercícios
são propostos com o objetivo de provocar o leitor e forçá-lo a exercitar
os conceitos apresentados, esse capítulo apresenta algumas reflexões
úteis sobre algumas conseqüências dos princípios e procedimentos apre-
sentados nos demais capítulos do livro. O leitor deve procurar fazer os
exercícios antes de ler as soluções encaminhadas, para que possa também
absorver com mais intensidade as soluções que nós apresentamos para
as nossas próprias perguntas.

Esperamos conseguir passar a vocês ao longo desses seis capítulos o


mesmo entusiasmo que sentimos desde aqueles primeiros dias de 1987.
Se não formos felizes na nossa estratégia, não desista e tente de novo,
pois temos certeza de que o esforço vale à pena!

Marcio Schwaab
José Carlos Pinto
Rio de Janeiro, Outubro de 2007

Análise de Dados Experimentais - Volume I 17


PERTENCE AO N O DE O I
PERTENCE AO N O DE O I

Princípios Básicos

1 de Estatística

1.1. A Natureza dos Problemas Científicos


e da Experimentação
Desde o início da História do Homem, temos sentido a necessidade de
entender o funcionamento do mundo que nos cerca. Essa necessidade de
compreensão sempre foi motivada por questões muito práticas, como por
exemplo, entender o comportamento do tempo para prever a ocorrência
de chuvas ou secas, que têm implicações diretas na sobrevivência das
comunidades que dependem da agricultura para subsistir. (Assunto esse
que ainda consome o trabalho diário de milhares de pessoas em todo o
mundo, o que mostra como o conhecimento sobre certas questões funda-
mentais da vida pode se acumular muito lentamente ao longo dos anos.)
Como bem demonstra este exemplo, a necessidade de compreender o
mundo, embora algumas vezes busque apenas satisfazer a curiosidade
de alguns sobre certas questões que os cercam, quase sempre nasce da
vontade de se controlar ou prever um conjunto de fenômenos naturais
para melhorar, otimizar ou fazer com que a natureza funcione de forma
a nos beneficiar de alguma maneira particular. No exemplo, todos esses
elementos estão presentes, como vemos abaixo:
Problema prático: É necessário plantar para que se produzam alimen-
tos. Secas e enxurradas destroem as plantações, consomem o trabalho
e provocam falta de alimento. Seria bom saber onde e quando secas e
enxurradas vão ocorrer, pois assim poderíamos escolher o momento
certo para plantar e armazenar os alimentos.

Princípios Básicos de Estatística 19


PERTENCE AO N O DE O I

Questão fundamental: Como funciona o tempo?


Finalidade básica da resposta: Prever o momento adequado para o
plantio e armazenamento de alimentos.
Embora o exemplo proposto seja extremamente simples, ele permite
identificar os elementos fundamentais do problema científico:
1. O problema prático motivador;
2. A necessidade de compreensão do fenômeno;
3. A necessidade de previsão.
O problema prático motivador pode ser compreendido como a cha-
ma que aguça a curiosidade do investigador. Qualquer um que já teve
a oportunidade de desenvolver e submeter um projeto a uma agência
de financiamento já teve também que preencher um formulário onde
se pergunta para que serve o projeto e quais são os objetivos do proje-
to. É difícil acreditar que alguém esteja interessado em um problema
sem que haja qualquer objetivo a ser alcançado ou resposta a ser
obtida. (Freqüentemente as pessoas discordam sobre a relevância dos
objetivos a serem alcançados numa investigação, embora eles nunca
estejam ausentes.) O problema prático constitui a mola fundamental
da era tecnológica e movimenta milhões de pessoas em todo mundo,
com uma infinidade de pequenos e grandes problemas que precisam
ser resolvidos.
Para que o problema possa ser resolvido de forma adequada, é ne-
cessário compreender os fenômenos naturais que geram o problema
prático. Quais são as causas do fenômeno? Quais são as conseqüências?
Como as causas e conseqüências estão relacionadas? A busca de respostas
para essas questões é freqüentemente denominada de modelagem do
fenômeno. As causas e conseqüências são usualmente denominadas de
variáveis do problema analisado. A estrutura que relaciona as variáveis
do problema é denominada de modelo.
Nesse ponto, uma questão fundamental deve ser colocada: a identifi-
cação das variáveis de um problema implica necessariamente na observa-
ção do fenômeno e na obtenção de dados (atividade empírica), enquanto
a construção de uma estrutura que relaciona as variáveis implica neces-
sariamente em um processo abstrato para explicação e justificativa dos
resultados observados (atividade teórica). Esse íntimo relacionamento
existente entre as atividades empírica e teórica foi compreendido durante
o Iluminismo. (Ainda hoje alguns “investigadores” continuam insistindo
na discussão sem sentido sobre o que é mais importante – investigação
experimental ou teórica. Não entre nessa, pois experimento sem teoria
ou teoria sem experimento não faz sentido!) Só podemos dizer que com-
preendemos um fenômeno se somos capazes de identificar as variáveis

20 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

relevantes do problema e se somos capazes de dizer como certos grupos


de variáveis influenciam os demais; ou seja, se temos um modelo para
o fenômeno. Nessa fase, a atividade experimental tem como principais
objetivos permitir a identificação adequada das variáveis relevantes do
problema e a construção do modelo.
Finalmente, atinge-se a fase na qual o conhecimento acumulado deve
ter serventia para resolver o problema proposto. Assim, o modelo deve
ser utilizado para prover as respostas do problema. É a etapa de predição.
A resposta é então implementada, visando resolver o problema prático
que originou a investigação. Caso a resposta predita de fato resolva o
problema prático, dizemos que o modelo desenvolvido é válido; caso
contrário, a compreensão do fenômeno não foi adequada para resolver o
problema e precisa ser reavaliada. Novamente a teoria e a prática estão
inter-relacionadas, haja vista que a compreensão teórica só ganha impor-
tância se puder ser aplicada para resolver o problema prático original.
Se isto não for possível, a teoria construída não tem validade no mundo
que nos interessa e, de fato, tem que ser revista.
Tomando como base a discussão acima, vê-se que é através da
experimentação que os problemas práticos são construídos, as vari-
áveis relevantes do problema são identificadas e o modelo pode ser
montado e validado. A prática teórica permite correlacionar as variá-
veis e fazer previsões, que fornecem as respostas para os problemas
práticos originalmente propostos (e outros que porventura venham a
ser propostos).

1.2. Metodologia Científica e Experimentação


As discussões apresentadas anteriormente podem ser colocadas num
contexto mais geral, definindo-se como a Metodologia Científica para
tratar um problema. Este contexto mais genérico está apresentado re-
sumidamente na Figura 1.1.

Princípios Básicos de Estatística 21


PERTENCE AO N O DE O I

Ub'lcJ"o!•~l)c e f 1n
rc::r m Ul'l !'fotlh:rn11

ReuhziiJli · K ~xpeTimanlos .
Acumlllii•J.t' i~:~form:~~iio de
llllul'l!n n npkica.

ril!:n II n nm·~C' 'o'l!rh~vc-i re1o:VIJ'f'IIC,;,


C'(ll1 rri)C'f11·lJC' mod>t:l(l

lJ,;p-cte: o mode lo p.l.fil r~ponder


per1f11JIIol0 e fn:1.er pre ~ i~CJo:,;

Figura 1.1 - Esquema Geral do Método Científico

O que a Figura 1.1 não acentua, no entanto, são os seguintes pontos:

1.2.1. A natureza cíclica do trabalho científico


Como o conhecimento acumulado é sempre utilizado para resolver os
mais variados problemas, mesmo aqueles que não foram originalmente
propostos e utilizados para gerar os modelos, estes são continuamente
testados. Isso faz com que a abrangência do modelo aumente continua-
mente (desde que as respostas providas sejam de fato úteis e confirmadas
experimentalmente) e que ele seja continuamente revisto e melhorado
(o que ocorre sempre que uma resposta obtida seja inadequada e negada
pela observação empírica).
O exemplo clássico desta “natureza cíclica” é a da Teoria do Movi-
mento de Newton. As Leis de Newton foram utilizadas nos mais diver-
sos campos da Ciência de forma bem sucedida para descrever os mais
variados fenômenos. No momento em que os físicos tentaram utilizar
as Leis de Newton para descrever o movimento dos sistemas de alta
energia, tanto na Astronomia quanto na Física Atômica, as respostas
obtidas com o modelo foram negadas pelas observações experimentais.
Nesse momento houve a necessidade de modificar o modelo para que
as novas observações pudessem ser também descritas pela estrutura

22 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

teórica – e nasceu a Teoria da Relatividade. Note que mais de 100 anos


separam as Leis de Newton da Teoria da Relatividade, o que demonstra
que a Teoria do Movimento de Newton foi testada durante muito tempo
até se caracterizar como incompleta. Quanto mais tempo uma estrutura
teórica permanece viva e mais ela é testada, mais bem sucedida ela é.
Hoje as Leis de Newton podem ser vistas como aproximações excelentes
da teoria mais geral, válidas para sistemas de baixas energias.
Estes fatos mostram que o investigador jamais deve acreditar em
verdades absolutas e deve estar sempre preparado para contestar o co-
nhecimento estabelecido. Pense que apenas uma fração muito pequena
de todas as observações possíveis já foi, de fato, feita. Tudo ainda está
por ser descoberto.

1.2.2. A natureza imparcial do trabalho científico


Se um conhecimento científico é obtido, ele pode ser utilizado por todos
para resolver problemas semelhantes. Desta forma, observações expe-
rimentais devem ser reprodutíveis e os mesmos resultados devem ser
obtidos sempre que as mesmas condições forem impostas ao problema.
Se condições similares levam a observações distintas, não há como
sistematizar o conhecimento, construir modelos ou fazer predições.
Portanto, não há Ciência. O conhecimento e a metodologia científicos
não são manifestações individualizadas nem profissões de fé (o que de
forma nenhuma invalida estas manifestações do espírito humano, como
forma de compreender a vida e o universo). Por isso, o bom investigador
sempre reproduz suas observações: para garantir que estas são válidas e
representam, de fato, um fenômeno real que pode ser controlado.

1.2.3. A natureza limitada do trabalho científico


Para que as observações sejam feitas, diversas condições devem ser
impostas ao sistema experimental investigado, de maneira que as
conclusões obtidas só são válidas dentro deste contexto original. Al-
gumas destas condições são impostas sem mesmo que saibamos disto.
Por exemplo, são clássicos os estudos sobre a natureza ondulatória ou
particulada das radiações eletromagnéticas, particularmente da luz. A
depender de como as condições experimentais são fixadas, conclui-se ou
uma coisa ou outra. Hoje, sabe-se que toda partícula em movimento tem
a ela associado um movimento ondulatório e vice-versa. O investigador e
o ambiente interagem de forma nem sempre bem definida com o experi-
mento que está sendo realizado e podem interferir nos resultados finais
obtidos. Como não podemos controlar os efeitos que não conhecemos,
é natural que os resultados experimentais obtidos em condições seme-

Princípios Básicos de Estatística 23


PERTENCE AO N O DE O I

lhantes não sejam exatamente os mesmos. Por isso, toda a observação


experimental está sujeita a flutuações ou a um certo grau de incerteza.
Não é possível obter um resultado experimental 100% correto, pois não
é possível controlar todo o universo para que realizemos o experimen-
to. O ideal é que as flutuações (ou incertezas, ou erro experimental)
sejam tão pequenas quanto possível, indicando um controle bastante
efetivo sobre as variáveis mais relevantes para a consecução dos dados
experimentais obtidos.

1.2.4. A natureza limitada do modelo


Como toda observação experimental está sujeita a flutuações e deve ter
seu escopo limitado ao contexto experimental em que foi executado, não
é possível construir modelos perfeitos. Desta forma, nenhum modelo
reflete exatamente a realidade e incertezas teóricas devem também ser
esperadas. Um modelo bem sucedido é aquele que consegue explicar os
resultados experimentais com incertezas compatíveis com aquelas ob-
servadas experimentalmente. Não é possível descrever a realidade com
precisão maior do que aquela permitida pela observação experimental.
Como o modelo é utilizado para fazer previsões e prover respostas a per-
guntas feitas, toda previsão e resposta obtida através do modelo também
apresentam um certo grau de incerteza, que deve ser considerada.
Por tudo o que foi discutido, observa-se que tão ou mais importante
que a própria observação experimental é a caracterização apropriada
das incertezas a que tais observações estão sujeitas.

1.3. As Fontes de Erro e o Ideal Determinístico


O homem tem procurado através dos tempos as leis que regem o funcio-
namento do universo. Segundo o ideal positivista, uma vez conhecidas
essas leis seríamos capazes de entender todo o passado e todo o futuro,
já que o desenrolar da vida e da história nada mais seria do que a solução
do complexo sistema de equações que representaria estas leis supremas.
O destino teria sido ditado quando as condições iniciais foram fixadas e
todo o universo foi colocado em movimento.
Diz-se que um sistema ou processo é determinista ou determinístico
quando fazendo-se sempre a mesma pergunta, obtém-se sempre a mesma
resposta. Esse é o resultado típico que obtemos ao se resolvermos um
conjunto de equações matemáticas, como aquelas que descreveriam o
funcionamento do universo. Por exemplo, seja o caso de um tanque de
reação continuamente alimentado por uma corrente de processo (Figura
1.2), que flui com vazão (volume/tempo) conhecida e que contém um
composto A numa concentração também conhecida (massa/volume).

24 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Suponha ainda que é conhecida a vazão da corrente de retirada (vo-


lume/tempo), que contém A numa concentração CA (massa/volume)
desconhecida. Sabe-se que A se transforma em um segundo composto
B dentro do tanque, fenômeno esse chamado de reação química. A velo-
cidade com que essa transformação ocorre é conhecida pelos químicos
e descrita pela relação:
(1.1)

onde RA (massa/tempo) é a velocidade da transformação, K (1/tempo)


é uma constante característica do sistema e V (volume) é o volume
ocupado do tanque. Usando a lei desse pequeno universo que diz que
a massa se conserva, é possível dizer que todo o composto A que entra
na alimentação ou sai na corrente de retirada ou vira B. Nesse caso, é
possível escrever as seguintes relações matemáticas, que representam
essa lei do universo:

(
q

Figura 1.2 - Tanque de Reação Continuamente Agitado

q.C ,. = qC. + KC,.I' (1.2)

(1.3)

Dessa forma, repare que sob as mesmas condições de operação (qo, q,


CAo, V), obtém-se sempre o mesmo valor de CA. A solução desse problema,
na forma proposta, está completamente determinada pelas condições
da experimentação.
Sabe-se que isso nem sempre é verdade. Todos já experimentaram a
sensação de tentar obter o número seis no dado, sem sucesso. Vários fatores
contribuem para que o resultado de um experimento seja desconhecido,

Princípios Básicos de Estatística 25


PERTENCE AO N O DE O I

mesmo que a princípio todas as variáveis pareçam estar bem definidas. É


o chamado “pesadelo determinista”. Vejamos alguns exemplos:

1.3.1. O livre arbítrio


Sob condições idênticas, o indivíduo pode optar por soluções diferentes.
Embora esta seja uma questão extremamente complexa, com aspectos
religiosos, filosóficos e morais que não pretendemos aprofundar aqui,
o fato é que o ser humano é bastante complexo e resolve problemas
de formas inusitadas e imprevistas. Por isso a dificuldade de se fazer
previsões nas áreas de Ciências Humanas e Sociais.

1.3.2. A heterogeneidade dos indivíduos


Os indivíduos de um grupo não são idênticos e respondem de forma dife-
rente a diferentes impulsos. Dessa forma, a não ser que todos os elementos
do grupo sejam conhecidos com detalhes, previsões sobre comportamen-
tos coletivos são complexos. Isso é verdade tanto nas áreas de Ciências
Humanas e Sociais quanto nas áreas de Ciências Exatas. Isso ocorre, por
exemplo, sempre que se tentam prever as propriedades da gasolina ou
outras frações de petróleo, que são misturas complexas de um número
enorme de compostos químicos distintos. Problemas similares ocorrem
durante a análise de sistemas biológicos, dado que as células dos organis-
mos que constituem esses sistemas não são necessariamente iguais.

1.3.3. A precisão finita dos instrumentos de medidas


Mesmo que fossem conhecidas todas as leis do universo, ainda assim
teríamos dificuldades de fazer previsões absolutamente corretas, por-
que os instrumentos de medida têm capacidade finita de aferição. Não
conseguimos nunca observar uma grandeza com todas as infinitas casas
decimais. As medidas reais se aproximam mais do esquema apresentado
na Figura 1.3, onde se observam flutuações (ruídos) por causa da preci-
são finita do instrumento. Qual o valor real da medida apresentada no
registro da Figura 1.3?

X .
..
t
Figura 1.3 - Registro de uma Variável x com Ruído como uma
Função do Tempo

26 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

1.3.4. A medição indireta e a necessidade de calibração


Muitas vezes é necessário inferir uma variável a partir da medida de uma
outra variável. Por exemplo, quando se mede a temperatura com um
termômetro de mercúrio, mede-se de fato o volume do mercúrio em um
cilindro graduado. Como o volume do mercúrio muda com o aumento da
temperatura (como ocorre com todas as demais substâncias), relaciona-se
o volume medido com a temperatura do sistema. Isso gera a necessidade
de construir uma função que relaciona o volume com a temperatura,
chamada de modelo de calibração. Contudo, como é possível escolher o
melhor modelo de calibração? Como é possível garantir que o modelo de
calibração permaneça válido em todas as condições de experimentação?
Esses fatos introduzem incertezas adicionais ao processo de medição e
aos valores experimentais medidos.

1.3.5. A possível existência de falha no processo de medição


Instrumentos são constituídos por equipamentos e processos; portan-
to, estão sujeitos a falhas. Uma régua plástica, por exemplo, pode se
deformar quando é mal acondicionada em mochilas e pastas escolares,
introduzindo erros e imprecisões adicionais no processo de medida. De
forma similar, a existência de mau contato em um circuito elétrico pode
causar ruído e desvios nas medidas fornecidas por um equipamento. O
problema é que esses desvios e deformações nem sempre são percebidos
pelo experimentador.

1.3.6. O controle limitado sobre um número pequeno de


variáveis
Um fato adicional é que não conhecemos todas as variáveis relevantes
para um dado problema com toda a precisão. Em geral, apenas as vari-
áveis mais importantes são levadas em consideração durante a análise
de um problema real, de forma que flutuações podem ser esperadas por
conta das variáveis não controladas do problema. Por exemplo, será que
todos os possíveis contaminantes de uma corrente de alimentação são
conhecidos? Será que o isolamento é perfeito e não há nenhuma perda
de calor no sistema?
E qual é a conseqüência desses fatos? A principal delas é que, mesmo
quando conhecemos bastante um sistema, há sempre algum grau de
incerteza, de variabilidade, de imprecisão. Nunca é possível garantir com
certeza absoluta qual é o resultado de um determinado experimento.
Diferentes equipamentos de medidas e diferentes experimentadores
obtêm valores medidos diferentes para uma mesma variável medida.
Obviamente, alguns sistemas apresentam maior ou menor grau de

Princípios Básicos de Estatística 27


PERTENCE AO N O DE O I

imprecisão que outros. Parece óbvio que uma coisa é a precisão obtida
quando se prevê o comportamento meteorológico e outra é a precisão
obtida quando se prevê o tempo que um objeto que cai do 3º andar de
um bloco de apartamentos leva para atingir o chão. Portanto, já sentimos
aqui a necessidade de caracterizar o grau de variabilidade existente num
sistema experimental qualquer.
Diz-se que sistemas que apresentam variabilidades ou incertezas
quanto ao resultado final têm natureza estatística ou estocástica. O
exemplo clássico de comportamento estocástico é o experimento dos
dados ou da roleta. Estes são casos limites de aleatoriedade, haja vista
que é sempre possível estabelecer algum grau de determinismo em
problemas preponderantemente estocásticos e vice-versa. Por exemplo,
sabemos que ao lançarmos um dado, nunca obteremos valores maiores
do que 6 e menores do que 1. De forma similar, correntes químicas
sempre têm algum grau de impureza e os instrumentos de medida não
são perfeitos, portanto, o valor de CA no tanque de reação da Figura 1.2
só pode ser obtido com um certo grau de precisão. Além disso, desde a
década de 70 sabe-se que sistemas determinísticos regidos por equações
diferenciais não-lineares podem apresentar dependência exponencial aos
dados iniciais (o caos). Nesse caso, qualquer pequena incerteza cometida
nas condições iniciais cresceria exponencialmente e tornaria qualquer
previsão sobre o comportamento do sistema inócua após um certo tempo.
Vê-se, assim, que a fronteira entre os mundos determinístico e estocástico
pode ser abrangente, mal definida e espessa.

Exemplo 1.1 – A Figura 1.4 mostra duas seqüências de dados


experimentais. Em ambas as seqüências é possível observar o
típico padrão aleatório de flutuação dos dados. Os registros sobem
e descem sem um padrão definido.

111 1

0.11

11.!1
"'
:..: ~I
11-4
110
I

~I
1111
D :!!~ -4U 1111 i ll I Ill
\ l to.IW..Ill

1.4a

28 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

lJ.l
'" • ..
D...l
I ..
I tl
I
• '
,.
'

I •• .
-...
[l1j

11.1
I ~· • • ,.
..
..•. ·"" .. ,,I

'
11 >4

• +'
IU

111]

"

• I ••

• •j
' JI.
I
u ;p Jn 1)11 ~I Lilli
'!.1rd -lf1

1.4 b

Figura 1.4 - Registro de Duas Seqüências de Medidas X e Y.

A variável X parece flutuar mais que a variável Y e parece tam-


bém flutuar de forma um pouco mais regular, embora não seja
possível identificar um padrão de comportamento na Figura 1.4.
No entanto, uma observação um pouco mais profunda dos dados
é apresentada na Figura 1.5.
l JJ

11 11
.,•
, / - "'""",, ..
"'•,.
.... II ~ ,/ ' \ •
~ \
[[A
\,
II.J \
IIJJ

"• 11-4

.'II~
i1ft •. I 1n

1.5 a

1,11
.. • ... • ••
.
•.II
.. • • •
.1.1 •
..• .

.. • • .. ... •...

. .. ..
.,.
--... .,.. .• ••
• ....
lUI •
.... •~ .. ••
~

li
• •
.. •
• .1
.. • .;
••
.. • ..
01
. •..." • • •
• ...
., li•
I

•n • ...
P ll •:~: 841 (I ll fl 1 II

r..
1.5 b
Figura 1.5 - Análise de Duas Seqüências de Medidas X e Y Deslocadas.

Princípios Básicos de Estatística 29


PERTENCE AO N O DE O I

A Figura 1.5 mostra com clareza que a flutuação observada na


medida de X nada tem de aleatória; muito pelo contrário, a medida
seguinte (Xk+1) é uma função determinística da medida anterior
(Xk). Isso mostra que a identificação do grau de aleatoriedade ou
de determinismo de um sinal experimental constitui um proble-
ma relevante para o experimentador per si. O sinal da variável Y
parece ter um grau maior de aleatoriedade que o sinal da variável
X. Contudo, apenas uma investigação mais profunda das proprie-
dades da medida, com o auxílio das ferramentas matemáticas e
numéricas apresentadas nos próximos capítulos desse livro, pode
permitir que o experimentador defina em bases sólidas se uma
medida pode ser considerada aleatória ou não.

1.4. Os Conceitos de Probabilidade e de Média


Um conjunto de medidas da variável x é feito, resultando nos resultados
apresentados na Tabela 1.1.
Tabela 1.1 - Conjunto de Medidas Experimentais Obtidas para a Variável x.
medida 1 2 3 4 5 6 7 8 9 10
x 0.50 0.60 0.50 0.40 0.50 0.50 0.50 0.40 0.50 0.50

Dados os diferentes valores obtidos durante as várias medidas efetua-


das, parece lícito perguntar: qual o valor real de x? A resposta correta para
esta pergunta é: NÃO SABEMOS! Supõe-se aqui que todas as medidas fo-
ram feitas corretamente e que, portanto, espelham de forma semelhante
o valor de x. Não há como adivinhar a princípio qual é a melhor medida
ou qual medida representa melhor o conjunto de medidas. Apesar de
tudo isto, ainda assim é necessário definir um valor para x, pois vários
processos de tomada de decisão podem depender disto. Por exemplo, se
x for a medida da quantidade de um contaminante industrial presente
num efluente lançado em um rio, a definição do valor de x pode resultar
numa multa emitida pela Secretaria de Meio Ambiente.
Quando as medidas estão sujeitas a flutuações, podemos apenas
fornecer um valor que represente o conjunto de medidas de x de forma
conveniente. Por exemplo:
 FORMA 1: x = 0.50
0.5 é o valor que aparece mais freqüentemente no conjunto de medidas.
Este valor é usualmente chamado de MODA do conjunto de medidas.

30 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

0.6 + 7 ⋅ 0.5 + 2 ⋅ 0.4


 FORMA 2: x = = 0.49
10
Este é um valor usado comumente para representar um conjunto de
números, chamado de MÉDIA ARITMÉTICA. Este valor é uma soma
ponderada dos vários números que apareceram no conjunto original de
dados. A ponderação utilizada é a freqüência com que o número aparece
no conjunto.

x = (0.6 ⋅ 0.5 ⋅ 0.4 ) 10 = 0.48697


I
1
7 2
 FORMA 3:
Este é um valor usado também com freqüência para representar um
conjunto de números, chamado de MÉDIA GEOMÉTRICA. Este valor é
um produto ponderado dos vários números que apareceram no conjun-
to original de dados. A ponderação utilizada é a freqüência com que o
número aparece no conjunto.
Qual destas (ou possivelmente outras) é a melhor forma de represen-
tar x? Para responder esta pergunta é conveniente introduzir primeiro o
conceito de probabilidade. Define-se como probabilidade a EXPECTATIVA
que se tem de que um certo valor (ou conjunto de valores) possa ocorrer
como resultado de um experimento. A probabilidade é expressa como
a FRAÇÃO das vezes que se espera que o resultado ocorra, quando o
experimento é realizado um número muito grande de vezes, tendendo
ao INFINITO.
Observe que, na definição proposta para probabilidade, alguns pontos
merecem ser enfatizados. Primeiramente, a probabilidade é apenas uma
EXPECTATIVA de que o resultado ocorra e não deve ser confundida com
o resultado experimental propriamente dito. Expectativas nem sempre
são confirmadas e a vida real está cheia destes exemplos. Azarões surpre-
endem nos esportes, crises econômicas parecem que às vezes “nascem
do nada”, pessoas dadas como mortas nas UTIs “renascem” inexplica-
velmente etc. Esta é uma característica que nunca deve ser esquecida:
probabilidade é uma coisa e resultado é outra. No fundo, a probabilidade
sempre expressa um certo desconhecimento do problema analisado, uma
vez que não garante o resultado obtido.
Em segundo lugar, a probabilidade é expressa como a FRAÇÃO de
vezes que se espera que o resultado analisado seja obtido, se o experi-
mento for realizado várias vezes. Desta forma, a probabilidade é sempre
um número positivo, contido no intervalo [0,1]. Mais ainda: a soma das
probabilidades de todas as respostas possíveis é necessariamente igual
a 1, pois sempre pelo menos um dos resultados possíveis vai ser obtido

Princípios Básicos de Estatística 31


PERTENCE AO N O DE O I

experimentalmente. Se a soma das probabilidades não for igual a 1, é


porque existem resultados possíveis que não estão sendo analisados.
Finalmente, a probabilidade é definida como uma fração de vezes
que se espera que o resultado seja obtido, quando o número de experi-
mentos é INFINITAMENTE grande. Portanto, a probabilidade só ganharia
significado real mais profundo quando infinitos experimentos pudessem
ser realizados, o que nunca é possível na prática. Por maior que seja o
número de vezes que se conduz um experimento, esse número é sempre
finito. Há, portanto, um enorme esforço de abstração para a definição de
probabilidade. Usualmente, experimentos são realizados uma única vez
ou um número muito pequeno de vezes, de forma que as decisões toma-
das com bases em expectativas, descritas por probabilidades, devem ser
tomadas com prudência e conhecimento técnico aprofundado sobre os
critérios de tomada de decisão. Por exemplo, ao se dizer que uma usina
atômica é 99% segura, diz-se indiretamente que ela é 1% insegura. O
problema é que se a expectativa menos provável se confirmar, milhares
ou milhões de pessoas podem ser grandemente prejudicadas, a despeito
das próximas usinas atômicas instaladas na região para substituírem a
usina insegura funcionarem a contento. Na realidade, depois da primeira
falha, milhares de pessoas não sobreviveriam para confirmar o sucesso
das outras 99 tentativas. Isto se ainda fossem viáveis novas tentativas.
Com base nestas discussões, é possível introduzir um linguajar ma-
temático mais preciso na forma
 
lim  fi 
 = lim  fi 
pi = f j →∞ NR (1.4)
j =1.. NR   NT →∞  NT 
 ∑ fj 
 j =1 
onde pi é a probabilidade associada ao evento (resultado) i, fi é a freqüência
ou número de vezes que o resultado i é obtido no conjunto de repetições
do experimento, NR é o número de resultados possíveis para o experi-
mento e NT é o número total de observações. Como já foi discutido:
0 ≤ pi ≤ 1 (1.5)
NR

∑p
i =1
i =1 (1.6)

32 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 1.2 – Baseado na discussão anterior, qual a probabilidade


de se obter o número 6 no dado? Admitindo-se que as expectativas
quanto a qualquer dos possíveis seis resultados são idênticas e
que, portanto, os seis resultados possíveis são igualmente pro-
váveis, conclui-se que:
p1 = p2 = p3 = p4 = p5 = p6 = p

NR
1
∑ pi = 6 p = 1 ⇒ p =
i =1 6
É importante observar que a hipótese de que as seis faces são
igualmente prováveis pode não ser verdadeira e que pequenos
defeitos de fabricação façam com que certas faces ocorram mais
freqüentemente que outras. Por isto, o resultado acima é usual-
mente utilizado para definir o dado ideal.

Uma vez conhecidos os possíveis resultados de um problema e as


expectativas associadas a cada um destes resultados, conhece-se prati-
camente tudo sobre o destino do experimento. Este acúmulo de conheci-
mento pode ser representado numa forma gráfica bastante conveniente
chamada de histograma. Um histograma é um gráfico que mostra todos
os possíveis resultados experimentais e as respectivas expectativas ou
probabilidades de que de fato se realizem. Um histograma ilustra, por-
tanto, uma certa distribuição de probabilidades, característica do expe-
rimento analisado. Um exemplo é apresentado na Figura 1.6 abaixo.

L
I I.
l
Figura 1.6 - Exemplo de um Histograma.

Exemplo 1.3 – Para o problema proposto no Exemplo 1.2, apresen-


tam-se abaixo os histogramas de probabilidades para o dado ideal
(Figura 1.7) e para um dado real (Figura 1.8). É muito importante
que se perceba, no entanto, que a Figura 1.8 pressupõe que o

Princípios Básicos de Estatística 33


PERTENCE AO N O DE O I

experimento (jogar o dado) tenha sido realizado infinitas vezes.


Como isso não é possível, a Figura 1.8 deve ser encarada como
uma aproximação de um certo grau do verdadeiro histograma de
probabilidades do dado real.

!!,lit

I hi '

, I~ I
~ 1.-1 '
l'l:i
.: tl
:.i u• ,
~

-=e o. Ill '


:;., ur. I
.Ji l
D.
!) ·

Figura 1.7 - Histograma de Probabilidades para o Dado Ideal.

.l l.
IR •

.....
~

~
~
7:j
-=
!!!!
I!) I
-=e ~ .
~
ri t


ll
.D

Figura 1.8 - Histograma de Probabilidades para um Certo Dado Real


(Obtido a Partir de 1000 Experimentos).

Voltemos agora à questão de como representar um conjunto de me-


didas sujeitas à flutuações. Observe que, colocadas sob a forma de um
histograma, a questão que surge é como escolher um número que repre-
sente a totalidade do histograma de probabilidades. Outra questão que
pode surgir é escolher um número que identifique, de alguma maneira,
um valor em torno do qual as probabilidades se distribuem. Podemos
dizer que buscamos um número que caracterize o histograma quanto ao

34 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

movimento de translação, capaz de servir como base para tomadas de


decisão e comparações. Por motivações práticas, algumas propriedades
devem ser sustentadas por esse número:
1. Deve ter uma posição central, no sentido de que as probabilidades
devem se distribuir em torno deste número (ou seja, o número deve
representar de alguma forma os possíveis resultados do experimen-
to);
2. Deve ser unicamente determinado, no sentido de que deve resultar de
uma transformação injetora, de forma que cada histograma resulte
num único valor de referência (ou seja, a aplicação da operação sobre
o histograma deve resultar em um único valor para que se eliminem
ambigüidades de definição).
É fácil mostrar com contra-exemplos que a moda (valor que aparece
mais freqüentemente) e a mediana (valor que divide o histograma em
dois subconjuntos de iguais probabilidades) não satisfazem a segunda
condição descrita acima; ou seja, são medidas ambíguas do histograma.
Por exemplo, na Figura 1.7 todos os números são igualmente prováveis,
donde não é possível definir a moda. Nesta mesma figura, qualquer nú-
mero real no intervalo (3,4) divide o histograma em dois subconjuntos
de probabilidade igual a 50%, donde se conclui que a mediana também
é ambígua. Assim, embora a moda e a mediana possam ser definidas e
utilizadas em muitos problemas, elas não servem de forma inequívoca
para fins de caracterização e comparação de histogramas (e distribuições
de probabilidade).
Os conceitos de média aritmética e média geométrica podem ser
estendidos para o histograma de probabilidades na forma:
NR
J.lx = ~>.x, (1.7)
r-1
SR
Jl~ =IJ x,P,
... (1.8)

É fácil mostrar que ambas as definições satisfazem as condições 1


e 2 impostas anteriormente. A comprovação da propriedade 2 é trivial
para ambos os casos, pois para cada conjunto de valores x1,..., xNR e p1,...,
pNR as operações representadas pelas Equações (1.7) e (1.8) resultam em
um único número. Pode-se dizer, portanto, que a definição das médias
aritmética e geométrica não resulta em qualquer tipo de ambigüidade.
Isso não deve ser confundido com a afirmação inversa; ou seja, a média
NÃO caracteriza inequivocamente a distribuição de probabilidades que

Princípios Básicos de Estatística 35


PERTENCE AO N O DE O I

a gerou. Portanto, diferentes distribuições de probabilidade podem gerar


os mesmos valores de média. Essa afirmação pode ser provada com um
contra-exemplo simples, como mostrado na Figura 1.9. Portanto, a média
não substitui de forma alguma a informação contida no histograma de
probabilidades; apenas fornece um valor em torno do qual os resultados
flutuam.
Para provar a validade da primeira condição imposta, suponha que
os valores x1,..., xNR estão organizados em ordem crescente. Então:
.'VR ,\IR NR

L P,Xl =.rl < L, pJx, = J.lx 'S L pixlYR =x1.


J=l i =E 1=1
'R (1.9)

(1.10)

Logo, as médias aritmética e geométrica são sempre centrais, no sen-


tido de que assumem valores contidos no intervalo formado pelos valores
admissíveis máximo e mínimo do experimento. Isso NÃO significa dizer,
como usualmente admitido, que a média expresse o valor mais provável
ou que tenha algum significado físico especial. Por exemplo, no Histogra-
ma 1 da Figura 1.9 observa-se que, apesar da média aritmética ser igual
a 2, esse valor não é de fato admissível, por ocorrer com probabilidade
zero. Os valores mais prováveis nesse caso são os resultados x = 1 e x =
3, cada um com freqüência relativa de 50%. A média deve ser encarada,
portanto, como uma entidade numérica que apenas eventualmente pode
admitir algum tipo de interpretação física ou de fato refletir um resultado
que apresente máxima probabilidade de ocorrer. A Figura 1.10 procura
ilustrar os diferentes conceitos de média.

Figura 1.9 - Exemplos de Histogramas de Probabilidade com µX = 2.

36 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

'
MUDA
Ml!DIANA
f
tEDJA

Figura 1.10 - Ilustração dos Diferentes Conceitos de Média.

Exemplo 1.4 – Para o dado ideal apresentado nos Exemplos 1.2 e


1.3, a média aritmética pode ser calculada como

l _ l 1 1 1 1.,
11 · -=l·-+2 ·-+3- + 4 ·- + 5 ·- + 6 ·-==.) -~5
.\ 6 6 6 6 6 6
O valor 3.5 certamente nunca pode ser obtido do lançamento de
um dado, ilustrando que a média não é necessariamente o valor
mais provável do experimento nem precisa ser um resultado
físico real.

1.5. O Conceito de Variáveis Independentes


e as Propriedades da Média
É importante observar que podem ocorrer problemas com valores ne-
gativos no caso da média geométrica, o que pode tornar esse número
inconveniente para aplicações em certos problemas. Portanto, há moti-
vações matemáticas adicionais para se escolher uma ou outra operação
de média, a depender do problema estudado. Pode-se dizer que a média
aritmética é uma definição muito conveniente de média, pois pode ser
calculada facilmente a partir do histograma de probabilidades e apresenta
uma série de propriedades que facilitam a sua aplicação em problemas
de análise matemática. Deve ser aqui salientado que três propriedades
de enorme importância para o uso de médias são:

 Propriedade 1.1 – Sejam o conjunto (xi, pi) um histograma de probabi-


lidades e α um escalar. Então, µαX = E{αx} = αE{x} =αµX.
NR NR
llax == L P. (~ax~ )-= a L PrXr ;::;; lXJ..~
r=l
X (1.11)

Princípios Básicos de Estatística 37


PERTENCE AO N O DE O I

Portanto, ao multiplicar os resultados possíveis por um escalar α


qualquer, a média aritmética fica multiplicada pelo mesmo escalar α.

 Propriedade 1.2 – Sejam o conjunto (xi, pi) um histograma de pro-


babilidades e α um escalar. Então, .

(1.12)

Portanto, ao multiplicar os resultados possíveis por um escalar α


qualquer, a média geométrica fica multiplicada pelo mesmo escalar α.

 Propriedade 1.3 – Sejam os dois histogramas de probabilidades


(xi, pxi) e (yi, pyi). Então, µX+Y = E{x+y} = E{x} + E{y} =µX + µY.

Para provarmos a Propriedade 1.3, é bastante conveniente introduzir-


mos alguns conceitos relativos à probabilidade conjunta de resultados.
Diz-se que dois experimentos aleatórios são independentes quando os
respectivos histogramas de probabilidade (xi, pxi) e (yi, pyi) não dependem
dos resultados obtidos. Por exemplo, para o caso do dado ideal, espera-se
que a probabilidade de se tirar o número 1 na segunda vez que se rola
o dado independa do valor obtido da primeira vez que se rolou o dado.
Ou seja, ao se repetir o experimento, o histograma de probabilidades
independe do primeiro resultado encontrado. Quando experimentos
são independentes, a probabilidade de obter uma certa seqüência de
resultados pode ser dada por:
N
P (x1 , ..., xN ) = ∏ pxi (1.13)
i =1
Para entendermos a Expressão (1.13), basta verificarmos que, à me-
dida que se estende o número de experimentos a infinito, uma fração px1
destes experimentos terá x1 como primeiro resultado. Desta fração, uma
fração px2 terá x2 como segundo resultado; ou seja, uma fração px1⋅px2
destes experimentos terá x1 e x2 como primeiros resultados, nesta ordem.
Por indução, chega-se à Equação (1.13). Desta forma, se os experimentos
são independentes, o histograma que descreve a probabilidade de se
obter uma certa N-tupla ordenada de resultados é:
 N

 [x1 ,..., xN ], ∏ pxi 
 i =1 
38 Análise de Dados Experimentais - Volume I
PERTENCE AO N O DE O I

Podemos agora voltar à Propriedade 1.3. Admitimos, por comodidade


da apresentação, que os histogramas (xi, pxi) e (yi, pyi) estendem-se ao do-
mínio de todos os números inteiros contidos em (-∞, +∞). Isto em nada
restringe o problema, já que podemos associar probabilidades iguais a
zero àqueles valores que não fazem parte de fato do histograma parti-
cular estudado e já que podemos multiplicar cada número natural por
um número real ∆α arbitrariamente pequeno, se quisermos trabalhar
com intervalos de números reais.
Sejam x e y dois experimentos aleatórios obtidos dos histogramas
(xi, pxi) e (yi, pyi). Neste caso
~

Jlx =E{x}= L xp, (x) (1.14)

Jlr = E{y} = L YP,. (y) (1.15)

O valor médio do histograma da soma de x e y deve ser representado


como:
-
~1_1·+r =E{x+ y}= L (x +y) P(x+yJ (x +y) (1.16)
X+ ) = -

onde p(x+y)(x+y) é a probabilidade de, dados dois experimentos x e y,


obtermos a soma x+y. Para facilitar a notação, chamemos m = x + y.

Jlu = E {m} = L- mp., (m) (1.17)


nr=- -
A questão então é calcular a distribuição de probabilidades de m. Se
x e y são eventos independentes, considerando-se que m pode ser obti-
do de várias maneiras diferentes (por exemplo, m = 4 pode ser obtido
como 1+3, 2+2, 3+1, 4+0 etc.), a Equação (1.13) pode ser usada para
calcularmos a probabilidade de cada uma das possíveis combinações,
de forma que:

p., (m)= L- Px(x)p.v (m - x) (1.18)

Logo,

L mL
- M

Jlu =E{m}= p, (x)p.v (m-x) (1.19)

Princípios Básicos de Estatística 39


PERTENCE AO N O DE O I

Agora, vejamos que o somatório da Equação (1.19) pode ser visua-


lizado na forma:

+ (−3) { + px (−3) p y (0 ) + px (−2 ) p y (−1) +
px (−1) p y (−2 ) + px (0 ) p y (−3) + }
+ (−2 ) { + px (−3) p y (1) + px (−2 ) p y (0 ) +
px (−1) p y (−1) + px (0 ) p y (−2 ) + }
+ (−1) { + px (−3) p y (2 ) + px (−2 ) p y (1) + px (−1) p y (0 ) + px (0 ) p y (−1) + }
+ (0 ) { + px (−3) p y (3) + px (−2 ) p y (2 ) + px (−1) p y (1) + px (0 ) p y (0 ) + }
+ (1) { + px (−3) p y (4 ) + px (−2 ) p y (3) + px (−1) p y (2 ) + px (0 ) p y (1) + }


Lendo o somatório de cima para baixo:


∞ ∞
... + ( y − 3) px (−3) ∑ p y ( y ) + ( y − 2 ) px (−2 ) ∑ p y ( y ) +
y =−∞ y =−∞
∞ ∞ (1.20)
+ ( y − 1) px (−1) ∑ p y ( y ) + ( y − 0 ) px (−0 ) ∑ p y ( y ) + ...
y =−∞ y =−∞

Ou seja,
∞ ∞ ∞ ∞

∑ m ∑ p (x ) p (m − x ) = ∑ ∑ ( y + x ) p (x ) p ( y )
m =−∞ x =−∞
x y
x =−∞ y =−∞
x y (1.21)

Portanto:
∞ ∞ ∞ ∞
µM = ∑ ∑ yp (x ) p ( y ) + ∑ ∑ xp (x ) p ( y ) = µ
x =−∞ y =−∞
x y
x =−∞ y = - ∞
x y Y + µX (1.22)

Mas e se as distribuições de probabilidade das variáveis x e y não fos-


sem independentes? Nesse caso, admitindo que x é o evento determinan-
te, a distribuição de probabilidades de y dependeria do valor particular
de x encontrado. Parece complicado, mas estamos acostumados a lidar
com esse conceito no dia-a-dia. Por exemplo, qual é a probabilidade de
encontrarmos um amigo na praia? Se o dia estiver nublado ou chuvoso,
a probabilidade deve ser muito baixa, pois poucas pessoas costumam ir
à praia nessas condições. Se o dia estiver ensolarado, as praias enchem
e aumentam as chances de encontrarmos pessoas conhecidas tomando
seu banho de mar. Nesse caso, o evento principal ou condicionante é o
estado do tempo (x), enquanto encontrarmos uma pessoa conhecida na
praia (y) é o evento secundário ou condicionado. Como a distribuição de
probabilidades de y muda com x, diz-se que a probabilidade de y é con-
dicionada por x, representada usualmente por py(y/x)(lida quase sempre
como probabilidade de y dado x), e que y e x são variáveis dependentes.

40 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

No caso em que a probabilidade de um evento é condicionada por um


outro evento, a Equação (1.13) tem que ser modificada para:
N
P (x1 ,..., xN ) = ∏ p ( x1 ) p ( x2 I x1 )... p ( xN I x1 , x2 ,..., xN −1 ) (1.23)
i =1

Sendo que:


xN =−∞
p ( xN I x1 , x2 ,..., xN −1 ) = 1, ∀ x1 , x2 ,..., xN −1 (1.24)

isto para que seja satisfeita a Equação (1.6), um dos requisitos básicos
da probabilidade.
Dessa forma, se o evento y é condicionado pelo evento x, as Equações
(1.18) e (1.19) ganham a forma:

pm (m ) = ∑ p (x ) p (m − xI x )
x =−∞
x y (1.25)

~ "
Jl., =E{m}=L m L p,(x) p,(m -xf x) (1.26)

De maneira que as Equações (1.21) e (1.22) ficam:

~~., = E{m}= L- m L- fl, (x)p. (m- xlx)


Jl.u
--
= L L (y +x)p_.(x)p_, (ylx)
(1.27)

~ "
J1, =I I )1J, (x )p1 (y/x)+ I I xp,(x) p,(yfx) =
. .. . ..
Jl., =I p.(x) I YP,(yf.Y)+ I xp, (x) I p_,(y/x)= (1.28)

J1., =I
"
p, (x)J.I, (x)+
- xp, (x)=J.l, + J.lx
I

Portanto, as Propriedades 1.1 e 1.3 são sempre satisfeitas, independen-


temente das variáveis serem dependentes ou independentes. Conclui-se
que a Operação Média Aritmética é LINEAR. Isto torna a operação média

Princípios Básicos de Estatística 41


PERTENCE AO N O DE O I

aritmética, definida pela Equação (1.7), extremamente conveniente do


ponto de vista matemático, sendo por isso usualmente escolhida como
melhor maneira de representar o ponto em torno do qual se distribuem
as probabilidades num histograma de probabilidades. A linearidade
da operação média aritmética garante que a média da soma é a soma
das médias e que ao multiplicar a variável por um escalar, a média fica
multiplicada pelo mesmo escalar. Mas o que ocorre se outros operadores
forem aplicados sobre as variáveis x e y?
~1l ~~

E{J(x)}=p1 = I, .f(x,)p(x,)= I, .~P, *.f(J.tx) (1.29)


r•l ••l
Para mostrar a Equação (1.29), podemos usar o Histograma 1 da
Figura 1.9. Por exemplo, admitamos que a operação f(x) = x2 é aplicada
sobre o histograma. Neste caso, o valor médio obtido é:

Portanto, a linearidade da média não permite afirmar que o valor


médio de uma função aplicada sobre o histograma é o valor da função
calculada no ponto médio do histograma. Isso só é verdadeiro se a função
for linear. Por exemplo,
E{.r(x) =ax+ f3} = aE{ x}+ j3 = a~tx + f3 = .f(J.Ix )

Exemplo 1.5 – Suponhamos que um cidadão jogue uma moeda


para o alto três vezes e que receba 1 real por cada cara que tirar.
Se o experimento for repetido N vezes, quanto o cidadão ganhará
na média?
Primeiramente é interessante perceber que o experimento “jogar
a moeda” resulta em resultados independentes, de forma que a
Equação (1.13) pode ser aplicada. Portanto, pode-se imaginar que
cada configuração particular de três resultados tem probabilidade
pi = 1/2 ⋅1/2 ⋅1/2 = 1/8 , já que a probabilidade de cada resultado
(cara ou coroa) é sempre igual a 1/2. Vejamos:

3 coroas
Nenhuma cara
(1 possibilidade)

42 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

1 cara
Apenas uma cara
(3 possibilidades)

2 caras
Apenas duas caras
(3 possibilidades)

Três caras (1 possibilidade)

Portanto, o histograma de probabilidades tem a forma:


0 cara - 1/8 das vezes 1 cara - 3/8 das vezes
2 caras - 3/8 das vezes 3 caras - 1/8 das vezes

cuja média é

O dinheiro total arrecadado é uma transformação linear do


histograma e pode ser dado na forma f(x) = Nx. Portanto,
p1 =NJlx = l .SN
.

1.6. Os Conceitos de Espalhamento,


Variância e Covariância
Considere os histogramas da Figura 1.9 e da Figura 1.11 mostrada abaixo.
Em ambos os casos, as médias dos histogramas apresentados são idên-
ticas. No entanto é óbvio que as distribuições são muito diferentes. No
segundo histograma da Figura 1.9 e no primeiro histograma da Figura
1.11, apenas um valor é possível. Logo, não há qualquer dúvida sobre a
observação que será feita após o experimento. É como colocar uma úni-
ca pedra de bingo no interior de um saco e perguntar que número será

Princípios Básicos de Estatística 43


PERTENCE AO N O DE O I

sorteado. No segundo caso, há um espalhamento de possíveis valores


em torno do valor médio e não é possível mais garantir o resultado do
experimento. No primeiro histograma da Figura 1.9, dois resultados são
possíveis, enquanto 7 diferentes resultados são possíveis no histograma
2 da Figura 1.11. Portanto, pode ser dito de forma pouco precisa que o
resultado do experimento descrito pelo segundo histograma da Figura
1.11 é o mais incerto dentre todos os histogramas analisados.
P, ,.,
I ----
'"'

'
P.x= 4
X

Figura 1.11 - Exemplos de histogramas bem diferentes,


mas com médias iguais.

Quando um único resultado é possível em um histograma, diz-se que a


distribuição de probabilidades é singular ou monodispersa e que a popu-
lação de resultados possíveis é uniforme ou homogênea. Caso contrário, o
histograma é dito polidisperso, enquanto a população de resultados é dita
heterogênea. Portanto, a definição de uma grandeza que possa caracterizar
de forma precisa a heterogeneidade da população a partir da distribuição
de probabilidades parece ser bastante útil, já que as Figuras 1.9 e 1.11
ilustram que diferentes histogramas podem apresentar diferentes graus
de espalhamento, apesar de terem a mesma média aritmética.
Várias maneiras distintas podem ser usadas para caracterizar o espa-
lhamento. Uma das formas mais simples e intuitivas de caracterização
do espalhamento é usar o conceito de banda. A banda pode ser definida
como a diferença entre o maior e o menor resultados admissíveis da
distribuição. Assim,
banda = xmax – xmin (1.30)
Embora muito usada em problemas práticos, essa definição de espalha-
mento não é muito adequada para estudo da maior parte dos problemas.
Primeiramente, ela não resulta em propriedades matemáticas convenientes,
como a linearidade da operação de média. Em segundo lugar, essa definição
não permite caracterizar de forma adequada o espalhamento de histogramas
que admitem infinitos resultados, como analisado nas próximas seções. E
até quando a banda pode ser definida de forma precisa, como na Figura 1.12
abaixo, ela não reflete o fato de que o grau de homogeneidade dos resultados

44 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

pode ser muito diferente mesmo quando o número de resultados possíveis é


idêntico. Por exemplo, é muito mais provável obter como resultado do expe-
rimento um valor próximo do valor médio no segundo histograma da Figura
1.12 do que no primeiro histograma dessa figura. Por isso, parece razoável
dizer que a população de resultados do segundo histograma é mais homogê-
nea, a despeito da banda resultar no mesmo valor em ambos os casos.
I'
Sli ....
I'

Figura 1.12 - Exemplos de histogramas com diferentes graus de


homogeneidade, mas com bandas iguais.

Uma outra forma muito comum de definir o espalhamento é usar o


conceito de percentil. Diz-se que os percentis, representados aqui como
xi%, são os valores que separam regiões de resultados admissíveis com
probabilidades iguais a um certo valor estabelecido, como por exemplo
1%. Assim,
P(x1 Sx,•• )= io/() (1.31)

e
(1.32)

Baseado nos percentis, é possível redefinir a banda de forma mais


adequada, como por exemplo:
bandap% = x(100 – p)% – xp% (1.33)
Dessa forma, a banda definida pela Equação (1.30) seria equivalente à
banda0% definida pela Equação (1.33). Para definição do espalhamento, é
muito utilizado o conceito de quartil, que nada mais é do que o conjunto
constituído por x0% = xmin, x25% ,x50% , x75% , x100% = xmax, que divide o histo-
grama em quatro regiões de probabilidades iguais a 25%. Nesse caso:
banda25% = x75% – x25% (1.34)
As Equações (1.33-34) permitem eliminar dois defeitos embutidos
na definição original de banda: tornam possível a caracterização de
espalhamento em problemas com infinitos resultados admissíveis e são

Princípios Básicos de Estatística 45


PERTENCE AO N O DE O I

sensíveis a mudanças de espalhamento como os ilustrados na Figura


1.12. No entanto, a manipulação matemática de expressões envolvendo
percentis não é simples. Além disso, da mesma forma que no caso da
definição da moda e da mediana, a definição dos percentis pode não ser
precisa. Por exemplo, no segundo histograma da Figura 1.12 é fácil defi-
nir os percentis x1%=1, x3%=2, x6%=3, x94%=4, x97%=5, x99%=6 e x100%=7.
Contudo, e os demais 94 percentis? Como defini-los de forma inequívoca
a partir do histograma? Dessa maneira, a definição da banda25% baseada
nos quartis não seria possível nesse caso.
Uma forma precisa e conveniente de se caracterizar o espalhamento é
utilizar o conceito de média desenvolvido anteriormente. Por exemplo, o
espalhamento médio poderia ser definido como a média das diferenças
observadas entre os vários resultados possíveis e o valor médio desses
resultados, na forma
SR
E{lx,- J.lxl} = LP;lx,- J.lxl (1.35)
r-1

Para os histogramas 1 e 2 da Figura 1.12, os resultados seriam res-


pectivamente iguais a:

Os resultados obtidos refletem exatamente o sentimento de que o


grau de espalhamento no segundo caso é menor que no primeiro. Além
disso, a obtenção das medidas de espalhamento pode ser feita direta-
mente a partir do histograma de probabilidades, sem que haja qualquer
ambigüidade. No entanto, a Equação (1.35) tem o inconveniente de usar
o módulo da diferença como medida de distância. Como o módulo é uma
função descontínua, isso causa certos inconvenientes de manipulação
matemática e induz a definição do conceito de variância.
Define-se como variância de x (representada por Var{x},
E{(x-µX)2}, σ2XX, σ2X ou simplesmente σ2) a média do quadrado das dife-
renças observadas entre os vários resultados possíveis e o valor médio
desses resultados, na forma

46 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

(1.36)

Para os histogramas 1 e 2 da Figura 1.12, os resultados seriam res-


pectivamente iguais a:
1 2 3 5
(1 − 4 ) + (2 − 4 ) + (3 − 4 ) + (4 − 4 ) +
2 2 2 2
σ XX
2
=
17 17 17 17
3 2 1 40
+ (5 − 4 ) + (6 − 4 ) + (7 − 4 ) =
2 2 2

17 17 17 17

1 2 3 88
(1 − 4 ) + (2 − 4 ) + (3 − 4 ) + (4 − 4 ) +
2 2 2 2
σ XX
2
=
100 100 100 100
3 2 1 40
(5 − 4 ) + (6 − 4 ) + (7 − 4 ) =
2 2 2
+
100 100 100 100
Comparada às diferentes medidas de espalhamento apresentadas
anteriormente, a definição de variância apresenta muitas vantagens.
Primeiramente, a variância pode ser obtida diretamente do histograma
de probabilidades sem qualquer ambigüidade. Em segundo lugar, a uti-
lização das operações de média e do quadrado da distância em relação
à média permite a manipulação relativamente simples de expressões
matemáticas, como será mostrado a seguir. No entanto, da mesma forma
que no caso da definição da média, o usuário deve resistir à tentação de
explicar em bases físicas e concretas o significado da variância. A variân-
cia deve ser encarada apenas como uma medida matemática conveniente
de espalhamento, e que por isso pode ser utilizada para caracterizar
e comparar histogramas também de forma matemática conveniente.
Algumas propriedades relevantes da operação de cálculo da variância
são apresentadas a seguir.

 Propriedade 1.4 – A variância é um número positivo, sendo igual a zero


se e somente se a distribuição de probabilidades é monodispersa.
A comprovação dessa propriedade a partir da Equação (1.36) é trivial.
Como cada uma das parcelas da soma representada pela Equação (1.36)
é positiva ou nula, então a variância tem que ser necessariamente um
número positivo. Se a distribuição é monodispersa, como no primeiro
histograma da Figura 1.11, apenas um termo tem probabilidade diferente
de zero. Nesse caso, como para esse termo o resultado admissível coinci-
de com a média, a variância fica identicamente nula. Por outro lado, se
a variância é nula, todos os termos da soma têm que ser iguais a zero.

Princípios Básicos de Estatística 47


PERTENCE AO N O DE O I

Nesse caso, ou as probabilidades são iguais a zero ou os resultados para


os quais as probabilidades não são iguais a zero são iguais ao valor médio.
Portanto, a distribuição tem que ser necessariamente monodispersa.

 Propriedade 1.5 – Sejam o conjunto (xi, pi) um histograma de proba-


bilidades e α um escalar. Então, Var{αx} = α2Var{x}.
NR XU
Var{ax} =I p, (ax,- Jla.r } =I p, (ax, - apx?
1

••• ••• (1.37)


.\'R
Var{ax}=a' I p, (x,- Jlx )~ = a 'Var{x}
•=I
Portanto, ao multiplicar os resultados possíveis por um escalar α
qualquer, a variância fica multiplicada pelo quadrado do escalar α.

 Propriedade 1.6 – Sejam o conjunto(xi, pxi) e (yi, pyi) dois histogramas


de probabilidades de eventos independentes. Então, Var{x+y} =
Var{x} + Var{y}. Para que seja possível demonstrar essa propriedade,
é preciso lembrar que:

Var{x+ y} = E{[{x+ y)-J.lX+I' J (1.38)

Inserindo a Equação (1.22) na Equação (1.38), chega-se a:

Var {x+ y} = E{[(x+ y) - (J.Ix + J.lr}J} (1.39)

O termo quadrático da Equação (1.39) pode ser aberto, resultando em:

Var{x + y}= E{[(x- .u,. )+(y- .Ur JT} =


E{(x - .U.,. )' + 2(x- Jlx )(y- .Ur ) +(y - .Urn=
E{(x - .Ux )' }+ 2E{(x - ,u, )(y- J11 )}+ E{(y- Jl1 ) ' } :

Var{x}+2Covar{x,y }+ Var{y}
(1.40)
Na Equação (1.40), define-se como covariância entre as variáveis
x e y, representada por Covar{x,y} ou simplesmente s2XY, à seguinte
operação de média:

48 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

a .i,. = Covar{ x, y} = E{(x- Jl.r )(y- .Ur )} (1.41)

Para que a operação de covariância seja compreendida, é conveniente

. -
escrever a Equação (1.41) na forma:

a~,. = L pzCx) L P,. (y fx)(x- .Ux )(y - J.lr) (1.42)

onde a soma dupla identifica todas as possíveis combinações de resul-


tados que podem ser obtidas a partir dos dois histogramas de probabi-
lidades. Se os eventos x e y são independentes, então:

a.~· = L- Px(x) L,- py(y)(x-.ux )(y-.ur)=


L- Px(x)(x- .Ux) L- P.•(y)(y - .Ur)= (1.43)

-L Px(x)( X- J.lx )(J.Ir - J.lr) = 0


Portanto, quando os eventos são independentes, a covariância entre
os resultados obtidos a partir dos dois experimentos é igual a zero. Por
isso, a covariância é usada com freqüência como uma medida de inde-
pendência entre resultados obtidos a partir de diferentes experimentos.
(Essa técnica de inferência do grau de dependência entre variáveis, no
entanto, deve ser usada com cautela. Como será mostrado posterior-
mente, a afirmação inversa não é necessariamente verdadeira; ou seja,
resultados de experimentos distintos podem ser fortemente dependentes
uns dos outros, resultando contudo em covariância igual ou próxima
de zero.) Assim, se os resultados dos experimentos x e y são indepen-
dentes, e portanto resultam em covariância nula, a Equação (1.40) fica
finalmente na forma:
Var{x + y} = Var{x} + Var{y} (1.44)
Se os resultados obtidos para x e y não são independentes, então a
Equação (1.42) tem que ser escrita na forma:

Princípios Básicos de Estatística 49


PERTENCE AO N O DE O I

O".~T =
-
L Px(x)(x- Jlx ) L - py(yj x)(y-p, }=

" "
L p, (x)( x- Jlx )(Jlr·x - J1
·-L
"
L
-
1 )

"
= L p, (x)Jlr . (x - Jl.r) =
1

p.,(x)XJlr ' - Jlx Jlr· =


-- P,(x)xJir (x)- Jlx!lr

que é uma operação de média conjunta dos valores de x e de como a


(1.45)

média de y depende de x. A Equação (1.45) mostra também de uma outra


forma que a covariância entre eventos independentes é igual a zero. Para
tanto, basta fazer J.lr x = J.lr .

Exemplo 1.6 – Para o dado ideal dos Exemplos 1.2 e 1.3, a variância
pode ser calculada como:
1 1 1
(1 − 3.5) + (2 − 3.5) + (3 − 3.5) +
2 2 2
σ2 =
6 6 6
1 1 1 17.5
(4 − 3.5) + (5 − 3.5) + (6 − 3.5) =
2 2 2

6 6 6 6

Exemplo 1.7 – Para o dado ideal dos Exemplos 1.2 e 1.3, suponha
que dois dados são lançados simultaneamente em um jogo e que
a soma dos valores obtidos é usada para movimentar as pedras
do tabuleiro. Nesse caso, a distribuição de probabilidades dos
valores obtidos pode ser obtida da seguinte forma:

Tabela 1.2 - Distribuição de probabilidades da soma dos


valores obtidos a partir do lançamento de dois dados ideais.
Valores
1 2 3 4 5 6 7 8 9 10 11 12
Admissíveis
1:6
1:5 2:6
1:4 2:5 3:6
1:3 2:4 3:5 4:6
1:2 2:3 3:4 4:5 5:6
Combinações - 1:1 2:2 3:3 4:4 5:5 6:6
2:1 3:2 4:3 5:4 6:5
3:1 4:2 5:3 6:4
4:1 5:2 6:3
5:1 6:2
6:1
Probabilidade 0 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

A Figura 1.13 a seguir mostra o histograma com a distribuição


de probabilidades do problema considerado.

50 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

··~
IJ,J6 r-

0.1..

~ o.l:
• ..-
- !"'""

,....
3 0,11
~
l I),O!f r-· r-
E. 1
...
0.16 .

l • ..• nr-"
f"""

o.t:: .
O.M
[J 1.

! J
'Snma' dos •l>oi5 l l~t'SU.Irados
10 II

-. -.
Figura 1.13 - Distribuição de probabilidades da soma dos valores
obtidos a partir do lançamento de dois dados ideais.

A partir da distribuição de probabilidades da Tabela 1.2 e da


Figura 1.13, é possível obter os seguintes valores para a média
e para a variância:

J.l.\.- t = 1 ~+ 2 - + 3~+ 42_+5~ + 62._+7~ +


1
36 36 36 36 36 36 36
5 4 3 2 I 252
8- +9 - + 10 - +11 - +12- = - =7
36 36 36 36 36 36

~4= :(1-7Y+!~-7t+!(l-7Y + ~~-7Y+~~-7Y+


5 1 6 ~ s . -l ~ J •
36(6-7)' ~ 36(7 - 7)' ~ 36(8 - 7)' + 36(9-7)' ~ 36(10-7)' +
~(1 1 - 7)' +...!...(12- 7)' =210 =35
36 36 36 6

Como os experimentos dos lançamentos dos dados são indepen-


dentes, as Equações (1.22) e (1.44) dizem que:

Jlx+r = Jlx+ Jlr = 3.5 +3.5 = 7


, - - 17.5 17.5 35
O'_i·· r = O'.f +O'i =6 + 6 = 6
que confirmam os resultados obtidos anteriormente.

Princípios Básicos de Estatística 51


PERTENCE AO N O DE O I

Exemplo 1.8 – Para o dado ideal dos Exemplos 1.2 e 1.3, suponha
que dois dados são lançados em seqüência em um jogo e que a
soma dos valores obtidos é usada para movimentar as pedras do
tabuleiro. No entanto, uma regra do jogo impõe que se o valor
obtido no primeiro conjunto de dados for 1, 2 ou 3, o segundo
valor só é aceito se for igual a 4, 5 ou 6, e vice-versa. Nesse caso,
a distribuição de probabilidades dos valores obtidos pode ser
obtida da seguinte forma:

Tabela 1.3 - Distribuição de probabilidades da soma dos


valores obtidos a partir do lançamento de dois dados ideais,
com regra definida no Exemplo 1.7.
Valores
1 2 3 4 5 6 7 8 9 10 11 12
Admissíveis
1:6
1:5 2:5 2:6
1:4 2:4 3:4 3:5 3:6
Combinações - - - - - - -
4:1 4:2 4:3 5:3 6:3
5:1 5:2 6:2
6:1
Probabilidade 0 0 0 0 1/9 2/9 3/9 2/9 1/9 0 0 0

A Figura 1.14 abaixo mostra o histograma com a distribuição de


probabilidades do problema considerado. A Figura 1.15 mostra
as distribuições de probabilidade do dado ideal no primeiro
lançamento e no segundo lançamento, segundo as regras esta-
belecidas.

Figura 1.14 - Distribuição de probabilidades da soma dos valores


obtidos a partir do lançamento de dois dados ideais.

52 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

...
~ •
~OJ
•]•

e .•
"' 0'
""

J
'
Figura 1.15 - Distribuições de probabilidades dos resultados durante
o primeiro lançamento e durante o segundo lançamento.

Para o primeiro lançamento, os Exemplos 1.2, 1.3 e 1.6 mostram


que µX = 3.5 e σ X2 = 17.5I 6 . Para o segundo lançamento esses
valores têm que ser recalculados, pois os resultados do primeiro
lançamento interferem nos resultados obtidos no segundo lan-
çamento. Assim, para o cálculo da média dos valores obtidos no
segundo lançamento,

onde os termos entre parênteses representam a probabilidade do


resultado ser obtido no segundo lançamento, dados os resultados
obtidos no primeiro. Para o cálculo da variância dos resultados
obtidos no segundo lançamento,

ai = ±. (y 1 - p, )' [± p, (x,) P. (y, I x,)] = (1-3.5)' (.!.)+


6
(2-3.5)' (.!.)+
6

:s
•=I J=l

+(3 - 35)'( ~)+(4-3.5)' ( ~)+(5- 35)' ( ~)+ (6-3.5)' ( ~) = I

Princípios Básicos de Estatística 53


PERTENCE AO N O DE O I

Assim, apesar das distribuições de probabilidade serem bastante


diferentes no primeiro e no segundo lançamento e dos resulta-
dos obtidos não serem independentes, as médias e variâncias
em ambos os casos são idênticas. A partir da distribuição de
probabilidades da Tabela 1.3 e da Figura 1.14, é possível obter os
seguintes valores para a média e para a variância da soma dos
resultados:
0000123210 0 063
11 = 1- + 2-+ )-+4-+ 5-+6-+ 7- +8- + 9-+ 10-+1 1-+12- = - =7
X •J 9 9 9 9 9 9 9 9 9 9 9 9 9

.
" i-r - 1-7), + -0 (2-7)' + 0- (>-7
• 0( • )' 0
+- (4-7), + -I (5-7), + -2 (6-7), +
'9 9 9 9 9 9
3 • I • 0 • 0 ~ 0 · J? S
9
2
9

+-(7- 7)" + -(8-7)" +-(9- 7)" +-(10- 7)" +-(11 - 7)" +-(12- 7)"
9 9 9 9
=-==
96
-
Como os experimentos dos lançamentos dos dados nesse caso
não são independentes, é necessário calcular a covariância entre
os resultados obtidos do primeiro e do segundo lançamento dos
dados através, por exemplo, da Equação (1.45). Nesse caso, o valor
médio obtido do segundo lançamento µY(x) é igual a 5, se i = 1,
2 ou 3, e é igual a 2, se x = 4, 5 ou 6. Portanto,

O valor negativo da covariância indica que o valor obtido do se-


gundo lançamento tende a diminuir se o valor obtido do primeiro
lançamento aumenta.
Utilizando-se a Equação (1.22) para cálculo do valor médio da
soma dos resultados, obtém-se:

Jlx+r = Jlx + Jlr = 3.5+ 3.5 = 7


que confirma os resultados anteriores. Utilizando-se a Equação (1.40)
para cálculo da variância da soma dos resultados, obtém-se:

que também confirma os resultados obtidos anteriormente.

Exemplo 1.9 – Para o dado ideal dos Exemplos 1.2 e 1.3, suponha
que um único dado é lançado para gerar simultaneamente dois

54 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

números. O primeiro número é o valor obtido do experimento.


O segundo resultado é escolhido de acordo com uma regra bem
simples: para x = 1 ou 2, y = 6; para x = 3 ou 4, y = 1; para x
= 5 ou 6, y = 6. Portanto, o grau de dependência entre os dois
resultados é total e determinística.
A Equação (1.45) é utilizada para calcular a covariância entre as
medidas x e y. Para tanto, a média µY pode ser calculada como:

1 1 1 I 1 I 26
p =-6+-6+- 1+ - 1+ -6+-6=-
' 666666 6
enquanto a covariância pode ser calculada como:
2 I I I I • I I 26 91 91
(1 = 1- 6+ 2- 6+3 - 1+ 4- 1+>- 6+6- 6-3.5- = - - - = 0
.IT 6 6666 6 666
Portanto, apesar das variáveis x e y estarem completamente cor-
relacionadas, a covariância entre as duas variáveis no problema
proposto é igual a zero. Isso mostra que o fato da covariância ser
igual a zero não implica necessariamente que as medidas sejam
de fato independentes.

É importante observar na Equação (1.41) que a covariância representa


uma expectativa de variação conjunta dos resultados obtidos a partir de
diferentes experimentos. Se a covariância entre duas variáveis x e y é um
número positivo, a Equação (1.41) indica que flutuações do resultado do
experimento x acima da média são também normalmente acompanhadas
de flutuações do resultado do experimento y acima da média, e vice-
versa. As variáveis apresentam, portanto, algum grau de dependência
direta. Se a covariância entre duas variáveis x e y é um número negativo,
a Equação (1.41) indica que flutuações do resultado do experimento x
acima da média são também normalmente acompanhadas de flutuações
do resultado do experimento y abaixo da média, e vice-versa. As variáveis
apresentam, portanto, algum grau de dependência inversa. Portanto,
a covariância pode ser um importante elemento para análise do grau
de dependência funcional existente entre variáveis distintas, a despeito
dos resultados apresentados no Exemplo 1.9. A covariância não é uma
medida absoluta de dependência funcional porque ela não leva em con-
sideração que a variável y pode ora aumentar com a variável x em alguns
intervalos, ora diminuir com a variável x em outros intervalos, como
no caso do Exemplo 1.9. Em outras palavras, a operação de covariância

Princípios Básicos de Estatística 55


PERTENCE AO N O DE O I

não consegue detectar de forma adequada a existência de dependência


não-linear entre x e y.
Para fins de manipulação de expressões matemáticas é importante ob-
servar que a operação de covariância satisfaz as seguintes propriedades:

 Propriedade 1.7 – Sejam os conjuntos (xi, pxi) e (yi, pyi) dois histogra-
mas de probabilidades e α e β dois escalares. Então, Covar{αx,βy}
= Covar{βy,αx} = αβCovar{x, y}.
{ }
Covar {α x , β y}= Ε (α x − µα X )(β y − µ β Y ) = Ε {(α x − αµ X )(β y − βµY )}=
Ε {αβ (x − µ X )( y − µY )}= αβΕ {(x − µ X )( y − µY )}= αβ Covar {x, y}

(1.46)
Portanto, ao multiplicar os resultados possíveis por escalares α e β
quaisquer, a covariância fica multiplicada pelos mesmos escalares.

 Propriedade 1.8 – Sejam os conjuntos (xi, pxi), (yi, pyi) e (zi, pzi) três
histogramas de probabilidades. Então, Covar{x,y+z} = Covar{x,y}
+ Covar{x,z} e Covar{x+z,y} = Covar{x,y} + Covar{z,y}.
{ }
Covar {x, y + z}= Ε (x − µ X )(( y + z ) − µY + Z ) =

{ } {
Ε (x − µ X )(( y + z ) − (µY + µ Z )) = Ε (x − µ X )(( y − µY ) + (z − µ Z )) = }
Ε {(x − µ X )( y − µY )}+ Ε {(x − µ X )(z − µ Z )}= Covar {x, y}+ Covar {x, z}

(1.47)
Portanto, ao somar os resultados possíveis de distribuições de proba-
bilidade distintas, a covariância fica somada de forma análoga.
Como a variância σ2X tem dimensão do quadrado da variável x (de
x2, portanto) é útil definir o desvio padrão da variável x, representado
como σX, como

a_\. =g (1.48)
O desvio padrão é uma medida adequada de espalhamento na escala
métrica da variável x, obtida a partir da operação de cálculo da variância.
Como veremos nas próximas seções, o desvio padrão pode ser somado à
média para fornecer regiões onde estão concentrados os resultados mais
prováveis, dentro de um certo limite de confiança.
Uma outra normalização freqüentemente utilizada para definir a
variância é o chamado índice de polidispersão, IP. O índice de polidisper-
são, polidispersividade ou simplesmente polidispersão é uma medida
relativa da variância da distribuição, na forma:

56 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

=l+ (1.49)

O índice de polidispersão é, portanto, uma medida do grau relativo


de espalhamento em relação à média, encontrando várias aplicações
práticas para interpretação de problemas físicos reais.
Como a covariância σ2XY tem dimensão das variáveis x e y simultane-
amente e como a magnitude dessas variáveis pode mudar de problema
para problema, é conveniente definir uma forma normalizada para o
grau de dependência funcional linear entre as variáveis x e y. A forma
normalizada mais usada é o chamado coeficiente ou fator de correlação
linear, ou simplesmente coeficiente ou fator de correlação, representado
como ρXY e definido como:
σ XY
2
ρ XY = (1.50)
σ XσY
Quando as variáveis x e y são independentes, σ2XY = 0 e ρXY = 0. Quan-
do y = αx + β, então µY = αµX + β, σ2Y= α2σ2X , σ2XY = ασ2X e ρXY = ± 1,
dependendo se α é positivo ou negativo respectivamente. É interessante
observar que isso implica na validade da seguinte relação:
−1 ≤ ρ XY ≤ 1 (1.51)
que mostra que o processo de normalização definido pela Equação (1.50) é
bastante eficiente. Se as variáveis x e y estão relacionadas linearmente na
forma direta, ρXY = 1; se as variáveis x e y estão relacionadas linearmente
na forma inversa, ρXY = –1; se as variáveis x e y são independentes, ρXY =
0. Quanto mais próximo de 1 o valor absoluto de ρXY, mais perfeito o grau
de correlação linear entre as variáveis x e y. Quanto mais próximo de 0 o
valor absoluto de ρXY = 0, maior o grau de flutuação independente das
variáveis (o que pode indicar independência verdadeira entre os experi-
mentos, mas também pode indicar a existência de erros pronunciados de
medição ou influência de outras variáveis sobre o experimento) ou maior
o grau de não-linearidade da dependência funcional entre x e y.
A Figura 1.16 procura ilustrar como a presença de dependência não-
linear entre as variáveis x e y provoca redução do fator de correlação.
Observe que no primeiro gráfico, em que a relação é linear, sempre que
x se eleva em relação ao valor médio, o mesmo ocorre com a variável y.
No entanto, quando a relação é não-linear, as médias estão deslocadas
no plano do segundo gráfico. Isso faz com que existam regiões onde
a variável x está acima da média e a variável y está abaixo da média,
contribuindo para a redução da covariância entre x e y.

Princípios Básicos de Estatística 57


PERTENCE AO N O DE O I

)'

'0
-------L--
y < JJ·
L--~~ < p;rl '
y< ~:

)t
'

Figura 1.16 - Ilustração do efeito da não-linearidade sobre


o cálculo da covariância.

Como já discutido anteriormente, o que o coeficiente de correlação


linear mede de fato é se existe alguma tendência de variação linear entre
x e y; ou seja, se um aumento de x provoca um aumento proporcional
em y. Portanto, coeficientes de correlação devem ser usados com cautela
para a interpretação de resultados, como ilustrado na Figura 1.17.
y y

• •
• •
• • • •
• • •

••
• •
• • •

~>xr= 0. Fh.nua~Ots iDCitp~dentts


·' <>u Rn= I Depen~3lit~utft'lttex ey.
X

efei~s de oulras va.n{·leis..


y
J'
...•.•
••
• ••

• ••••
• • ••


• .·..
• ••

P,u• O Padriode depmdCncianio linear


·' Pxr-. 1. x ey s-.io indepc:ndcntes ou nio?
X

enlze x ey,

Figura 1.17 - Padrões típicos de dependência entre x e y e respectivos


coeficientes de correlação.

É muito interessante notar que na definição de média introduzida


pela Equação (1.7) tem-se:

58 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

NR
Jlx = I, p,x, (1.7)
i=l
Por sua vez, na definição de variância proposta pela Equação (1.36)
tem-se:
~~ ~R

a.~.. =I, p, (x, - J.lx ) =I, p, (x;- 2 X.J.lx + J.l~-) =


2

••1 J•l
l\'R NR SR NR
(1.52)

I, p,x,2 - 2J1x I, p,x, + {I~ I, P. =I, P.X?- Jl~


t =l 1=1 t=1 J=l
Com freqüência, expressões na forma:
Sl!
(k) - ~
Jlx - .c...P.x,lt (1.53)
i= l

aparecem na análise estatística. Estas expressões são chamadas de momen-


tos estatísticos ou momentos da curva de distribuição de probabilidades.
Dessa forma, a média e a variância poderiam ser definidas como:
,\1!

Jlx =I, p,x, =Jl~? (1.54)


i=l
NR -.
> ~ > ' (~) [ (I) ] -
<r.i_,- = .c...P,X'( - Jl.i· = Jlx - f.lx (1.55)
i-=1
de maneira que é possível afirmar que a operação de média registra o
primeiro momento da curva de distribuição, enquanto a operação de
cômputo da variância registra o segundo momento da curva de distribui-
ção. Momentos estatísticos adicionais podem ser também calculados, já
que infinitas distribuições de probabilidade distintas podem apresentar
a mesma média e variância. Por exemplo, o momento de ordem 3, nor-
malmente registrado na forma:

(1.56)

fornece informações sobre a assimetria da distribuição de probabilidades,


sendo por isso chamado de fator de assimetria. Baseado na dependência
cúbica utilizada para definição do fator de assimetria da distribuição,
não é difícil compreender que valores positivos do fator de assimetria
são resultantes de distribuições muito alongadas no sentido positivo do

Princípios Básicos de Estatística 59


PERTENCE AO N O DE O I

eixo dos resultados, e vice-versa. O momento de ordem 4, por sua vez,


normalmente registrado na forma;

I p, (x,- Jlxt] ~
11

[
--
k.\.. - "-''.;.;•I:.__ _ _ __.:.._
(1.57)

a,,.
e chamado de kurtose, pode ser associado ao formato achatado ou
alongado da distribuição de probabilidades, mostrar multimodalidades,
e assim por diante.
É importante observar que uma distribuição de probabilidades possui
infinitos momentos e que, de forma inversa, os infinitos momentos da
curva de distribuição precisam ser especificados para que a curva de
distribuição possa ser especificada também de forma inequívoca. Por-
tanto, a informação completa contida no histograma de probabilidades
não pode jamais ser substituída por uma coleção finita de momentos
estatísticos, como a média e a variância.

Exemplo 1.10 – Suponha que uma distribuição de probabilidades


definida no intervalo discreto (0, ∞) possa ser definida como:

onde q é um número real positivo 0 < q < 1 e α0, α1 e α2 são


escalares reais. Nesse caso, para especificar a média e a variância
é necessário fazer:

- - -
,uj"l == I == aoL q•-• +a, L ;q•-• + a1L i2q'-'
t=l r-1

== == aoL-;q•-• + a,L-
p jil J11
-
+ a 2L pq•-•
;lq•-•

- - -
pfl == ai +Pi == aoL i q'-' +a,:LP£;-' + a2:L;V-1
2

1•1 ••I 1•t

São, portanto, três equações e quatro incógnitas, havendo infi-


nitas distribuições de probabilidade distintas com a forma geral
proposta, com a mesma média e a mesma variância. Não é difícil
compreender que a forma geral proposta pode ser estendida
para um grau arbitrariamente grande da expansão polinomial,

60 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

resultando na necessidade de se especificar um número arbitra-


riamente grande de momentos estatísticos para fixar de fato a
distribuição.
Admitindo-se que µI = 100 e σI = 100, pode-se obter, por exemplo,
as distribuições de probabilidade apresentadas na Figura 1.18a,
para distintos valores de q e de α0, α1 e α2 apresentados na Tabela
1.4. Fica assim patente que a especificação da média e da variância
(ou de um conjunto finito de momentos) não é suficiente para
definir inequivocamente a curva de distribuição de probabilidades
que as originou. Portanto, a média e a variância não substituem
a informação contida no histograma de probabilidades.
,., .,

••
•••
~

•.~ ........
......
-···-
····-·-- J.·~·
.... (
i ..,-_.,
-··-
~
···-
···-
__ _- - .. ..
~

••• l•• ... J


-
........• • • ... m
,,
• • -
Figura 1.18 - Diferentes distribuições de probabilidade com µI = 100
e σI = 100. (a) Formato 1; (b) Formato 2.

É importante observar que a forma da distribuição não precisa


necessariamente estar no mesmo formato fixado anteriormente.
Por exemplo, histogramas bastante distintos que apresentam µI =
100 e σI = 100 são também apresentados na Figura 1.18b. Nesse
caso, admitiu-se que:

P; = icF' (a. +a,i+ a/)


de maneira que:

- -
Jl)'') = I = a0 L, iq'"' +a, L, Pq•·•+a1 L, i3q'"'
-
i=l o=l •=1

-
J.l)'l =Jl, =aoL,i2q•-•+ ~ L,Pq•-•+ a 2L,;•q•-•
-
1•) 1• l 1•1

J1)1J
-
= CJi + Jli = ao:L,h /-' +a, L, ;•q~• +a2L,isq•-•
- -
t=l 1=1 i=l

Princípios Básicos de Estatística 61


PERTENCE AO N O DE O I

Tabela 1.4 - Valores usados para construir os histogramas da Figura 1.18.


Formato 1
q α0 α1 α2
-2
0.980 2.08329x10 -4.37231 x10-4 4.24820 x10-6
-2
0.985 1.14248 x10 -6.50240 x10-6 4.54385 x10-7
-2
0.990 1.00510 x10 -1.01785 x10-6 2.55075 x10-9
0.995 8.78147 x10-3 -2.52360 x10-5 1.58613 x10-8
Formato 2
q α0 α1 α2
0.980 .800299E-03 -.816820E-05 .277772E-07
0.985 .503770E-03 -.338219E-05 .642642E-08
0.990 .299008E-03 -.150007E-05 .167516E-08
0.995 .106157E-03 -.312896E-06 .182948E-09

1.7. Extensão dos Conceitos de Distribuição, Média


e Variância para Variáveis Contínuas
Tudo o que foi visto até aqui é perfeito para variáveis discretas. Por
exemplo, o valor que sai do dado ou é 1, 2, 3, 4, 5 ou 6; o resultado
esperado ao se jogar uma moeda para o alto ou é cara ou é coroa. Mas
uma grande parte dos problemas de interesse prático envolve variáveis
contínuas e não enumeráveis. Por exemplo, qual é o tempo de vida de
uma lâmpada incandescente? Qual é o grau de conversão de um regente
químico que deve ser esperado na corrente de saída de um reator? Para
que percebamos a diferença que existe entre os dois tipos de variáveis,
suponha que todos os números reais contidos no intervalo [0,1] são
acondicionados em um saco. O experimento então consiste em sortear
um desses números, supondo que todos os números estão perfeitamente
embaralhados. Qual deve ser então a probabilidade de se retirar o nú-
mero 0.5 do saco?
Em um bingo de verdade, a probabilidade de se retirar um número
inteiro qualquer entre 0 e 99 (incluindo esses extremos) escrito em uma
das 100 pedras do jogo é exatamente igual a 1% (1/100), se as pedras
estão perfeitamente misturadas. Isso ocorre porque a probabilidade de
que qualquer uma das 100 pedras seja sorteada é a mesma. No caso do
problema proposto no parágrafo anterior, há infinitos números naturais
contidos no intervalo [0,1]. Logo, a probabilidade de que qualquer desses
números seja sorteado é sempre igual a zero, de maneira que o histogra-
ma que representaria o problema seria trivial. Esse tipo de dificuldade de
interpretação ocorre sempre que uma variável contínua é analisada. Por
exemplo, qual a probabilidade de se encontrar uma pessoa com altura
igual a 1.733333... m na cidade do Rio de Janeiro, respeitadas todas as
infinitas casas decimais da dízima periódica (se isso fosse possível com o

62 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

nosso sistema de medida, o que não é absolutamente verdade)? Portanto,


parece clara a necessidade de modificar a sistemática de análise para os
problemas que envolvem variáveis contínuas.
Uma das formas mais simples de se interpretar variáveis contínuas é
pensar em intervalos de valores, ao invés de valores absolutos. Por exemplo,
suponha que o problema originalmente proposto seja modificado para a
seguinte pergunta: Qual a probabilidade de se retirar do saco um número
real menor do que 0.5? Nesse caso, supondo que a reta real é igualmente
densa em números em qualquer que seja o intervalo numérico analisado, a
Figura 1.19 mostra que metade dos números reais existentes no intervalo
[0,1] está contida no intervalo [0,0.5]. Portanto, a probabilidade de que
um número inferior a 0.5 seja sorteado no experimento é de 50%. Mais
importante ainda: a modificação da pergunta, focada nos intervalos e não
nos valores absolutos, permitiu associar de forma clara uma probabilidade
a um certo conjunto de resultados. A Figura 1.19 mostra no entanto que
isso não é suficiente para remover a ambigüidade da representação. Em
primeiro lugar, ao se movimentar um segmento de tamanho especificado
ao longo do intervalo [0,1], como na Figura 1.19a, mudam-se os valores
que delimitam o subintervalo considerado, mas não a probabilidade dos
números contidos nele serem sorteados. Assim, se o tamanho do intervalo
for igual a 0.5, a probabilidade 0.5 pode ser associada a qualquer número
do intervalo, bastando para isso que o subintervalo esteja colocado sobre
o número considerado. Em segundo lugar, ao se estreitar o subintervalo
que contém um número qualquer, como na Figura 1.19b, a probabilidade
daquele conjunto particular de pontos também muda. Assim, qualquer
valor de probabilidade pode ser associado a um número qualquer do in-
tervalo, dependendo da largura do segmento de reta considerado.
I
I I
0 0.5 0 0.5

0 0.5 O.]j 0 .7$

I I I I
(1.7
0~5 0.75 0.3

I !
05 0.35 0.1'1:
(Ill) (bJ
Figura 1.19 - (a) Qualquer segmento de reta de comprimento 0.5 contido no
intervalo real [0,1] contém metade dos números do intervalo. (b) Segmentos de
reta de tamanhos distintos ao redor do ponto 0.5 contêm frações distintas dos
pontos contidos no intervalo [0,1].

Com a finalidade de remover a ambigüidade da representação de pro-


babilidade em problemas envolvendo variáveis contínuas, faz-se necessário

Princípios Básicos de Estatística 63


PERTENCE AO N O DE O I

fixar ao menos um dos limites do segmento utilizado para definir o intervalo


de valores considerados. Por uma questão de conveniência, faz-se aqui o
“ancoramento” do segmento no valor mínimo admissível como solução para
o problema considerado. Assim, define-se como a probabilidade acumulada
de um valor x, representada por , como a probabilidade de
se encontrar em um determinado problema uma solução igual ou inferior ao
valor de x. A Figura 1.20 ilustra esse conceito para o problema proposto.

0
. 05
Y '~ C.rt

--·------••
• .... ••
0 015 ''
'
'

• 0

Figura 1.20 - Ilustração do Conceito de Probabilidade Acumulada,


P (x) =P(x' S: x) .
O conceito de probabilidade acumulada permite associar, portanto, a
cada valor específico um número sem ambigüidade, que é a probabilidade
de se encontrar como resposta do problema um valor menor que ele.
Repare que esse conceito pode ser aplicado tanto a problemas discretos
quanto a problemas contínuos indistintamente, embora tenha utilidade
muito maior nos problemas de natureza contínua. A partir do conceito
de probabilidade acumulada, chega-se facilmente ao seguinte conjunto
de propriedades:

 Propriedade 1.9 – Seja PAC (x ) = P (x ' ≤ x ) uma função de probabilidade


acumulada para um problema particular. Então PAC (x ) é uma função
monotônica não decrescente de x, contida no intervalo [0,1].
Seja x2 > x1. Então
P.... (x1 ) =P(x'S x, ) =P(x' s: x, +(x. -x,}) 2 P(x'S x1) =P (.r1)(1.58)
já que os valores contidos no intervalo x1 < x < x2 foram excluídos do
conjunto analisado, resultando num conjunto menor de valores possíveis.
Logo, a função PAC (x ) é monotônica e não decrescente. Se xmin e xmax são
os valores admissíveis mínimo e máximo do problema, então
(1.59)
e
(1.60)

64 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Obviamente, se os valores admissíveis mínimo e máximo são infinitos,


então a função PAC (x ) se aproxima assintoticamente dos valores 0 e 1
respectivamente, estando contida no intervalo aberto (0,1).

 Propriedade 1.10 – Seja PAC (x ) = P (x ' ≤ x ) uma função de probabi-


lidade acumulada para um problema particular. Então
)-!' ~, (1.61)

Figura 1.21 - Interpretação Quantitativa de Curvas de Probabilidade Acumulada.

A Equação (1.61) mostra que é possível calcular a probabilidade de


que um valor contido em um intervalo contínuo qualquer considerado
seja obtido como resultado de um experimento, desde que a curva de
probabilidade acumulada característica do experimento seja conhecida.
O procedimento gráfico está ilustrado na Figura 1.21. Portanto, a curva
de probabilidade acumulada tem o mesmo papel em problemas contí-
nuos que o histograma de probabilidades tem em problemas discretos.
A comparação das curvas das Figuras 1.21a e 1.21b sugere ainda que a
probabilidade de encontrar um conjunto de valores em um intervalo de
tamanho definido pode aumentar muito, quando a curva de probabilidade
acumulada varia rapidamente. Por exemplo, a Figura 1.21b mostra que é
quase certo que o resultado obtido do experimento esteja contido no in-
tervalo x1 ≤ x ≤ x2. Comparada à Figura 1.21a, pode-se dizer que é muito
mais seguro prever os resultados obtidos no experimento descrito pela
Figura 1.21b. Além disso, é fácil compreender que os valores mais prová-
veis são aqueles ao redor dos quais a curva de probabilidade acumulada
varia mais rapidamente. Portanto, há razões suficientes para introduzir
a definição de densidade de probabilidade, ℘(x), na forma:
dPAC (x )
℘(x ) = (1.62)
dx
A densidade de probabilidade é uma medida de quão rapidamente
varia a curva de probabilidade acumulada, à medida de aumenta a vari-
ável x. Ela dá, portanto, uma medida relativa de quão mais provável é a

Princípios Básicos de Estatística 65


PERTENCE AO N O DE O I

obtenção de resultados num pequeno intervalo considerado ao redor do


valor x. Logo, do ponto de vista qualitativo, ela dá uma informação muito
semelhante à informação fornecida pelos histogramas de probabilidade
apresentados nas seções anteriores. Pode-se dizer sem excesso de rigor
que a curva de densidade de probabilidades é o histograma de probabili-
dades de um problema em que a variável analisada é contínua. A Figura
1.22 ilustra o comportamento das curvas de densidade de probabilidade
para as curvas de probabilidade acumulada da Figura 1.21. Vê-se que a
curva de densidades de probabilidade da Figura 1.21b é mais estreita e
intensa no intervalo x1 ≤ x ≤ x2, indicando o menor espalhamento de
valores possíveis em torno de um valor médio provavelmente contido
nesse mesmo intervalo.

,p(x)
(b)

Figura 1.22 - Curvas de Densidade de Probabilidade Obtidas a Partir das Curvas


de Probabilidade Acumulada da Figura 1.21.

Como a curva de densidade de probabilidade está diretamente rela-


cionada à curva de probabilidade acumulada, é possível mostrar que as
seguintes propriedades são satisfeitas:

 Propriedade 1.11 – Seja ℘(x) uma função densidade de probabili-


dade para um problema particular. Então ℘(x) é uma função não
negativa de x.
Como a curva de probabilidade acumulada é monotônica não de-
crescente, as derivadas da curva de probabilidade acumulada são nulas
ou positivas, fazendo com que a Propriedade 1.11 decorra diretamente
da Propriedade 1.9.

66 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

 Propriedade 1.12 – Seja ℘(x) uma função densidade de probabilidade


x2

para um problema particular. Então P (x1 ≤ x ≤ x2 ) = ∫ ℘(x )dx


x1

Da Equação (1.62), que define a função densidade de probabilidade,


é possível escrever de forma inversa:
••
P,c(x,)-P,c (x,)=fp(x)d~ (1.63)
...
que combinada com a Equação (1.61) resulta em
x2

P (x1 ≤ x ≤ x2 ) = ∫ ℘(x )dx (1.64)


x1

 Propriedade 1.13 – Seja ℘(x) uma função densidade de probabilidade


xmax

para um problema particular. Então ∫ ℘(x )dx = 1 .


xmin

Aplicando a Equação (1.64) entre os limites admissíveis mínimo e


máximo,
xmax

P (xmin ≤ x ≤ xmax ) = 1 = ∫ ℘(x )dx (1.65)


xmin

As Propriedades 1.11-1.13 são ilustradas graficamente na Figura 1.23.


Dada uma curva de densidade de probabilidade, vê-se que a probabili-
dade de um resultado ocorrer em um certo intervalo x1 ≤ x ≤ x2 é dada
pela área (integral) sob a curva de densidade limitada pelo intervalo.
Mais ainda, a curva de probabilidade acumulada pode ser vista como a
área (integral) sob a curva limitada pelo valor mínimo admissível para
o problema e o ponto particular considerado. Como todos os cálculos
de probabilidade podem ser obtidos diretamente a partir da curva de
densidade de probabilidade e como ℘(x) reflete o espalhamento e os
valores em torno dos quais os resultados mais prováveis se concentram,
faz-se normalmente a apresentação das distribuições de probabilidade
de variáveis contínuas na forma de densidades de probabilidades.

Princípios Básicos de Estatística 67


PERTENCE AO N O DE O I

"'''

. ,,
'
Figura 1.23 - Ilustração Gráfica das Propriedades 1.11-1.13.

Para mostrar como pode ser feita uma analogia direta entre os his-
togramas de probabilidades, definidos para as variáveis discretas, e as
curvas de densidade de probabilidade, definidas para variáveis contínuas,
poderíamos representar a curva de densidades de probabilidade como
ilustrado na Figura 1.24. De acordo com essa representação, dada uma
certa resolução ∆x definida pelo usuário, o histograma de probabilidades
(xi , pi ) poderia ser construído na forma:
xi +1 + xi
xi = , xi = xmin + (i − 1)∆x (1.66)
2
xi +1

pi = ∫ ℘(x )dx ≈℘(x )∆x


xi
i (1.67)

Portanto, os momentos da curva de distribuição de probabilidades,


definidos pela Equação (1.53), poderiam ser redefinidos na forma:
XR SR
JI~~J = 'L x,•p, = L x,•ao(x,)ax (1.68)
t= l r= l
onde o número de valores admissíveis NR do histograma seria dado
por:
NR= x~. - x_ (1.69)
/:;.x
No limite em que ∆x se aproxima de zero, a Equação (1.68) fica na
forma:

Tx'"p(x)d..-
X

J.ll~) = (1.70)

que permite estender o conceito de momento estatístico da curva de dis-


tribuição para as variáveis contínuas, apenas trocando o operador soma

68 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

da Equação (1.53) para o operador integral (que pode ser interpretado


como uma soma infinita de fatias muito pequenas).

p(x)
,... ..... '""
17' "' 1\
'i- ~
\
11' ~
rl ~
~
17' "-;
17' 1\
~lih-,_
hif X

Figura 1.24 - Transformação da Curva de Densidade de Probabilidades, para


Variáveis Contínuas, em um Histograma de Probabilidades, para Variáveis
Discretas.

A partir da Equação (1.70), desenvolvida para momentos de qualquer


ordem, fica fácil perceber que os conceitos de média, variância e covari-
ância podem ser estendidos para variáveis contínuas na forma:
.r"""'
JJ.\ = J xp (x)dx (1.71)

"'max:

a.~ = J (x- JJ.\ )~ &o(x)cb: (1.72)

a.~> = "'T(x- J.ix )[ ' j"" (y- }.II') !,0 (y I x )dy]~(x )Jx (1.73)
X tflfUJ ,..lflllf

Como a analogia entre os histogramas de probabilidade e as curvas


de densidade de probabilidade é direta, todas as propriedades mostradas
anteriormente para a média, a variância e a covariância, assim como
as interpretações e significados apresentados, podem ser estendidos
diretamente para as variáveis contínuas. A despeito disso, o leitor inte-
ressado pode refazer as provas das propriedades apresentadas nas seções
anteriores sem maiores dificuldades, apenas substituindo o operador
somatório pelo operador integral onde for cabível.

Princípios Básicos de Estatística 69


PERTENCE AO N O DE O I

Exemplo 1.11 - Suponha que uma distribuição de probabilidades


no intervalo contínuo [0,1], chamada de distribuição triangular
e ilustrada na Figura 1.25, possa ser definida como:

 4 x, 0 ≤ x ≤ 0.5
℘(x ) = 
 4 − 4 x, 0.5 ≤ x ≤ 1
.fJ(X)

2 ------------

00~----~~----~---.
0.5 I X
Figura 1.25 - A distribuição Triangular.

Para mostrar a Propriedade 1.13,


0.5 1
 4 −1 
1 0.5 1
4x2 4x2 1
∫0 ( ) ∫0 ∫ ( )
1
℘ x dx = 4 xdx + 4 − 4 x dx = + 4 x 0.5 − = + 2−  =1
0.5
2 0
2 0.5
2  2 
confirmando que a função proposta é de fato uma densidade de
probabilidade. Nesse caso, a curva de probabilidade acumulada
ganha a forma:
0, .r~O

2x' 0<
_ .r <o
- .)-
~... (.r) = 0.5+(4x
' ( 0 )
- 2) - 2x - 0.5 , 0.5S x SI
I, X<: I

Para obter a média,

70 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Para obter o momento estatístico de ordem 2,

.
11~J =f x'p (x)dx= .,
o
' J
J 4r'dx+ (4x' - 4r')d..-=~ + ~
liS 4
... "'[ -
4

.) ~
4~
x
4 $
=
=-' ·(4-0.5 )-( ~-0.25) =2.+ 56 - 45:2.
16 3 4 48 48 48 24

Portanto, a variância é igual a:

2
(jx-
_
J.lx -
(2) (
J.l ~-
)2-_ - 7 1_ I
- - - -
. 24 4 24

1.8. Conclusões
No Capítulo 1 foram introduzidos os conceitos de aleatoriedade e deter-
minismo, fundamentais para a compreensão de problemas de medição.
Para caracterizar a componente aleatória das medidas, foi introduzido o
conceito de probabilidade e de distribuição de probabilidades. Foi acen-
tuado o fato de que uma probabilidade é uma expectativa de que um
certo resultado ocorre, não garantindo de fato a consecução do resultado.
Para tornar possível a comparação e o processo de tomada de decisão
em diferentes problemas, caracterizados por diferentes distribuições
de probabilidade, foram definidas a média e a variância. A primeira ca-
racteriza um valor em torno do qual os resultados possíveis flutuam. A
segunda caracteriza o quanto os resultados flutuam em torno do valor
médio. Finalmente, foi introduzido o conceito de independência entre
medidas e variáveis e foi definida a covariância, que caracteriza o grau
de dependência linear entre as variáveis analisadas.
Um problema fundamental que se põe é o de como caracterizar a
distribuição de probabilidades que caracteriza um determinado problema
estocástico. Outro problema é o de como utilizar essa informação para
julgar e analisar medidas experimentais. Esses serão os tópicos principais
abordados nos próximos capítulos.

1.9. Leitura Adicional


A literatura dedicada à apresentação de pontos fundamentais relacio-
nados aos conceitos de aleatoriedade, de independência de medidas e
de probabilidades é muito vasta. Não cabe aqui, portanto, uma revisão
dessa área. O leitor interessado encontrará centenas de livros que abor-
dam esses assuntos em qualquer biblioteca dedicada à Matemática e à
Engenharia.

Princípios Básicos de Estatística 71


PERTENCE AO N O DE O I

Uma discussão muito interessante sobre a caracterização do grau de


aleatoriedade em problemas físicos e matemáticos é apresentada em:
 What is Random? Chance and Order in Mathematics and Life, E. Beltrami,
Springer-Verlag, Nova York, 1999.

Um texto clássico relacionado ao uso e aplicação dos conceitos discu-


tidos no Capítulo 1 em problemas de Engenharia é apresentado em:
 Process Analysis by Statistical Methods, D.M. Himmelblau, John Wiley
& Sons, Nova York, 1970.

Uma discussão mais formal sobre as propriedades matemáticas as-


sociadas a distribuições de probabilidades é apresentada em:
 Probability and Statistical Inference. Volume 1: Probability, J.G.
Kalbfleisch, Springer-Verlag, Nova York, 1985.
 Probability and Statistics. Theory and Applications., G. Blom, Springer-
Verlag, Nova York, 1989.

1.10. Exercícios Sugeridos


1. Defina os seguintes eventos como determinísticos ou estocásticos e
justifique:
a) Tempo de cozimento de um tijolo na olaria;
b) Tempo de espera por um ônibus depois da chegada no ponto;
c) Tempo da viagem do Rio a Salvador por via terrestre e por via aé-
rea;
d) Número de telhas necessárias para cobrir um telhado;
e) Número de equipamentos que falham por ano em uma escola de
informática;
f) Condição do tempo daqui a exatamente dois meses.

2. Pegue uma folha de papel e rasgue uma tira com as mãos. Meça a
largura dessa tira em diferentes pontos com uma régua milimetrada.
Repita o experimento. As medidas obtidas são iguais? Você é capaz
de identificar as fontes de erro desse experimento?

3. Uma função discreta muito utilizada para descrever a probabilidade


de encontrar uma espécie de tamanho i em sistemas que crescem de
forma não contínua (ou seja, em que há um mecanismo que inter-
rompe o crescimento) é a chamada curva de Flory. A curva de Flory
pode ser escrita na forma: Pi = (1 – q) qi–1

72 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

onde i (i = 1, 2, ..., N, ...) é o comprimento, Pi é a probabilidade de se


encontrar uma espécie de tamanho i e q é uma constante 0 < q < 1
que caracteriza o processo.
a) Prove que Pi é de fato uma distribuição de probabilidades, provando
que as Equações (1.5) e (1.6) são satisfeitas;
b) Calcule o comprimento médio da população µI;
c) Calcule a variância da população σ I .
2

4. Para a distribuição exponencial, ℘(x)=α exp (–αx) , definida no


intervalo contínuo [0, ∞):
a) Calcule o valor de α, para que ℘(x) seja de fato uma densidade de
probabilidades;
b) Calcule a probabilidade acumulada PAC(x) no intervalo de definição
do problema;
c) Calcule o valor médio de x;
d) Calcule a variância de x;
e) Pense em quantos momentos estatísticos independentes podem ser
definidos.

5. No laboratório é feita uma medida cromatográfica (separação dos


vários componentes químicos de uma mistura) usando uma coluna de
separação (um tubo oco) recheada com um composto plástico poroso.
Toda vez que um composto ácido é usado na coluna, parte do recheio
plástico é corroído e, dessa forma, extraído da coluna. Sabendo que
o composto plástico poroso é que de fato promove a separação dos
componentes da mistura, as medidas de composição feitas na coluna
poderiam ser consideradas independentes? Por que?

6. Suponha que duas variáveis x e y estão relacionadas na forma


y = 4x (1 – x), definida no intervalo contínuo [0,1]. Suponha ainda
que ℘(x) = 1 no intervalo de definição do problema.
a) Mostre que ℘(x) define de fato uma distribuição de probabilidades;
b) Calcule℘(y);
c) Calcule ℘(y/x);
d) Calcule Covar(x,y) e ρxy;
e) Comente o significado dos resultados obtidos no item anterior.

Princípios Básicos de Estatística 73


PERTENCE AO N O DE O I
PERTENCE AO N O DE O I

2 Distribuições
de Probabilidade

No Capítulo 1 foram introduzidos os conceitos de aleatoriedade e pro-


babilidade. Foi mostrado que um fenômeno aleatório pode ser descrito
em termos de distribuições de probabilidade. No entanto, foi também
mostrado que o conceito de probabilidade (e, portanto, de distribuições
de probabilidade) está intimamente relacionado com a possibilidade de
repetir um experimento infinitas vezes. Essa possibilidade, contudo, não
é factível, pois nenhum experimento pode ser repetido infinitas vezes
por limitações reais de tempo e custo. Sendo assim, as distribuições de
probabilidade usadas para descrever problemas reais não podem ser
obtidas unicamente por métodos experimentais. Na realidade, as distri-
buições de probabilidade usadas para descrever problemas reais estão
fortemente baseadas em considerações idealizadas sobre o sistema estu-
dado e estão fundamentadas em hipóteses a respeito do comportamento
do sistema considerado. São necessários, portanto, modelos idealizados
de comportamento ou modelos probabilísticos.
Para exemplificar, consideremos o caso do dado ideal analisado no
Exemplo 1.2. Para dizermos que o histograma de um dado comporta seis
resultados possíveis, e que cada um dos resultados tem a mesma proba-
bilidade de ocorrência, é necessário admitir que o dado é composto por
seis faces absolutamente iguais. Repare que há ao menos duas hipóteses
fortes embutidas na última afirmação. A primeira admite implicitamente
que o dado é um cubo, o que não é um fato óbvio. Por exemplo, por que
não poderíamos construir um dado com 4 faces (uma pirâmide) ou 8 faces
(um octaedro)? Obviamente que essas duas alternativas de construção são
possíveis. Um dado não precisa ter necessariamente 6 faces. No entanto,
usamos o dado de 6 faces com tamanha freqüência que associamos o

Distribuições de Probabilidade 75
PERTENCE AO N O DE O I

dado ao cubo imediatamente. A segunda hipótese é a de que as faces são


absolutamente iguais. Será que as faces de um dado real, construídas com
ferramentas e materiais reais (não ideais, não necessariamente homo-
gêneos, sujeitos a falhas etc.), são de fato iguais? Não há como resolver
essa questão facilmente, sem experimentação, mas admitimos para fins
práticos quase sempre que as faces são iguais. Portanto, o Exemplo 1.2
ilustra a construção de um modelo probabilístico. Em outras palavras, o
histograma do Exemplo 1.2 é de fato um modelo probabilístico em que
confiamos e não necessariamente uma realidade experimental.
É muito interessante mostrar como algumas distribuições de probabi-
lidade surgem naturalmente em problemas de Matemática e Engenharia.
Por isso, nesta seção são construídos alguns modelos probabilísticos
usados comumente para análise de problemas reais, enfatizando-se em
particular as hipóteses que permitem a construção desses modelos. São
também mostrados alguns exemplos típicos de aplicação dos modelos
de distribuição de probabilidade na prática da análise de dados e inter-
pretação de experimentos aleatórios. Deve ficar claro que o objetivo
perseguido aqui não é fazer uma descrição extensiva de modelos proba-
bilísticos descritos na literatura. Uma descrição mais extensa e profunda
de modelos probabilísticos, assim como a maior parte das provas de
teoremas e resultados, pode ser encontrada nas referências adicionais
apresentadas no final deste capítulo. O objetivo perseguido nessa seção
é a apresentação e análise de alguns modelos probabilísticos que serão
muito úteis para as discussões apresentadas nos próximos capítulos.

2.1. A Distribuição Binomial


Admita que em um evento aleatório apenas dois resultados sejam possí-
veis. Por exemplo, sucesso ou insucesso, cara ou coroa, acima ou abaixo,
certo ou errado, sim ou não etc. Admita ainda que as probabilidades de
que os resultados ocorram sejam conhecidas e iguais respectivamente
a p e a q = 1 – p. A distribuição Binomial procura descrever o seguinte
problema: após m repetições do experimento, qual a probabilidade de
que se obtenham n sucessos? Por exemplo, após jogar a moeda para o
alto m vezes, qual a probabilidade de tirar cara (p = 0.5; q = 0.5) n ve-
zes? Como será mostrado adiante, esse problema aparece com extrema
freqüência durante a análise de dados reais.
Para que se possa construir a distribuição Binomial, é necessário
primeiro reconhecer que são possíveis NR = m + 1 resultados distintos,
já que o número de sucessos pode variar de zero até m. Suponha que
n, 0 ≤ n ≤ m, é o número particular de sucessos avaliado no momento.
Então parece claro que o número de insucessos é igual a (m – n). Nesse

76 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

caso, se os experimentos são realizados de forma independente, a pro-


babilidade de que um certo arranjo de n sucessos e (m – n) insucessos
seja obtido é igual a:
P,. = P(S}, .. .P(S),, P(l},., P(t )•.,••, = p"<(
(2.1)
onde PA1 é a probabilidade do arranjo particular considerado, P(S)i é a
probabilidade de sucesso no experimento i e P(I)i é a probabilidade de
insucesso no experimento i. Obviamente, a Equação (2.1) descreve ape-
nas o resultado de um dos possíveis arranjos, em que sucesso é obtido
nos n primeiros experimentos e insucesso é obtido nos últimos (m – n)
experimentos. Suponha que esse arranjo é invertido, de maneira que
os primeiros resultados são insucessos, enquanto os últimos resultados
são sucessos. Nesse caso,

(2.2)
cujo resultado é idêntico ao anterior. Na realidade, a probabilidade de se
obter n sucessos independe da ordem com que os n experimentos bem
sucedidos sejam distribuídos no arranjo final de resultados. Portanto,
a probabilidade de se obter n sucessos de m experimentos pode ser
escrita na forma:
P(n~ m. p}::: N,~p"q,_•
(2.3)
onde NA é o número total de combinações possíveis de n sucessos e (m
– n) insucessos em m experimentos. O número NA é uma operação clás-
sica da matemática combinatorial, denominado como a combinação de
m, n a n, dado na forma:

N
·•
=("')=c· =
11 "
m!
nJ(m- n)! (2.4)

Dessa maneira, a solução do problema proposto, denominada de


distribuição Binomial, pode ser representada na forma:

Bm ( n:m, p ) = ( )pq
' " '' .. Jll " ll
(2.5)
" ' 111- 11 !
A distribuição Binomial é uma distribuição discreta Univariada e Bi-
paramétrica, pois descreve a variação de probabilidades de uma única
variável discreta, n, e depende de dois parâmetros, m e p. Isso significa
que apenas dois dos momentos da curva de distribuição podem ser
fixados independentemente pelo usuário, ficando os demais automa-
ticamente definidos pela forma da curva da Equação (2.5). Além disso,
não é difícil mostrar que:

Distribuições de Probabilidade 77
PERTENCE AO N O DE O I

(2.6)

(2.7)

Desta forma, os dois parâmetros m e p que caracterizam a distribuição


Binomial podem ser relacionados fácil e diretamente aos parâmetros µN
e σ2N, que caracterizam o posicionamento e o espalhamento da curva de
distribuição de probabilidades. Isso pode ser muito útil para interpretação
de alguns problemas práticos, como o dimensionamento do tamanho
das amostras em procedimentos de avaliação e controle de qualidade,
analisados a seguir. É também interessante observar que o índice de po-
lidispersão tende a 1 quando m cresce, independentemente dos valores
de p e q. Isso indica que o grau de espalhamento em relação à média
decresce continuamente com o aumento do conjunto amostral.

Exemplo 2.1 – Para o caso da moeda ideal, suponha que se deseja


saber como a distribuição de probabilidades de se obter n caras
(p = 0.5) varia, à medida que m aumenta. A Figura 2.1 mostra a
evolução da curva binomial para diferentes valores de m.

' ' '


"
jl; :J It

Figura 2.1 - Exemplo da curva binomial: Bin(n;m,0.5).

Observe que a curva binomial vai ganhando a aparência de um


sino, à medida que o número de experimentos aumenta. Nesse
caso particular, observe ainda que a média µN = mp = m/2, o que
mostra que na média o número de caras deverá ser igual à metade
do número de experimentos realizados (embora se saiba que esse
é o resultado que necessariamente deverá ocorrer, como mostra
a Figura 2.1 e como foi discutido nas seções anteriores).

78 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 2.2 – Pesquisadores envolvidos com atividades ex-


perimentais sabem que nem sempre experimentos podem ser
realizados a contento por uma série de fatores: falta de energia,
quebra de equipamentos, contaminação de reagentes etc. Muitas
vezes os resultados experimentais têm que ser descartados porque
as falhas ocorrem durante a realização dos experimentos ou são
detectadas depois de terminada a atividade experimental.
Suponha que a probabilidade de um certo experimento dar certo
é de 70%. A experiência acumulada indica que esse é um número
bastante representativo da realidade laboratorial, embora obvia-
mente possa variar de caso para caso. Por exemplo, durante a
instalação de uma nova unidade experimental e/ou na presença
de deficiências de infra-estrutura, a probabilidade de sucesso
pode diminuir drasticamente. Suponha ainda que o número de
bons experimentos necessários para que se possa desenvolver
uma boa análise científica seja de pelo menos 20 experimentos.
(Questões relacionadas ao número de experimentos necessários
para desenvolver um trabalho de investigação serão analisadas no
Volume II desta série de publicações.) Nesse caso, qual o número
de experimentos que devem ser programados para que se garan-
ta, com 95% de confiança que ao menos 20 bons experimentos
serão obtidos?
Primeiramente deve ser observado que esse é um problema
típico de aplicação da curva binomial. Observe que apenas dois
resultados são possíveis: certo ou errado. Observe ainda que as
probabilidades individuais de cada resultado são conhecidas:
p = 0.70 e q = 0.30. Assim, a pergunta original pode ser formulada
da seguinte forma: dados p = 0.70 e q = 0.30, qual é o número
de experimentos, m, que faz com que a probabilidade de se obter
um valor de n menor do que 20 é inferior a 5%? Ou ainda, qual
o menor valor de m para o qual:
19
m!

n = 0 n !(m − n )!
p n q m − n = PAC (19; m, p ) ≤ 0.05

m
m!
∑ n !(m − n )! p q
n = 20
n m−n
≥ 0.95

O resultado pode ser obtido avaliando-se valores crescentes de m


a partir de m = 20, uma vez que 20 experimentos bem sucedidos

Distribuições de Probabilidade 79
PERTENCE AO N O DE O I

não podem ser obtidos com número inferior de experimentos, como


mostrado na Figura 2.2. Para o caso estudado, o valor mínimo de
experimentos executados para garantir com 95% de certeza que 20
bons experimentos serão obtidos é igual a 35. Vê-se, portanto, que
a programação experimental deve prever a realização de número
de experimentos bastante superior ao desejado, para que sejam
considerados os problemas eventuais que levam ao descarte dos
resultados experimentais. Se a probabilidade de sucesso cai a 60%,
o valor mínimo de experimentos necessários para garantir 20 bons
resultados com 95% de certeza sobe para 42, caindo respectivamen-
te para 29 e 25 quando a probabilidade de sucesso sobe para 80%
e 90%. Se a programação experimental não incluir a possibilidade
eventual de falhas, é bastante provável que o cronograma e o orça-
mento originais não sejam obedecidos, causando frustração.

"'••
~.


. .,
... . .\.~···
.. . •
-•- p.. Of1
..•
~
\• •



.
- - P"'0'
(1'"03

..•
~
• u '. •\

- - p - 09

~ \• •, '
.... •
"*•
"i• ...
;!


~

.. \\ \






... ,, •


••
-... . _. ,,
• ,..
"
,. - :::,.

" "
-~

"
,.
~li m\!t\1 ~~ ~~lnw• l;)'o • .,,

Figura 2.2 - Probabilidade acumulada da curva binomial até n = 19,


para m e p variáveis.

Exemplo 2.3 – A distribuição Binomial é uma poderosa ferramen-


ta usada para fins de controle de qualidade e análise de dados,
como discutido no Volume III desta série de publicações. Nesse
caso, a distribuição Binomial é usada para identificar padrões
de formação entre pontos experimentais obtidos diretamente
do processo.
A Figura 2.3 ilustra dois tipos clássicos de aplicação da curva bino-
mial em problemas de controle de qualidade. Em ambos os casos,
a reta central representa um valor médio histórico do processo,
enquanto as duas retas adicionais representam a faixa histórica
que concentra 98% dos resultados obtidos no processo. Os pontos

80 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

se distribuem de forma supostamente aleatória em torno da mé-


dia, com probabilidades iguais a 50% de estarem acima ou abaixo
do valor médio. (No Capítulo 3 deste volume e no Volume III desta
série de publicações serão construídos métodos que permitem a
definição formal das faixas consideradas na Figura 2.3.)

Ill!


• •• •
•• •
• •
.
•• • • • -

• • • .. .•

Figura 2.3 - Padrões de medidas obtidas durante o


monitoramento do processo.

A intervenção no processo para corrigir eventuais falhas de


produção, embora desejada, não deve ser feita de forma exage-
rada por várias razões. Por exemplo, toda vez que se perturba o
processo são introduzidos transientes ou efeitos de longo prazo
que podem obrigar o operador a perturbar o processo novamente
no futuro muitas vezes. Além disso, a modificação freqüente das
condições de operação acelera o envelhecimento de válvulas e
demais equipamentos, aumentando os custos de produção. E não
deve ser esquecido o fato de que as medidas experimentais con-
têm erros. Dessa forma, o operador pode ser induzido a corrigir
desvios que de fato não existem, introduzindo assim alterações
aleatórias e complexas na cadeia de produção. Por todas essas
razões parece lícito perguntar quando é, de fato, o momento de
intervir no processo.
Um primeiro procedimento de controle pode ser projetado a par-
tir da Figura 2.3a. Por segurança, toda vez que uma medida do
processo passar dos limites estabelecidos pela carta de controle
de qualidade, medidas de correção devem ser imediatamente
tomadas. Esse procedimento está embasado no fato de que esses
desvios aleatórios são observados muito pouco freqüentemente
(no caso analisado, apenas 2% das vezes, ou 1 em cada 50 pontos),
não sendo possível descartar a hipótese de falha do processo.
Um segundo procedimento de controle pode também ser proje-
tado a partir da Figura 2.3a. O operador desconfia de que algo

Distribuições de Probabilidade 81
PERTENCE AO N O DE O I

pode estar errado com o processo porque os últimos sete valores


medidos se encontram abaixo da média. Nesse caso, dado um
conjunto de m pontos, qual a probabilidade de que ao menos n
pontos estejam do mesmo lado da carta de controle, se a pro-
babilidade do ponto estar de um lado ou de outro é a mesma e
igual a p = 0.5? Esse problema pode ser resolvido no contexto
da curva binomial na forma:

~
• m!
i !{m-i)!
(')'(1)"-'
2 2 = ~.c (u;m.o.s)
já que apenas dois resultados são possíveis (estar acima ou abai-
xo da linha central) e as probabilidades são conhecidas e iguais
a 50%. Supondo que um certo grau de confiança PX% é exigido
para que se tome a decisão de intervir no processo, toda vez que
um padrão for observado e tiver probabilidade inferior a PX%
de ocorrer, toma-se a decisão de introduzir uma perturbação
reguladora de controle. Nesse caso, como o mesmo padrão pode
ocorrer de um lado ou de outro da carta de controle (ou seja, a
curva de distribuição de probabilidades é simétrica), o problema
de controle fica na forma:

m. I 100%-P.
L• I
( _)I ( ?' )' ( ) -
r=& l.1 111 I . - 2
=P,c (tr, m,0.5)!>( 2
•·· )

De acordo com a Figura 2.4, admitindo um grau de confiança de


98%, observa-se que padrões pouco prováveis são os seguintes:
a) seqüências com sete ou mais pontos seguidos do mesmo lado
do diagrama;
b) seqüências de dez ou mais pontos, com apenas um ponto de
um lado do diagrama;
c) seqüências de 14 ou mais pontos, com apenas dois pontos de
um mesmo lado do diagrama;
d) seqüências de 17 ou mais pontos, com apenas três pontos de
um mesmo lado do diagrama.
Observe também que o grau de confiança é um importante
parâmetro de sintonia do problema de controle. Se o grau de
confiança for trocado para 95%, os padrões pouco prováveis são
os seguintes:

82 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

a) seqüências com seis ou mais pontos seguidos do mesmo lado


do diagrama;
b) seqüências de nove ou mais pontos, com apenas um ponto de
um lado do diagrama;
c) seqüências de 12 ou mais pontos, com apenas dois pontos de
um mesmo lado do diagrama;
d) seqüências de 15 ou mais pontos, com apenas três pontos de
um mesmo lado do diagrama.
Quanto menor o grau de confiança exigido, mais freqüente é a inter-
venção no processo, aumentando o risco de que se tomem medidas
de controle desnecessárias. Por sua vez, quanto maior o grau de con-
fiança exigido, mais se demora para que se faça uma intervenção no
processo, aumentando o risco de se corrigir tardiamente um desvio
real do processo. Por isso, a definição do grau de confiança depende do
processo, dos objetivos perseguidos e do custo que o engenheiro está
disposto a pagar por uma decisão eventualmente equivocada. Para a
maior parte das aplicações, os níveis de confiança mais amplamente
utilizados são os níveis de 95% e 98%. Em ambos os casos, de acordo
com a Figura 2.3a, deve-se iniciar um procedimento de correção do
processo, já que o valor medido encontra-se improvavelmente baixo
(sete valores seguidos abaixo da linha central).

lt:Z(J
::;: • I• PJ- (I
~
c; \ 1
;;;: I). :JI(i
\ - -
.. Pl
Pl 1
"'CC
!:;
-;
I
l PI-J
E 11. 1
=
... \\ \
\

<...
1.., IJ.IJf! \• \
\.~
....,
:::l • \
\ ..
\•
~
.,e.,
11.1)4 \
• ....
~
Ql:
·~ ._ ··- • '- ..._
·~- - ... ""
"'·~ U.4
.L_fr •-:.i_
I). I)() ·~. -~- '"'.!:~ ...
.... J
4) :z: 4 6 3 l(ll ii.:Z: l4 u; 18· l
:'>o"u nwro d t' l\Jlellid11~

Figura 2.4 - Probabilidade de se obter ao menos n pontos do mesmo


lado do diagrama, à medida que o número de medidas aumenta.

Um terceiro procedimento de controle pode também ser proje-


tado a partir da Figura 2.3b. O operador desconfia de que algo
pode estar errado com o processo porque os últimos seis valores
medidos se encontram consistentemente subindo. Nesse caso,

Distribuições de Probabilidade 83
PERTENCE AO N O DE O I

dado um conjunto de m pontos, qual a probabilidade de que eles


estejam alinhados de forma consistente na mesma direção da
carta de controle, admitindo que a probabilidade do ponto estar
alinhado para um lado ou para o outro é a mesma e igual a p =
0.5? (Repare que a probabilidade de alinhamento deve ser, na
realidade, dependente da posição em que o ponto se encontra no
diagrama. Por exemplo, supondo uma distribuição aleatória dos
pontos, a probabilidade de que um segundo ponto esteja acima
do primeiro é muito maior quando este primeiro se encontra na
extremidade inferior da carta. Por isso, a hipótese de probabilidade
constante e igual a p = 0.5 deve ser vista como uma aproximação
do problema real e tomada com cautela). Esse problema pode ser
resolvido novamente no contexto da curva binomial, de forma
semelhante à realizada anteriormente. Deve-se atentar apenas
para o fato de que quando m pontos estão alinhados em uma certa
direção, m-1 pontos caracterizam de fato o experimento, já que
o primeiro ponto da série é a referência que não está sendo com-
parada a ninguém. Assim, dizer que dois pontos estão alinhados
em forma crescente é o mesmo que dizer que um experimento
resultou em um valor maior que o valor anterior.
Assim, admitindo um grau de confiança de 98% e em conformi-
dade com a discussão anterior, observa-se que padrões pouco
prováveis são os seguintes:
a) seqüências com oito ou mais pontos seguidos alinhados na
mesma direção do diagrama;
b) seqüências com onze ou mais pontos alinhados na mesma direção
do diagrama, com apenas uma falha na direção contrária;
c) seqüências com quinze ou mais pontos alinhados na mesma di-
reção do diagrama, com apenas duas falhas na direção contrária;
d) seqüências com dezoito ou mais pontos alinhados na mesma di-
reção do diagrama, com apenas três falhas na direção contrária.
Como no caso anterior, se o grau de confiança for trocado para
95%, os padrões pouco prováveis são os seguintes:
a) seqüências com sete ou mais pontos seguidos alinhados na
mesma direção do diagrama;
b) seqüências com dez ou mais pontos alinhados na mesma dire-
ção do diagrama, com apenas uma falha na direção contrária;
c) seqüências com treze ou mais pontos alinhados na mesma dire-
ção do diagrama, com apenas duas falhas na direção contrária;

84 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

d) seqüências com dezesseis ou mais pontos alinhados na mesma di-


reção do diagrama, com apenas três falhas na direção contrária.
No caso da Figura 2.3b, o operador deveria esperar ao menos
mais um resultado, antes de intervir no processo, pois o padrão
observado (seis pontos alinhados de forma crescente) ainda não é
um padrão improvável, nos limites de confiança de 95% e 98%.

Exemplo 2.4 – Um problema clássico de uso da distribuição


Binomial é a avaliação da qualidade de conjuntos de resultados
(lotes). Suponha que a cada um dos elementos de um conjunto
possa ser atribuído um dos seguintes atributos: “adequado”
ou “inadequado”. Suponha ainda que a qualidade do conjunto
(produção) possa ser avaliada a partir da fração observada de
elementos com o atributo “adequado” em uma amostra de tama-
nho m. Admita que a fração mínima de elementos “adequados”
do conjunto todo deva ser igual a p. Qual deve ser o tamanho m
do conjunto amostral para que a observação de d peças defeitu-
osas não seja suficiente para condenar a produção com grau de
confiança especificado e igual a PX%?
Esse problema é semelhante ao problema analisado no Exemplo
2.2. Fundamentalmente, a solução do problema é dada pela
expressão:

N-
A- ("') -c - ,,
11 - " - n!(m- u) !

Nesse problema, o grau de confiança PX% é especificado pelo pro-


jetista e reflete o grau de conservadorismo ou rigor do analista. d
é um número máximo admissível de observações “inadequadas”
no lote e usualmente reflete a dificuldade da análise. Quando a
análise de cada elemento é fácil, d pode ser grande, para permitir
uma tomada de decisão mais robusta. Não chega a ser absurdo, no
entanto, que d seja considerado igual a 0 ou 1, como nos casos em
que a análise do atributo é muito custosa em termos econômicos
e/ou de tempo. p reflete uma expectativa de qualidade e, num
ambiente de produção, costuma ser especificado pelo cliente.

Distribuições de Probabilidade 85
PERTENCE AO N O DE O I

Tabela 2.1 - Tamanho dos lotes como função da especificação


das análises para 95% de confiança.
p d m
0 29
1 46
0.10 2 61
3 75
4 89
5 103
0 59
1 93
2 124
0.05
3 153
4 181
5 209

Repare na Tabela 2.1 que os lotes têm que ser muito maiores que
os valores médios sugeridos pelo número de defeitos observados.
Para aprovar um lote produzido, com 95% de confiança, ao me-
nos 29 peças têm que ser analisadas e nenhum defeito pode ser
detectado, para se garantir que a fração de defeitos seja inferior
a 10%. O tamanho do lote sobe para 59 peças, sem quaisquer
defeitos observados, para garantir que a fração de defeitos seja
inferior a 5%. Isso mostra como uma boa precisão pode requerer
a análise de número bastante grande de experimentos.

2.2. A Distribuição de Poisson


Admita que num certo problema a probabilidade de sucesso (ou insuces-
so) seja muito pequena. Esse é o caso típico, por exemplo, numa linha de
produção em que a maioria esmagadora dos produtos fabricados é muito
boa e as falhas ocorrem apenas eventualmente. Nesse caso, o uso da distri-
buição Binomial pode ser muito inconveniente, porque nos obriga a traba-
lhar com longas somas (m tem que ser muito grande para resultar em va-
lores de n mensuráveis) de valores muito pequenos (por causa dos baixos
valores de p ou de q). Portanto, é conveniente avaliar o que acontece com
a distribuição Binomial no limite em que p vai a zero, m vai a infinito, mas
µN = mp permanece constante. Para tanto, vale a pena reescrever a curva
binomial da Equação (2.5) na forma:
m (m − 1)... (m − n + 1)
Bin (n; m, p ) = p n q m−n (2.8)
n!

86 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Multiplicando o numerador e o denominador por mn lembrando que


µN = mp, chega-se a:

m (m − 1)... (m − n + 1)
Bin (n; m, p ) = (mp )
n
n
q m−n =
m n!
m (m − 1)... (m − n + 1) µ Nn
(1 − p )
m−n
=
mn n!
 1  2   n − 1  µ Nn
(1 − p ) =
m−n (2.9)
1 −  1 −  ... 1 − 
 m  m   m  n!
 1  2   n −1 
 1 −  1 −  ... 1 −  n
 m  m   m  µN
( )
m
1 − p
(1 − p )
n
n!
Usando agora as seguintes relações matemáticas:
− mp −µN
(1 − p ) = (1 − p ) I p  = (1 − p ) I p 
m −1 −1
(2.10)
   
lim (1 + z )I1 z  = e (2.11)
z →0  

então,
−µN
lim (1 − p )−I1 p  = e− µN (2.12)
p →0 
 
Como:
 1  2   n −1 
 −  − ... 1 −
lim   m  m  
 
1 1
m 
m→∞   =1 (2.13)
p →0  (1 − p )n

 
a Equação (2.9) fica na forma:

lim  Bin  n; m, µ N  µ N − µN
n

m →∞    n! e = Poisson (n; µ N ) (2.14)


  m 

Portanto, a Equação (2.14) mostra que a distribuição de Poisson é o


limite da distribuição Binomial para valores muito pequenos de p (ou
q) e número muito grande de experimentos. A distribuição de Poisson
é uma distribuição discreta univariada e uniparamétrica, pois descreve

Distribuições de Probabilidade 87
PERTENCE AO N O DE O I

a variação de probabilidades de uma única variável discreta, n, e de-


pende de um único parâmetro, µN. Isso significa que apenas um dos
momentos da curva de distribuição pode ser fixado independentemente
pelo usuário, ficando os demais automaticamente definidos pela forma
da curva da Equação (2.14). Nesse caso muito particular, o parâmetro
pode ser confundido com o próprio valor médio da distribuição, o que
é muito conveniente do ponto de vista prático. Além disso, não é difícil
mostrar que:
(2.15)
mostrando que não é possível fixar de forma independente os valores
da média e da variância da distribuição de Poisson. Além disso, como
no caso da curva binomial, o índice de polidispersão diminui continu-
amente com o aumento de µ, indicando redução continuada do grau
de espalhamento relativo à medida que o valor médio se desloca para
valores mais altos.

Exemplo 2.5 – Para o caso em que µN = 10, a Figura 2.5 mostra


como a curva binomial converge em direção à curva de Poisson,
à medida que m cresce e p decresce. Vê-se que a convergência é
muito rápida.

D.lO
-- "' - 20. p - o.so
• "' =40. p =0.25
IUS - - M = IOO.p=-0.10
~ - - m - lOO,p • OOS
"li - PoiMOn
:2
:s 0.10

..e
~

(),()5

&.00
0 l
' • 8 1&
n " " . " lO

Figura 2.5 - Comparação entre as distribuições Bin (n;m,p)


e Poisson (n;10).

Exemplo 2.6 – A curva de Poisson é muito utilizada como fer-


ramenta de controle de processos, quando a probabilidade de
se detectar falhas é pequena. Por exemplo, suponha que em um
processo de manufatura qualquer é aceitável encontrar 2% de

88 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

peças defeituosas. (Esse limite, obviamente, caracteriza a eco-


nomia do processo e o grau de exigência imposto pelo cliente,
não devendo ser tomado como valor absoluto de referência.)
Nesse caso, se caixas contendo 200 peças são encaminhadas ao
cliente, qual a probabilidade de se encontrar n ou menos peças
defeituosas na caixa?
Para resolver esse problema, é conveniente expressar o problema
de forma matemática precisa. Deseja-se saber o valor de:

J.1N = np'
O uso da distribuição de Poisson é justificado por causa do proble-
ma tipicamente binomial (apenas dois resultados são possíveis:
peça perfeita ou peça defeituosa) e do baixo valor da probabilidade
e respectivo alto valor de dados analisados (m = 200, p = 0.02,
µN = 4). A soma inclui o fato de que um número de defeitos em
até n peças está sendo considerado.

U)ll] .... ____.....,..--


. - ..._
11' ---~--
__..,..
~

_...; ---j
&

I
~
/ 9.8 Q
J / / /
i:l IUS

/
I
I C)j'l,
E

I"
::1
,l
~ ~
::.0 0.!1()
l~ I
...
__.
:E
::1 I •• - m- lS ~(I
A
e
I)_AS
"' 100
t:l.o '" =2{10
,.. tlf

I
IJ.811J
J l l ~· !I ,.:; '7 8 l
0
n '
Figura 2.6 - Probabilidade acumulada da distribuição
de Poisson (n; 0.02 m).

A Figura 2.6 mostra como PAC(n) varia com n, para diferentes valores
de m (lembrando que no problema analisado µN = 0.02 m). Observe
que os limites de 95% e 98% impostos definem as quantidades
prováveis de defeitos encontradas em lotes de tamanhos variáveis.
Assim, para lotes de 25 peças, encontrar duas peças defeituosas
já condena a produção. De forma similar, encontrar três ou cinco
peças defeituosas em lotes de tamanho 50 ou 100 respectivamente
também condena a produção. Para lotes de tamanho 200, oito pe-

Distribuições de Probabilidade 89
PERTENCE AO N O DE O I

ças defeituosas condenam o processo no limite de 95%, enquanto


nove peças condenam o processo no limite de 98%. Se for tomado
como procedimento heurístico a recomendação de nunca condenar
o processo sem a detecção de pelo menos cinco peças defeituosas,
vê-se que o tamanho do lote amostral nunca deve ser inferior a
100 peças.

Exemplo 2.7 – A distribuição de Poisson também aparece natural-


mente em vários problemas de interesse da engenharia. Um dos
problemas clássicos que levam ao aparecimento da distribuição
de Poisson é o problema do crescimento de aglomerados, como
na formação de cadeias moleculares longas (polimerização), de
agregados bacterianos ou de estruturas coloidais.
Suponha que em um meio diluído, com composições aproximada-
mente constantes, ocorre uma transformação na forma:

Pn + M 
K
→ Pn +1
onde Pn é a espécie que cresce, M é a unidade fundamental de
formação do aglomerado e K é uma constante de velocidade, que
diz quão rapidamente a transformação pode ocorrer. Nesse caso, a
espécie Pn é formada de acordo com a seguinte equação:

dPn
= KMPn −1 − KMPn
dt
onde o termo diferencial representa o acúmulo da espécie de ta-
manho n, o primeiro termo do lado direito representa a velocidade
com que a espécie de tamanho n é formada a partir da espécie
de tamanho (n - 1) e o segundo termo do lado direito representa
a velocidade com que a espécie de tamanho n é consumida para
formar a espécie de tamanho (n + 1).
Para resolver a equação de balanço formada, é preciso reconhecer
primeiro que a espécie de tamanho 1 não pode ser formada a
partir de nenhuma outra espécie. Nesse caso,

dP1
= − KMP1
dt
Além disso, é preciso fornecer as condições de contorno do proble-
ma (nesse caso, condições iniciais). Normalmente, em problemas

90 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

práticos fornece-se uma quantidade conhecida da espécie funda-


mental (número de bactérias, espécies químicas que promovem a
reação etc.) e observa-se a evolução das quantidades das demais
espécies. Assim,

P1 (0 ) = P10 , Pn (0 ) = 0 , n ≥ 2
Para resolver as equações de balanço é conveniente dividi-las
pelo produto (KMP10), de maneira que as equações ficam na forma
mais simples:

P 
d n  dp
 P10  =  Pn −1  −  Pn  ⇒ n = pn −1 − pn , pn (0 ) = 0
    dτ
d (KMt )  P10   P10 

 P 
d 1  dp1
 P10  = − P1 ⇒ = − p1 , p1 (0 ) = 1

d (KMt ) P10
onde pn e τ são chamados respectivamente de concentração
adimensional da espécie n e tempo adimensional do processo. A
quantidade pn pode também ser interpretada como uma proba-
bilidade, já que ela representa a fração de aglomerado que tem
comprimento n, dentre todos os aglomerados possíveis formados
no sistema.
As equações podem ser resolvidas recursivamente a partir de n
= 1. Para a primeira equação,

p1 (t ) = exp (−τ )
Substituindo o valor de p1(t) no balanço de p2, chega-se a:

dp2
+ p2 = exp (−τ )
dt
cuja solução é:

p2 (t ) = τ exp (−τ )
Repetindo-se o procedimento para n = 3, 4, ...

Distribuições de Probabilidade 91
PERTENCE AO N O DE O I

τ2 τ3
p3 (t ) = exp (−τ ) p4 (t ) = exp (−τ )
2 3⋅ 2
τ n −1
pn (t ) = exp (−τ )
(n − 1)!
Comparando-se a equação anterior com a Equação (2.14), observa-
se que a solução do problema é a distribuição de Poisson deslocada
uma unidade para frente; ou seja,

pn (t ) = Poisson (n − 1;τ )
O deslocamento é por causa do início da contagem dos tamanhos
(n = 1), maior que o valor inicial válido para a distribuição de Poisson
(n = 0). É muito curioso observar que a curva de distribuição de ta-
manhos dos aglomerados se desloca com valor médio igual ao valor
do tempo adimensional (portanto, cresce sempre), que é o parâmetro
fundamental do processo de crescimento. A Figura 2.7 ilustra a evolu-
ção dos tamanhos dos aglomerados, à medida que o tempo passa.
111:5 . - - - - - - - - - - - - -- ----,
r-• r • Lll
• r - ::m
I
,. 11 .. r ~u
I ~ 110
11

tc.
..
I •'"'
"' ~ I!
~'"""·

.
Qlll
j Ill .:• \
r

~
!;; Dill

oro
. ."'"'
Ill
~' ·,. X
I
~
,•
'•
•..
\.,
D

Figura 2.7 - Evolução temporal da concentração de aglomerados


de tamanho n.

2.3. A Distribuição Hipergeométrica


Admita que num certo problema a probabilidade de sucesso (ou insu-
cesso) se modifique, à medida que os experimentos se sucedem. Esse é
o caso típico que ocorre quando a realização do experimento interfere
nos tamanhos das populações investigadas. Por exemplo, imagine um
saco onde são acondicionadas 10 bolinhas, sendo cinco delas pretas e
as cinco restantes, vermelhas. Qual a probabilidade de se retirar do saco

92 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

duas bolas pretas, se as bolas NÃO são devolvidas ao saco? Nesse caso,
embora a probabilidade de se retirar a primeira bola preta seja de 50%
(5 possibilidades dentre 10), a probabilidade de se retirar a segunda bola
preta cai para 44.44% (4 possibilidades dentre 9). Portanto, a probabili-
dade de serem retiradas duas bolas pretas em seguida é:
5 4 2 5 5
PPP = ⋅ = = 22.22% ≠ ⋅ = 25%
10 9 9 10 10
Vê-se, portanto, que toda vez que o procedimento de amostragem
ou realização do experimento modifica a natureza das populações ava-
liadas, esse efeito deve ser levado em consideração. (É por esse motivo
que as amostras devem ser tão pequenas e representativas da população
investigada quanto possível, quando o material amostrado modifica a
população investigada. É também por esse motivo que medidas expe-
rimentais não intrusivas e não destrutivas são preferíveis no ambiente
de laboratório.)
No caso mais geral, seja N o tamanho da população, m o tamanho da
amostra ou número de experimentos realizados, n o número de suces-
sos observado e p a probabilidade inicial de sucesso. Como no caso da
distribuição Binomial, a probabilidade de se obter n sucessos seguidos
pode ser dado na forma
PA1 = P (S )1 ...P (S )n P (I )n +1 ...P (I )n + ( m − n )
pN pN − 1 pN − (n − 1) (1 − p ) N (1 − p ) N − 1 (1 − p ) N − (m − n )
PA1 = ... ...
N N −1 N − (n − 1) N − n N − (n + 1) N − (n + (m − n ))
(2.16)
Repare que se a posição dos sucessos e insucessos for modificada na
Equação (2.16), a equação não muda, indicando que qualquer arranjo
que contenha o mesmo número de sucessos tem a mesma probabilidade
de ocorrer. Como o número de diferentes arranjos pode ser dado pela
Equação (2.4), a probabilidade de n sucessos ocorrerem pode ser dada
pelo produto da Equação (2.16) – probabilidade de um arranjo qualquer
de tamanho m que contém n sucessos – pela Equação (2.4) – número
de arranjos de tamanho m que contêm n sucessos. Fazendo-se essa
operação, chega-se a:

Distribuições de Probabilidade 93
PERTENCE AO N O DE O I

 Np   N − Np 
  
 n  m − n 
Hiper (n; N , m, p ) = (2.17)
N
 
m 
que é a curva de distribuição Hipergeométrica.
A distribuição Hipergeométrica é uma distribuição discreta univa-
riada e triparamétrica, pois descreve a variação de probabilidades de
uma única variável discreta, n, e depende de três parâmetros: N, que
caracteriza o tamanho do sistema investigado; m, que caracteriza o
tamanho da amostra; e p, que caracteriza o estado inicial da população.
Isso significa que três momentos da curva de distribuição podem ser
fixados independentemente pelo usuário, ficando os demais automati-
camente definidos pela forma da curva da Equação (2.17). Além disso,
não é difícil mostrar que:
(2.18)
e:

CJ,~ = mp (1- p )( NN - 1 -m) (2.19)

Parece também intuitivo e, portanto, desnecessário provar rigorosa-


mente, que a distribuição Hipergeométrica converge para a distribuição
Binomial, à medida que o tamanho N da população aumenta. Nesse caso, o
procedimento de amostragem não consegue mudar de forma significativa
o estado da população, independentemente do resultado obtido.

Exemplo 2.8 – Para o caso proposto originalmente, em que


há cinco bolas pretas e cinco bolas vermelhas inicialmen-
te no saco, N = 10 e p = 0.5. Se o tamanho da amostra é
m = 2, as probabilidades ficam:
5 4 2, 5 5 5 5 5 5 5 4 2
PPP = = PPV = = , PVP = = , PVV = =
10 9 9 10 9 18 10 9 18 10 9 9

Repare que, de fato, as probabilidades dos arranjos VP e PV


ocorrerem são as mesmas, como previsto pela Equação (2.16). Se
associarmos a condição de sucesso às bolas pretas, as probabili-
dades acima podem ser escritas como:
2 5 2
P2 = PPP = , P1 = PPV + PVP = , P0 = PVV =
9 9 9

94 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Utilizando a Equação (2.17) para calcular as probabilidades de


sucesso, chega-se a:
 5   5   5!   5! 
     
0!5!   2!3!  1 ⋅10 2
P0 = Hiper (0;10, 2, 0.5 ) =    = 
 0 2
= =
10   10!  45 9
   
2  2!8! 
 5  5   5!   5! 
     
 1  1   1!4!  1!4!  5 ⋅ 5 5
P1 = Hiper (1;10, 2, 0.5 ) = = = =
10   10!  45 9
   
2  2!8! 
 5   5   5!   5! 
   
 2   0   2!3!   0!5!  10 ⋅1 2
P2 = Hiper (2;10, 2, 0.5 ) = = = =
10   10!  45 9
   
2  2!8! 

o que mostra a consistência da análise.

Exemplo 2.9 – Para o caso proposto originalmente, em que


50% das bolas são pretas no início do processo, associa-se a
essa cor o resultado bem sucedido. Então, para um tamanho
amostral constante e igual a m = 10, calcula-se a distribuição
de probabilidades de n sucessos para valores crescentes de N.

U..l
-\ :!II
• -·~ ~ -Ill
il ~'

....
I
:r.:
"C
d
:=; ..
~a.

1
!U

U.l
/•.. '

)I ~ .. !i r.
a
II , I ll
J\'u1noeru d~ buln~> ~n-e~m1 -1r

Figura 2.8 - Comparação das distribuições hipergeométricas


e binomial para diferentes tamanhos de população.

Distribuições de Probabilidade 95
PERTENCE AO N O DE O I

Os resultados são mostrados na Figura 2.8 e comparados à curva


binomial. Repare a rápida convergência para a curva binomial, à
medida que N aumenta.

2.4. A Distribuição Uniforme ou Retangular


Admita que num certo problema números reais são gerados aleato-
riamente e cobrem de forma uniforme o segmento de reta [a, b], de
tal maneira que qualquer subintervalo de comprimento inferior a (b
- a) contenha o mesmo número de pontos e, portanto, seja igualmente
provável. Nesse caso, obtém-se a distribuição Uniforme ou Retangular,
cuja definição é:
0, x<a
 1

Unif (x; a, b ) =  , a≤ x≤b (2.20)
 b − a
0, x>b

A distribuição Uniforme está ilustrada na Figura 2.9. A distribuição


Uniforme é uma distribuição contínua univariada e bi-paramétrica, pois
descreve a variação de probabilidades de uma única variável contínua, x,
e depende de dois parâmetros, a e b, que são os extremos do intervalo
real em que está definida. Isso significa que dois momentos da curva de
distribuição podem ser fixados independentemente pelo usuário, ficando
os demais automaticamente definidos pela forma da curva da Equação
(2.20). Além disso, não é difícil mostrar que:

11x == a+ b (2.21)
2
e:
.: _ (b - a)~ ~ (2.22)
Gx - -'--
12
Embora a distribuição Uniforme seja bastante simples, ela aparece
em uma variedade de problemas práticos, como por exemplo no arredon-
damento de erros. Seja a i-ésima casa decimal de um número real, que
se deseja arredondar. Se a (i + 1)-ésima casa decimal é inferior a cinco, a
i-ésima casa é mantida constante e as casas decimais menos significativas
são descartadas. Se a (i + 1)-ésima casa decimal é igual ou superior a
cinco, a i-ésima casa é incrementada de uma unidade, enquanto as casas
decimais menos significativas são descartadas. Por exemplo, 1.53453876
 1.5 , 1.53453876  1.53 , 1.53453876  1.535

96 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Unif(x; a,b)

I
b -a

a b X

Figura 2.9 - A Distribuição Uniforme.

A operação de arredondamento é muito importante porque não faz


sentido usar mais algarismos significativos que aqueles consistentes
com a precisão do equipamento usado para fazer a medida. Ao se ler
um número arredondado, não é possível dizer como as casas decimais
menos significativas estavam preenchidas, de maneira que é bastante
razoável supor que o erro de arredondamento, desconhecido, segue a
distribuição Uniforme no intervalo da casa decimal imediatamente menos
significativa. Por exemplo, nas operações definidas acima seriam, 1.5 
[1.45, 1.55] , 1.53  [1.525, 1.535] , 1.535  [1.5345, 1.5355]
Essa argumentação torna possível implementar uma técnica compu-
tacional de geração de números aleatórios extremamente eficiente, que
é amplamente utilizada pela maior parte dos simuladores e ambientes
de programação. A técnica consiste em provocar o truncamento e o
conseqüente arredondamento de casas decimais no computador. Por
exemplo, se um número inteiro é dividido por um outro número inteiro,
o resultado pode ter um número infinito de casas decimais não nulas.
Se o computador tem precisão finita, parte do resultado é perdida para
sempre. Portanto, ao se multiplicar o resultado truncado pelo divisor,
obtém-se um número que não é necessariamente igual ao dividendo
original. Por exemplo, suponha que a precisão da nossa operação é de
duas casas decimais apenas. Nesse caso, (1/7) = 0.14 0.14 ⋅ 7 = 0.98
 1 – 0.98 = 0.02
Vê-se que a operação 1– (1/7) resultou num resíduo de 0.02. Se os
números manipulados são suficientemente grandes, como na forma N1
– N2 (N1/N ), e se N1 e/ou N2 é gerado através de algum procedimento
2
aleatório, como por exemplo um número obtido da transformação do
horário em que o programa está rodando com precisão de décimo de
segundo na forma:

Distribuições de Probabilidade 97
PERTENCE AO N O DE O I

 MM ⋅ 600 + SS ⋅10 + D 
HH : MM : SS .D → N2 =   N3 = X 0 N3
 36000 
então é possível gerar números distribuídos no intervalo (0,1) de
maneira praticamente uniforme. (Na expressão acima, HH, MM, SS e
D representam respectivamente a hora, os minutos, os segundos e
os décimos de segundo. A transformação acima pode ser considerada
aleatória na suposição de que a operação pode ser realizada a qualquer
momento do dia, sem horário marcado. Não é conveniente introduzir
a hora HH na operação porque em geral o trabalho é realizado no
horário comercial, o que acabaria por introduzir significativo grau de
determinismo na operação. N3 é um número de referência, do qual o
número N2 < N3 pode ser considerado uma fração X0. No caso consi-
derado, N3 deveria ser o número 36000, que é o número de décimos
de segundo contidos em uma hora.) A operação entre parênteses
gera um número inicial no intervalo (0,1) chamado de semente. A
operação de truncamento pode ser então repetida de maneira iterati-
va, usando o resultado da iteração prévia como semente da próxima
iteração, na forma:

N3  N 
X k +1 = X k − Trunc  X k 3  = ( X k N 3 )mod (N 2 ) (2.23)
N2  N2 
O significado da Equação (2.23) é semelhante à operação de divisão
executada anteriormente com o número 7. O primeiro termo consiste
em gerar um número maior do que 1 com um certo número de casas
decimais, enquanto o segundo termo consiste em gerar o mesmo
número sem casas decimais. Dessa forma, o número resultante da
operação é um número entre 0 e 1, com parte inteira nula e número
arbitrário de casas decimais. Na Equação (2.23) Trunc representa a
operação de abandonar a parte não inteira do número resultante,
enquanto mod representa manter apenas a parte decimal da divisão
entre dois números. A seqüência de números gerada, então, não é
verdadeiramente aleatória, pois a repetição da semente inicial resul-
tará sempre na mesma seqüência de números. É a geração aleatória
da semente que garante de fato um certo grau de aleatoriedade da
seqüência de números. Por isso, a seqüência obtida é dita pseudo-
aleatória e é, para todos os fins práticos, uma seqüência de números
aleatórios excelente para simulação. Os exemplos abaixo ilustram
esses conceitos.

98 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 2.10 – As Figuras 2.10 e 2.11 mostram os primeiros


3600 números obtidos do procedimento recursivo implementado
computacionalmente, com X0 = 0.35312356.

X k +1 = 3 X k − Trunc (3 X k )

-
J$(1

JOti
e.
~ ::!~
~

'i :oo
~
(0;, 15(1

nt41
iW

Figura 2.10 - Distribuição dos pontos obtidos da recursão.

Figura 2.11 - Seqüência dos pontos obtidos da recursão.

As Figuras 2.10 e 2.11 mostram que, a despeito da regra deter-


minística que deu origem aos pontos, não parece haver qualquer
padrão de formação entre os pontos, que se aproximam de fato de
uma distribuição Uniforme. O fator de correlação calculado entre
pontos deslocados de uma iteração é inferior a 0.3, indicando
que há realmente muito pouca ordem no sistema. A Figura 2.12

Distribuições de Probabilidade 99
PERTENCE AO N O DE O I

ilustra claramente o procedimento determinístico utilizado para


gerar os pontos da distribuição.

•••
•••
• •••
"' •••
0..1

•••••• O.l •••


XA
... ... ••

Figura 2.12 - Regra de recursão utilizada.

As Figuras 2.10 a 2.12 são impressionantes porque indicam que


um excelente grau de aparente aleatoriedade já pode ser obtido
com valores muito pequenos de N1, N2 e N3. Modificando esses
valores de maneira apropriada é possível obter seqüências pseu-
do-aleatórias onde a componente determinística é virtualmente
inexistente.
A forma extremamente simples com que é possível gerar números
aleatórios no computador faz com que a distribuição Uniforme seja utili-
zada como padrão de comparação e geração de números aleatórios para
outras funções de densidade de probabilidade de variáveis contínuas. Para
que isso seja possível, dois conjuntos de dados aleatórios xi e yi podem
ser chamados de seqüências aleatórias equivalentes se:
X· y

J P o(x)d\' = J (<} (y)cry

--
,.
2

A Equação (2.24) define seqüências aleatórias equivalentes como


aquelas que geram probabilidades acumuladas iguais para diferentes
(2.24)

distribuições de probabilidade. Como o procedimento definido pela


Equação (2.23) resulta na distribuição Uniforme no intervalo (0,1), a
Equação (2.24) pode ser escrita como: (2.25)

100 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

de maneira que o número xi gerado pelo computador, que segue a dis-


tribuição Uniforme no intervalo (0,1), pode ser transformado em um
número aleatório que segue qualquer distribuição ℘2(y), bastando para
isso encontrar o valor yi que faz com que a probabilidade acumulada da
segunda distribuição seja igual ao valor xi gerado pelo computador. Este
procedimento permite manipular praticamente qualquer distribuição es-
tatística por via computacional. Por isso, esses procedimentos são muito
explorados durante o desenvolvimento e implementação de técnicas de
Monte Carlo, como descrito no Capítulo 5 deste volume.

Exemplo 2.11 – No Exemplo 1.13 mostrou-se que a probabilidade


acumulada da distribuição Triangular tem a forma:

0. ySO
2y' , OSySO.S
o.s+(4y- 2)- (2/ - o.s), O.SSySI
I. y;:: I

Usando a regra de transformação definida pela Equação (2.25)


conclui-se que:

0, xi ≤ 0

r-
 xi ,
 2
0 ≤ xi ≤ 0.5

r=
yi = 

1 − 1 −
(xi + 1) , 0.5 ≤ xi ≤ 1
 2

1, xi ≥ 1

Distribuições de Probabilidade 101


PERTENCE AO N O DE O I

....

!tiCJ

""'
~• ~ oJ a• •·• u a7 u •• 1.0
Lnrtn-alos

Figura 2.13 - Distribuição Triangular obtida a partir dos pontos gerados


computacionalmente no Exemplo 2.10, com distribuição próxima da uniforme.

As Figuras 2.13 e 2.14 ilustram a qualidade da transformação obtida


quando os pontos gerados no Exemplo 2.10 são usados para gerar a
distribuição Triangular. Os resultados podem ser considerados exce-
lentes. Repare como os pontos estão de fato mais concentrados ao
redor do valor 0.5, como esperado. No entanto, do mesmo jeito que foi
observado no exemplo anterior, os números não constituem de fato
uma seqüência aleatória, dado que a repetição da semente resultaria
na repetição da seqüência de números obtidos. A Figura 2.15 ilustra a
regra de transformação utilizada para geração da seqüência pseudo-
aleatória. Repare que, a despeito da existência de claríssima regra
determinística de obtenção dos números, é virtualmente impossível
observar isso a partir da seqüência de valores obtidos.

...
'-"
'<•
""s• ·~

>• •••
•••
•.• '-"-----"-''--==------=--''--'--"-'
(I -100 8(10 1200 1600 1{10() 2400 1800 JZOO J600
~(I OU"I'O da lf('J'a("i\0 - k

Figura 2.14 - Seqüência dos pontos obtidos da recursão para


a distribuição Triangular.

102 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

1.0

...
,. •••
"' ...
0.2

0.0
••• u 0.4
x,
••• ••• 1.0

Figura 2.15 - Regra de recursão utilizada.

2.5. A Distribuição Exponencial


Admita que num certo problema é possível associar uma velocidade
média de perda de alguma propriedade específica do sistema com a
quantidade dessa propriedade. Por exemplo, suponha que a velocidade
de desaparecimento de indivíduos em uma população seja proporcional
ao número total de indivíduos que constituem a população. Esse é o caso
típico que ocorre quando não há qualquer termo que contribua com o
aumento do número de indivíduos da população, como no caso de um
lote de partículas de catalisador que é colocado no interior de um rea-
tor químico ou num lote de partículas radioativas que é utilizado como
fonte de energia em um determinado processo radiativo. Nesse caso, um
problema bastante importante para o projeto do processo é saber qual
a probabilidade de se encontrar um certo número de partículas “vivas”
ou ativas após um determinado período de tempo. Para que o problema
possa ser respondido, é conveniente associar ao problema a seguinte
equação de balanço:
dN
= − KN , N (0 ) = N 0 (2.26)
dt
onde K é a constante de velocidade do problema e N é o número de
indivíduos ativos ou “vivos” da população. Como no Exemplo 2.7, é
conveniente dividir a Equação (2.26) por K e N0, resultando em:

Distribuições de Probabilidade 103


PERTENCE AO N O DE O I

 N 
d  dp
 0  = − N 
N , ⇒ = − p , p (0 ) = 1 (2.27)
  dτ
d (Kt ) N
 0
cuja solução é:

p (τ ) = exp (−τ ) (2.28)


que é a chamada forma absoluta da distribuição Exponencial. Para fins
de generalização da forma da distribuição Exponencial, já que nem sem-
pre é possível determinar a priori o valor da constante de velocidade do
problema, é mais comum encontrá-la na forma:

, (2.29)

onde T é o valor médio da distribuição ou o tempo médio de vida dos


indivíduos.
Na forma da Equação (2.29), a distribuição Exponencial é uma distri-
buição contínua univariada e uniparamétrica, pois descreve a variação
de probabilidades de uma única variável contínua, t, e depende de um
único parâmetro, K ou T. Isso significa que apenas um dos momentos da
curva de distribuição pode ser fixado independentemente pelo usuário,
ficando os demais automaticamente definidos pela forma da curva da
Equação (2.29). Além disso, não é difícil mostrar que:

(2.30)

o que também mostra que o índice de polidispersão é constante e igual


a 2 para a distribuição Exponencial, indicando um grau de espalhamento
relativo em relação à média constante; ou seja, à medida que o valor
médio cresce, o grau de espalhamento cresce na mesma proporção.
A distribuição Exponencial é muito usada para descrever problemas
práticos de engenharia, como aqueles que envolvem o cálculo do tempo
de vida útil de peças e equipamentos. Nesse sentido, a distribuição Ex-
ponencial é um membro particular de uma família muito mais ampla de
distribuições de probabilidade que podem ser chamadas genericamente
de distribuições de tempo de vida. Essas distribuições poderiam ser
descritas genericamente a partir da Equação (2.27) como:

104 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

d ln (℘) ∞
= − K (t ) , ∫℘(t )dt = 1 (2.31)
dt 0

onde K(t) é uma constante de velocidade que pode variar com o tempo,
ao invés de admitir sempre o mesmo valor, como considerado anterior-
mente. Para que se compreenda como essa variação pode ser importante
em certos problemas, as estatísticas médicas comprovam que o índice de
mortalidade infantil diminui consideravelmente, à medida que a idade da
criança aumenta. Logo, a constante de velocidade K(t) é alta para idades
pequenas e cai continuamente, à medida que a criança vai ficando mais
velha. O mesmo fenômeno ocorre com máquinas e equipamentos. À
medida que o tempo passa, para valores de tempo pequenos, os riscos
de falha diminuem progressivamente, até que um valor mínimo é atin-
gido. A partir de certa idade, o risco de falha dos equipamentos começa
a aumentar progressivamente, em função do envelhecimento de peças e
demais componentes. Há, portanto, incentivos para se analisar o compor-
tamento de distribuições de tempo de vida obtidas a partir da Equação
(2.31), para diferentes formas da constante de velocidade K(t).
Antes de analisar essa família de funções, é conveniente introduzir
um linguajar característico da área de análise de riscos. Chamemos
inicialmente de S(t) à probabilidade de que o indivíduo sobreviva ao
tempo t1. Nesse caso:

S(l >t1 ) = 1 -l~c (t,) = P(t > 11 )= p(t}dt


-f
,, (2.32)

Nesse caso, a curva de densidade de probabilidades pode ser descrita


como:
JO(t)= dP,.. (t) = - dS (t)
dt dt (2.33)

Definamos como risco a função:


℘(t )
h (t ) = (2.34)
S (t )
que é uma medida relativa da velocidade de decaimento da população.
Substituindo a Equação (2.34) na Equação (2.33), chega-se a:
d ln (S (t ))
= −h (t ) (2.35)
dt

Distribuições de Probabilidade 105


PERTENCE AO N O DE O I

Como S(0) = 1, a Equação (2.35) pode ser integrada na forma:

(2.36)

Logo, combinando as Equações (2.31), (2.34) e (2.35), chega-se a:

) (2.37)

A distribuição Exponencial da Equação (2.29) pode ser obtida fazen-


do-se h(t)=K(t). Outras formas convenientes de distribuições de tempo
de vida são apresentadas a seguir.

2.5.1. A Distribuição de Gompertz

h (t ) = exp [α + β t ], −∞ < α < ∞ , β ≥ 0 (2.38)

 exp (β t ) − 1 
S (t ) = exp − exp (α )  (2.39)
 β 
 exp (β t ) − 1 
℘(t ) = Gomp (t ; α , β ) = exp (α + β t )exp exp (α )  
 β 
(2.40)
A distribuição de Gompertz é um modelo bi-paramétrico muito usado
para descrever a taxa de mortalidade da população adulta. Observe que o
risco aumenta exponencialmente com o aumento da idade do indivíduo.
A restrição imposta sobre β é necessária para garantir a existência da
integral da função de densidade de probabilidades.

106 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

2.5.2. A Distribuição de Weibull

h (t ) = α t β , α > 0 , β > −1 (2.41)

 t β +1 
S (t ) = exp −α  (2.42)
 β + 1 
 t β +1 
℘(t ) = Weibull (t ; α , β ) = α t exp −α β
 (2.43)
 β + 1 
A distribuição de Weibull é um modelo bi-paramétrico muito usado
para descrever o tempo de vida útil de equipamentos, peças e compo-
nentes eletrônicos. Observe que o risco aumenta como uma potência do
tempo de vida do indivíduo. As restrições impostas sobre α e β são neces-
sárias para garantir a existência da integral da função de densidade de
probabilidades. Para a distribuição de Weibull é possível mostrar que:
 1 
− 
 α   β +1   1 
µT =   Γ + 1 (2.44)
 β +1   β +1 
 2 
− 
 α   β +1    2  2 1 
σ T2 =   Γ
  + 1  − Γ  + 1  (2.45)
 β +1    β + 1   β + 1 
onde Γ(x) é a função gama, definida como:

Γ (x ) = ∫ z x −1e − z dz (2.46)
0

Uma curiosidade sobre a função gama é que:


Γ (x + 1) = xΓ (x ) (2.47)
que resulta no valor Γ (x + 1) = x! quando x é inteiro. Por isso, a função
gama é chamada usualmente de função fatorial generalizada.

2.5.3. A Distribuição Gama


Quando a constante de velocidade da Equação (2.31) se aproxima assin-
toticamente de um valor limite na forma:

Distribuições de Probabilidade 107


PERTENCE AO N O DE O I

d℘  βt −α  α > 0 β > 0 C > 0


= −C  ℘, , , (2.48)
dt  t 
então,
β α +1 α − β t
℘(t ) = Gama (t ; α , β ) = t e (2.49)
Γ (α + 1)
que é a conhecida distribuição Gama. Repare que a constante de ve-
locidade indica que a ocorrência de falhas para tempos muito curtos é
virtualmente inexistente, havendo convergência para uma constante de
velocidade aproximadamente estável, à medida que o tempo passa. A
distribuição Gama é um modelo bi-paramétrico (a constante C é calculada
de forma a garantir que a integral de ℘(t) seja igual a 1) também muito
usado para descrever o tempo de vida útil de equipamentos, peças e
componentes eletrônicos. As restrições impostas sobre α e β são neces-
sárias para garantir a existência da integral da função de densidade de
probabilidades. Para a distribuição Gama é possível mostrar que:

Jlr =(a+ 1) {3 (2.50)

CJi,:;;: (a+I)
{3~ (2.51)

Exemplo 2.12 – Uma curva de distribuição discreta, análoga à


curva de distribuição Exponencial contínua, pode ser desenvolvida
para sistemas em crescimento, como no Exemplo 2.7. Nesse caso,
suponha a seguinte equação de balanço:

= K p Pn −1 − (K p + K t )Pn , Pn (0 ) = 0 , n > 1
dPn
dt
= F − (K p + K t )P1 , P1 (0 ) = 0
dP1
dt
onde Kp e Kt são respectivamente as constantes de velocidade para
o crescimento e desaparecimento da espécie em crescimento Pn.
F é uma fonte de espécies de tamanho mínimo. Como nos casos
anteriores, é conveniente dividir as equações de balanço pela
constante global de velocidade (Kp+Kt) na forma:

108 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

dPn
= qPn −1 − Pn , Pn (0 ) = 0 , n > 1

dP1
= f − P1 , P1 (0 ) = 0
ô
d
onde τ = (Kp+Kt)t é o tempo adimensional, q = Kp/(Kp+Kt) é a
probabilidade de crescimento e f = F/(Kp+Kt) é a fonte adimen-
sional. A solução do problema fica então na forma:

 n −1 τ i e −τ 
Pn = q n −1
f 1 − ∑ 
 i = 0 i ! 
Quando o tempo é muito grande, o termo exponencial faz com
que a parte dinâmica da solução vá a zero, resultando na seguinte
solução estacionária:
Pn = q n −1 f
Para que essa solução possa ser interpretada como uma proba-
bilidade, é necessário que a soma de todos os valores possíveis
seja igual a 1. Nesse caso,
∞ ∞
1
∑ Pn = f ∑ q n−1 = f
n =1 n =1 (1 − q )
Portanto, definindo:
Pn
pn = = (1 − q )q n −1
f
(1 − q )
que é a chamada distribuição de Flory, análoga discreta da curva
exponencial, pois:

 1− q     1   
pn = (1 − q )exp {(n − 1)ln (q )}=   exp − ln    n 
 q     q   
que pode ser comparada à Equação (2.29). Portanto, a curva expo-
nencial discreta aparece como solução estacionária dos problemas
de crescimento de espécies, quando a espécie mínima é gerada
continuamente e quando há desaparecimento simultâneo das
espécies em crescimento no meio.

Distribuições de Probabilidade 109


PERTENCE AO N O DE O I

2.6. A Distribuição Normal


Admita que na Equação (2.31), K(t) é uma função linear de t. Nesse
caso,

d ln (℘) t
=−
dt α
(2.52)
 t2 
℘(t ) = C (α )exp  − 
 2α 
onde C(α) é uma constante de integração que garante que a integração
da curva de densidade sobre o domínio de t é igual a 1. A Equação (2.52)
é a chamada distribuição Gaussiana ou distribuição Normal. Na forma
apresentada na Equação (2.52), a curva de distribuição Normal pode ser
interpretada como uma distribuição de tempos de vida em que a proba-
bilidade de falhas aumenta linearmente com o aumento da vida útil do
material. O parâmetro α controla a intensidade dessa variação.
Na realidade, a curva de distribuição Normal ou Gaussiana apresenta
utilidade muito maior que a sugerida somente pela interpretação da dis-
tribuição de tempos de vida. Em primeiro lugar, a curva normal pode ser
estendida e utilizada para todo o domínio real da variável contínua t, já
que ela é simétrica em relação ao eixo ℘(t). Logo, ela pode ser associada
a um número muito maior de problemas físicos de interesse prático,
onde a variável aleatória pode assumir valores positivos ou negativos.
Em segundo lugar, a variável t pode ser escalada convenientemente na
forma:

1  1  t − µ 2 
℘(t ) = Normal (t ; µT , σ T ) = exp  −  T
 
σT 2π  2  σT 
 ,
−∞ < t < ∞ (2.53)
ganhando a forma de uma distribuição contínua univariada bi-paramé-
trica. (O escalonamento realizado consiste em fazer com que o ponto de
máximo da curva normal coincida com o valor médio.) A forma bi-para-
métrica é extremamente prática porque os parâmetros da curva normal
coincidem com os valores da média e do desvio padrão (ou variância)
usados anteriormente para caracterizar o posicionamento e o grau de
espalhamento da distribuição de probabilidades. Dessa forma, apenas a
caracterização da média e da variância da distribuição é suficiente para
a utilização direta da curva de distribuição Normal. Como nos demais
casos, fixadas a média e a variância (ou desvio padrão), os demais mo-

110 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

mentos da curva normal estão automaticamente definidos pela forma


da Equação (1.26). Em terceiro lugar, por ser simétrica e monomodal
(apresenta apenas um máximo), a média, a moda e a mediana da curva
normal são coincidentes.
Além disso, a distribuição Normal é matematicamente tratável; isto
é, muitos resultados analíticos só podem ser explicitados para esta dis-
tribuição. Por esse motivo, as distribuições t de Student, χ2 (chi-quadrado)
e F de Fisher puderam ser desenvolvidas para a análise dos resultados
obtidos a partir de variáveis com distribuição Normal. Essas três distri-
buições e os testes estatísticos relacionados a elas serão discutidos no
Capítulo 3 deste volume.
Por todas essas características, a curva normal foi adotada como
modelo adequado de distribuição de variáveis aleatórias em um infinito
número de aplicações. Isso é particularmente verdadeiro em problemas
que lidam com flutuações aleatórias causadas por imprecisões e erros de
medidas. Em problemas de medida, quando o instrumento de medição
está bem calibrado e funcionando adequadamente (o que não é neces-
sariamente verdade!), parece razoável admitir que:
a) Os erros possam ser positivos ou negativos, distribuindo-se aleato-
riamente em torno do valor zero de forma simétrica. Dessa forma,
parece razoável admitir que as medidas se distribuam aleatoriamente
e de forma simétrica em torno do valor médio;
b) Quanto maiores os erros em valor absoluto, menos provável é a sua
ocorrência.
Ambas as condições são naturalmente satisfeitas pela curva normal,
que ainda exige apenas a caracterização de dois parâmetros naturalmente
utilizados para a caracterização de densidades de probabilidade – a média
e a variância. Isso faz da curva normal um bom modelo probabilístico
para boa parte das medidas experimentais. Atente para o fato de que isso
NÃO significa dizer que os erros de medição seguem necessariamente
o modelo normal.
No entanto, um resultado extremamente importante, conhecido como
o Teorema do Limite Central, faz da curva normal a “rainha” de todas
as curvas de distribuição de probabilidades.

Teorema do Limite Central – Sejam x1, x2, x3, ..., xN, números ge-
rados por distribuições de probabilidades quaisquer, com médias
µXi e variância σ2Xi. Seja ainda a soma SN definida como:

Distribuições de Probabilidade 111


PERTENCE AO N O DE O I

N
S N = ∑ xi
i =1

Então ℘(SN) se aproxima de uma curva normal quando N é sufi-


cientemente grande.

O Teorema do Limite Central, que não será provado aqui por falta de
espaço, diz que, independentemente das distribuições de probabilidades
que deram origem às flutuações aleatórias fundamentais, resultados
obtidos da soma de muitos eventos aleatórios apresentam distribuição
aproximadamente normal. Isso significa que eventos complexos, gerados
a partir da soma de pequenas flutuações aleatórias, apresentam distri-
buição de probabilidades próxima da normal. Talvez seja essa a razão
principal que faz com que a distribuição Normal encontre uso generali-
zado como modelo probabilístico da distribuição de erros de medida.
A despeito da força do Teorema do Limite Central, deve-se evitar a
falsa impressão de que toda distribuição de erros ou de que toda distribui-
ção de probabilidades contínua é normal. Tal associação é absolutamente
equivocada e poucos exemplos bastam para mostrar que a curva normal
não é uma panacéia para todos os problemas e aplicações. Por exemplo,
a distribuição Normal apresenta um grande defeito para sua utilização
em grande número de problemas, que é o fato das flutuações aleatórias
ocorrerem no intervalo (-∞,+∞). Obviamente algumas variáveis não
podem ser infinitamente grandes e outras não podem jamais assumir
valores negativos. Por exemplo, se a variável estudada for a altura de
pessoas numa população, não parece razoável acreditar que seja possível
encontrar pessoas com mais de três metros de altura, por menor que
essa probabilidade seja. Da mesma forma, não parece razoável acreditar
que seja possível encontrar pessoas com altura negativa, por menor que
seja essa probabilidade. Por isso, o modelo de distribuição Normal de
probabilidades deve ser encarado como um modelo conveniente para
uso, por todas as razões descritas anteriormente. Isso não significa que
a distribuição real de probabilidades de qualquer problema físico possa
ou deva ser descrita necessariamente pela curva normal, como algumas
pessoas teimam em pensar e afirmar.

Exemplo 2.13 – Para a seqüência pseudo-aleatória do Exemplo


2.10, foram calculadas médias de seqüências de 3, 5, 10 e 50
pontos respectivamente. 3600 valores médios foram tomados em
cada caso para construir os histogramas de distribuição. As curvas

112 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

normais foram traçadas usando-se como valor médio a média


aritmética dos 3600 pontos e como variância os desvios médios
quadráticos dos pontos em relação à média, na forma:
31!00 lQIO

I~ !(~-pzf
Jl - t=l • Q'~ = _.1=("'------
,.z- 3600 3600
Os resultados estão apresentados na Figura 2.16 abaixo.

--
}:

-- •

._. ....... u ....... ...

Figura 2.16 - Distribuição da média aritmética de seqüências de


(a) 3, (b) 5, (c) 10 e (d) 50 pontos obtidos da distribuição
pseudo-aleatória do Exemplo 2.10.

Repare como a distribuição Uniforme converge rapidamente para


a distribuição Normal. Repare ainda que a distribuição Normal vai
se estreitando em torno do valor médio, à medida que o número
de pontos usados para cálculo da média vai aumentando.

2.7. A Distribuição Log-Normal


Como discutido anteriormente, o uso da curva normal pode apresentar
sérios inconvenientes práticos quando a variável analisada não for ne-
gativa. Esse é o caso típico da descrição de distribuições de tamanho,
massa etc., comuns em problemas de engenharia. Nesse caso, é comum
admitir que a distribuição do logaritmo da variável considerada, que
pode assumir valores positivos ou negativos, segue uma distribuição

Distribuições de Probabilidade 113


PERTENCE AO N O DE O I

Normal. Esse modelo dá origem à curva de distribuição de probabilidade


log-normal, na forma:

1
jJ(.r) = LogNonn {x:a, IJ) = --;.-
tJ .J2Tr
e:~Cp(-.!.('"
2
(.r)-a )
tJ
(2.54)

onde:

J1.1 =exp a +
{f)
( 2 (2.55)

a; =exp(2a + p~ {exp(IJ:)- I)) (2.56)

A distribuição Log-Normal é uma distribuição contínua, univariada e


bi-paramétrica. Dessa forma, é possível definir de forma independen-
te os dois primeiros momentos da curva de distribuição, ficando os
demais determinados automaticamente pela forma da Equação (2.54).

2.8. Extensão de Conceitos para Sistemas


Multidimensionais
Apesar de todo o estudo realizado até aqui ter sido baseado em dis-
tribuições de probabilidade de uma única variável aleatória, todos os
conceitos podem ser estendidos convenientemente para distribuições
de múltiplas variáveis. Modelos de histogramas de probabilidade de
múltiplas variáveis discretas e funções densidade de probabilidade de
múltiplas variáveis contínuas serão usados muitas vezes nas próximas
seções. Em particular, esses modelos são muito úteis porque permitem
considerar de uma vez só e de forma integrada as múltiplas influências
que as diversas variáveis aleatórias exercem umas sobre as outras.
Deve ser observado que a extensão dos conceitos de probabilidades
para sistemas multidimensionais nada tem de arbitrário. Por exemplo, é
comum que jogos de azar façam usos de múltiplos dados simultaneamen-
te, de forma que cada evento (jogar os dados) resulta simultaneamente em
vários valores aleatórios (os resultados em cada um dos dados). Contudo,
esse exemplo pode ser convenientemente estudado por técnicas de uma
única variável, admitindo-se que cada resultado aleatório é obtido inde-
pendentemente dos demais (ou seja, que cada dado resulta em um valor
que em nada está relacionado aos valores obtidos nos demais dados).
Em outras palavras, seja uma densidade de probabilidades de múltiplas
variáveis aleatórias simultâneas na forma:

114 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

℘(x1 , x2 ,..., xNX ) =℘(x ) (2.57)


Então, no caso considerado,
℘(x1 , x2 ,..., xNX ) =℘(x1 ) ℘(x2 ) ... ℘(xNX ) (2.58)
Isso nem sempre é verdade. Um exemplo típico diz respeito à distri-
buição de pesos e tamanhos em uma população de pessoas. O evento,
nesse caso, pode ser a mensuração do peso e da altura (variáveis ale-
atórias) de pessoas escolhidas de forma aleatória em uma certa região
geográfica. Obviamente as pessoas mais altas tendem a apresentar maior
peso. Portanto, a medida de uma das variáveis (altura) certamente está
correlacionada à medida da outra (peso); ou seja, a distribuição de proba-
bilidades da variável peso depende do valor especificado para a variável
altura. Portanto, a Equação (2.58) não pode ser utilizada para representar
o problema e o sistema bi-dimensional não pode ser compreendido a
partir das respectivas distribuições unidimensionais. A consideração de
outras características pessoais pode justificar o aumento da dimensão
do problema (cor da pele, tipo de cabelo, cor dos olhos etc.) e ajudam a
compreender como as distribuições de probabilidade multidimensionais
podem ser complexas e mal caracterizadas pelas respectivas distribuições
unidimensionais. (Pense, por exemplo, na proporção de indivíduos de
cabelo louro numa população indígena.)
É importante observar que, se a Equação (2.57) representa uma dis-
tribuição de probabilidades, então:

∫ ∫ ... ∫ ℘(x , x ,..., x ) dx


x1 x2 xNX
1 2 NX NX ...dx2 dx1 = ∫℘(x )dx = 1
x
(2.59)

De forma similar, as médias e covariâncias podem ser obtidas na


forma:

J
IJ, = xA!J(x)dx
X
(2.60)

a~= J(~ ~pj ){xJ ~ t~J )$J(x)dx (2.61)


_.,
onde a Equação (2.60) define os valores médios para cada uma das va-
riáveis do problema e a Equação (2.61) define as diversas covariâncias
existentes entre os diversos pares de variáveis do problema. É então
conveniente definir em notação vetorial:

Distribuições de Probabilidade 115


PERTENCE AO N O DE O I

2 2 2
Xi p.l O"n 0"12 aiNX
2 2 2
x2 lh 0"21 0"22 a2NX
X= ,p= , Vx = (2.62)

2 2 2
XNX p.NX O"NXI aNX2 aNXNX
onde x é o vetor de variáveis aleatórias, µ é o vetor de médias e VX é a ma-
triz de covariâncias. Se a matriz de covariâncias é diagonal na forma:
2
au 0 ... 0
0 2
0"22 ... 0
Vx= (2.63)

2
0 0 aNXNX
as variáveis flutuam de forma independente umas das outras e o sistema
é formado por variáveis independentes. Caso contrário, as flutuações
experimentadas por algumas variáveis influenciam as flutuações das
demais. A extensão das Equações (2.58-2.63) para sistemas discretos é
imediata, bastando para isso substituir os termos integrais por somas
sobre o domínio discreto.

 Propriedade 2.1 – A matriz de covariâncias VX é simétrica.


A Propriedade 2.1, muito importante para aplicações práticas, como
discutido ao longo dos próximos capítulos, decorre da seguinte igual-
dade:
σ ij2 = ∫ (xi − µi )(x j − µ j )℘(x )dx = ∫ (x j − µ j )(xi − µi )℘(x )dx = σ 2ji
x x

(2.64)
 Propriedade 2.2 – A matriz de covariâncias VX é positiva definida.
A Propriedade 2.2 é também muito importante para aplicações práticas,
como discutido ao longo dos próximos capítulos. Para que se compreenda
essa propriedade, é interessante observar o comportamento do sistema
bi-dimensional na forma:
 σ 12 σ 122   x1 
x VX x = [x1 x2 ] 2
T
2 =
σ
 21 σ x
2  2 (2.65)

σ 12 x12 + σ 122 x1 x2 + σ 21
2
x1 x2 + σ 22 x22

A Propriedade 2.1 permite então que se escreva a Equação (2.65) na


forma:

116 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

xT VX x = σ 12 x12 + 2 σ 122 x1 x2 + σ 22 x22 (2.66)

Contudo, a Equação (1.51) permite escrever que:


−σ 1σ 2 ≤ σ 122 ≤ σ 1σ 2 (2.67)

de maneira que a Equação (2.66) pode ser também escrita como:

σ 12 x12 − 2σ 1σ 2 Ix1 II x2 I+ σ 22 x22 ≤ xT VX x ≤ σ 12 x12 + 2σ 1σ 2 Ix1 II x2 I+ σ 22 x22


(2.68)
ou ainda:

(σ Ix I− σ Ix I) ≤ xT VX x ≤ (σ 1 Ix1 I+ σ 2 Ix2 I)
2 2
1 1 2 2
(2.69)
o que mostra que o produto vetorial definido na Equação (2.65) resulta
sempre em um número positivo, sendo identicamente nulo no caso em
que x é o vetor nulo. Esse resultado pode ser estendido de forma abso-
lutamente análoga para sistemas de dimensões maiores do que 2. Por
isso, a matriz de covariâncias VX é positiva definida e

xT VX x ≥ 0, ∀ x ≠ 0 (2.70)

Exemplo 2.14 – Considere a distribuição Exponencial bidimen-


sional apresentada abaixo:

℘(x1 , x2 ) = Ae(− x1 − 2 x2 )
definida nos intervalos 0 ≤ x1 ≤ ∞ e 0 ≤ x2 ≤ ∞, onde A é uma
constante. Para definir o valor de A de forma apropriada, lem-
bremos que:
∞∞

∫ ∫℘(x , x )dx dx
0 0
1 2 2 1 =1

Logo,
∞∞ ∞ ∞
(− x1 − 2 x2 ) (− x1 ) (−2 x2 )
∫ ∫ Ae
0 0
dx2 dx1 = A∫ e
0

0
e dx2 dx1 =

Distribuições de Probabilidade 117


PERTENCE AO N O DE O I

∞ ∞
( − 2 x2 ) 
(− x1 )  e A  e(− x1 ) 
∞ ∞
A (− x1 ) A
A∫ e   dx1 = ∫ e dx1 =   = =1
0  −2  0 20 2  −1  0 2

Portanto, A = 2.
Para calcular os valores médios de x1 e x2, faz-se:
∞∞ ∞ ∞
(− x1 − 2 x2 ) (− x1 ) (−2 x2 )
µ1 = ∫ ∫ 2 x1e dx2 dx1 = 2 ∫ x1e ∫e dx2 dx1 =
0 0 0 0
∞ ∞

(− x1 )  e
(−2 x2 )  ∞
(− x1 )
 (x1 + 1)e(− x1 ) 
2 ∫ x1e   dx1 = ∫ x1e dx1 =   =1
0  −2 0 0  − 1  0

=I J2x2e<-~-zx2)dx2~ = 2Je<-~) Ix2e(-2x2)dx2~ =


00 00 00 00

~2
0 0 0 0

( I)

∞  x + 1 e(−2 x2 )  ∞
 (− x1 )  ∞
1 1 e 1
2 ∫ e(− x1 )  2  dx = (− x1 )
2

2 ∫0
e dx =   =
 −2  1 1
2  −1  0 2
 0
0

Para calcular as variâncias, faz-se:


oa oa

u~ = JJ2 (~ -1 Ye(-x., - 2
2 ~ =2J(x1 -1 Ye(-x.,) Je(- Xz) dx2 ~ =
Xz) dx
2

0 0 0 0


2 (− x1 )  e
2 ∫ (x1 − 1) e
(−2 x2 )  ∞
∞  x12 + 1 e(− x1 )  ( )
 dx1 = ∫ (x1 − 1) e dx1 = 
2 (− x1 )
  =1
0  −2  0 0  −1 
0

∞∞ 2 ∞ ∞ 2
 1  1
σ = ∫ ∫ 2  x 2 −  e(− x1 − 2 x2 )dx2 dx1 = 2 ∫ e(− x1 ) ∫  x 2 −  e(−2 x2 )dx2 dx1 =
2
2
0 0 
2 0 0
2

( I)

∞  x 2 + 1 e(−2 x2 )  ∞
 (− x1 )  ∞
1 1 e 1
2 ∫ e( 1 )  4  dx = e( 1 )dx1 = 
2

− −
x x
 =
 −2  1
40 4  −1  0 4
 0
0

118 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

∞∞
 1
σ = ∫ ∫ 2 (x1 − 1) x2 −  e(− x1 − 2 x2 )dx2 dx1 =
2
12
0 0  2
∞ ∞
 1  (−2 x2 )
2 ∫ (x1 − 1)e (− x1 )
∫0  2 2  e dx2 dx1 =
x −
0


 x2 e(−2 x2 ) 
2 ∫ (x1 − 1)e (− x1 )
  dx1 = 0
0  − 2 0

de maneira que as variáveis x1 e x2 flutuam de forma independen-


te. O vetor de média e a matriz de covariâncias tomam, portanto
a forma:

p- -[l],v.-[1
o.s OJ :r.- 0 0.25

A curva de distribuição de probabilidades estudada é representada


na Figura 2.17.

Figura 2.17 - Densidade de probabilidades do Exemplo 2.14.

Distribuições de Probabilidade 119


PERTENCE AO N O DE O I

2.9. A Distribuição Multinomial


Um exemplo muito importante de distribuição Multidimensional discreta
é a conhecida distribuição multinomial, que consiste na generalização
da distribuição Binomial, apresentada na Seção 2.1, quando três ou mais
resultados ou atributos podem ser obtidos de um experimento discre-
to. Admite-se que um experimento é repetido m vezes e que se deseja
conhecer a probabilidade de se obterem ni resultados do tipo i, i = 1
... NR, onde NR é o número de resultados possíveis. Admite-se que as
probabilidades pi de se obter o resultado i são conhecidas. Repetindo-se
o procedimento apresentado na Seção 2.1, obtém-se:
Multinom( n1 , n2 ,..., nNR ; m, p1 , p2 ,..., pNR ) =
(C m
n1 Cnm2 − n1 ...CnmNR− n1 ...− nNR−1 )(p n1
1
nNR
p2n2 ... pNR ) (2.71)
onde Cij é a combinação de i fatores j a j, como definido na Equação
(2.4).

Exemplo 2.15 – Considere a distribuição Multinomial para duas


variáveis. Nesse caso:
 (m − n1 )!  p n1 p n2
Multinom(n1 , n2 ; m, p1 , p2 ) = 
m!
 n !(m − n )! n !(m − n − n )!  1 2 ( )
 1 1 2 1 2 

Como apenas dois resultados são possíveis,

m = n1 + n2 e p1 + p2 = 1
Portanto,
m!
p1n1 (1 − p1 ) 1
m−n
Multinom(n1 , n2 ; m, p1 , p2 ) =
n1 !(m − n1 )!

que é a própria distribuição Binomial. Esse resultado já poderia ser


esperado, dado que a distribuição Binomial é exatamente aquela
em que apenas dois resultados são possíveis.

2.10. A Distribuição Normal Multidimensional


Dentre os muitos modelos multidimensionais plausíveis que podem ser
formulados para descrever flutuações de dados experimentais, não há
qualquer dúvida que o mais importante deles é a generalização da curva

120 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

normal para um conjunto simultâneo de muitas variáveis. As proprie-


dades da curva normal de várias variáveis aleatórias são as mesmas já
apresentadas anteriormente para a curva normal de uma única variável
aleatória na Seção 2.6. No formato multivariável, a função normal ganha
a forma:

(2.72)
 Propriedade 2.3 – A curva normal multidimensional tem o compor-
tamento normal ao longo de qualquer direção do espaço.
Para provar a Propriedade 2.3, é conveniente admitir que:
x = tz − z 0 (2.73)

onde t é uma variável e z e z0 são vetores especificados e constantes. A


Equação (2.73) define uma reta no espaço de dimensão NX. Então, o termo
entre colchetes na Equação (2.72) pode ser escrito como:
(tz-z 0 -J.L f V~1 (tz-z 0 -J.L )=
[ zTV~ z ]t
1 2
-2[ (z +J.l f V~ Z ]t+[ (z +J.1 f V~ (z +J.1 )]
0
1
0
1
0

(2.74)
A Equação (2.74) pode ser rescrita como α2 (t – β)2 + γ , onde:
α 2 =  z T VX-1 z  (2.75)

[ (zo + J.1 )T V~lz J


p= [ zTV~1 z J (2.76)

y = [ ( Zo + J.Ll y~I ( Zo + J.1) -a 2 p2 J (2.77)

Portanto, a menos de uma constante de normalização que depende


do valor de γ, definida para que a integral da Equação (2.72) satisfaça a
condição da Equação (2.59), a variável t tem distribuição Normal, com
média igual a µt = β e variância igual a σt2=α–2 . A Propriedade 2.3
mostra, portanto, que a Equação (2.72) é uma generalização fantástica
da curva normal, que mantém o comportamento normal da distribuição
qualquer que seja a combinação de variáveis considerada (direções do

Distribuições de Probabilidade 121


PERTENCE AO N O DE O I

espaço). No caso particular em que , a variável t flutua em


torno do valor zero.

Exemplo 2.16 – Considere a distribuição Normal para duas


variáveis, com os seguintes vetor de médias e matriz de cova-
riâncias:
1 1 
VX =  
1 2 
A Figura 2.18 ilustra a forma da curva de densidade normal para
as duas variáveis.

0·~

~ ..
•. !
""='
...~
~~
oJ.
~
i)-1

...
...

Figura 2.18 - Distribuição Normal Bivariada do Exemplo 2.16.

!1.1!6

iJ'.U!i

I}.!J.I
....
i l.tJI.lo

11\l_ll:

!),Ill

ll,lltl [
. ;a: ·I II ~

Figura 2.19 - Corte normal da Figura 2.18 ao longo da direção x2 = x1 – 1.

122 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Observe a forma típica da curva normal, como um chapéu pousado


sobre uma superfície plana. Observe também que a curva pode estar
deslocada do centro de coordenadas e se distribuir ao longo de eixos
que não são necessariamente os eixos de coordenadas usuais.
A Figura 2.19 ilustra um corte da curva normal ao longo da
direção:
1 1 
x=t  + ;
1 0 
ou seja, x2 = x1 – 1 . E, finalmente, observe o comportamento tipi-
camente normal observado ao longo da direção analisada.

2.11. Conclusões
Foram apresentados no Capítulo 2 vários modelos probabilísticos dis-
tintos, que serão utilizados nos capítulos seguintes deste volume e nos
volumes seguintes desta série de publicações para resolver problemas
práticos de análise. Cada um dos modelos apresentados admite certas
hipóteses idealizadas sobre o sistema considerado. Essas hipóteses
fundamentais não devem ser desprezadas durante a análise dos dados.
Finalmente, os conceitos associados a distribuições de uma única variável
foram estendidos para várias variáveis aleatórias, sujeitas a flutuações
conjuntas.

2.12. Leitura Adicional


Como já discutido ao final do Capítulo 1, a literatura dedicada à apre-
sentação de modelos probabilísticos e distribuições de probabilidades é
muito vasta. Não cabe aqui, portanto, uma revisão dessa área. O leitor
interessado encontrará centenas de livros que abordam esses assuntos
em qualquer biblioteca dedicada à Matemática e à Engenharia.
Uma enorme gama de diferentes distribuições de probabilidade, a
análise matemática das propriedades dessas distribuições e uma prova
formal da validade do Teorema do Limite Central são apresentadas em:
 Probability and Statistical Inference. Volume 1: Probability, J.G. Kalbfleis-
ch, Springer-Verlag, Nova York, 1985.
 Probability and Statistics. Theory and Applications, G. Blom, Springer-
Verlag, New York, 1989.

Distribuições de Probabilidade 123


PERTENCE AO N O DE O I

2.13. Exercícios Sugeridos


1. Você acha que a curva normal pode descrever satisfatoriamente uma
curva de distribuição de tamanhos de partículas muito finas? E de
partículas grandes? Justifique.
2. Discuta se uma curva normal pode ser usada como modelo de proba-
bilidades para descrever as flutuações de altura numa população de
indivíduos. Que modificações poderiam ser introduzidas no modelo
para torná-lo mais crível e representativo da realidade.
3. Utilizando uma planilha eletrônica ou um programa de computador:
a) Gere uma seqüência de 2000 pontos pseudo-aleatórios (começando
com a semente 0.50) na forma:
Xk+1 = 11Xk – Trunc (11 Xk)
Yk = Xk+1
Repare que X e Y identificam seqüências distintas de pontos deslo-
cados no tempo.
b) Gere uma seqüência de 2000 pontos pseudo-aleatórios (começando
com a semente 0.51) na forma:
Zk+1 = 11Zk – Trunc (11 Zk)
Wk = Zk+1
Repare que Z e W identificam seqüências distintas de pontos deslo-
cados no tempo, diferentes das duas seqüências X e Y anteriores.
c) Usando os dados anteriores, construa histogramas de probabilidade
como a freqüência com que os pontos aparecem nos dez intervalos
definidos pelos valores [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0].
Comente os resultados obtidos.
d) Calcule os fatores de correlação entre as variáveis X, Y, Z e W. Comente
os resultados obtidos.
e) Finalmente responda – os dados obtidos são aleatórios ou determi-
nísticos?
4. Utilizando a seqüência de valores anteriormente obtidos para a
variável Z, e admitindo que essa seqüência de valores segue a distri-
buição uniforme, transforme essa seqüência de dados em outra que
segue:
a) A distribuição exponencial;
b) A distribuição normal.

124 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

5. Admita que o modelo normal multidimensional da Equação (2.72) é


válido. Nesse caso, comente os resultados obtidos quando:
a) A matriz de covariâncias é diagonal, como na Equação (2.63). Qual a
forma particular da distribuição nesse caso? Como o resultado pode
ser interpretado?
b) O vetor de médias definido na Equação (2.62) e a matriz de covari-
âncias diagonal e definida na Equação (2.63) são compostos por NX
valores iguais. Qual a forma particular da distribuição nesse caso?
Como o resultado pode ser interpretado?

Distribuições de Probabilidade 125


PERTENCE AO N O DE O I
PERTENCE AO N O DE O I

O Problema Amostral:

3 Inferências e
Comparações

No Capítulo 2 foram apresentadas diversas distribuições de probabili-


dade que representam diferentes problemas em que variáveis aleatórias
estão envolvidas. No entanto, esses modelos probabilísticos dependem
de parâmetros que, na maioria absoluta das vezes, não podem ser de-
terminados a priori. Por exemplo, na distribuição Binomial descrita pela
Equação (2.5), quem é o parâmetro p? E na distribuição Normal descrita
pela Equação (2.53), quem são os parâmetros µ (média) e σ2 (variância)?
Repare que uma pessoa desavisada poderia dizer que a média µ e a va-
riância σ2 são os valores calculados pela definição de média da Equação
(1.71) e de variância da Equação (1.72). No entanto, para que a média e
a variância sejam calculadas a partir das definições introduzidas pelas
Equações (1.71) e (1.72), é necessário que a distribuição de probabilidades
normal da Equação (2.53) esteja perfeitamente definida, o que significa
que µ e σ2 devem ser conhecidos. Essa contradição indica claramente
que os parâmetros da distribuição têm que ser obtidos de outra forma,
que não a partir das definições introduzidas nos Capítulos 1 e 2. Se o
problema analisado tiver caráter multivariável, como aqueles abordados
nas Seções 2.8 a 2.10, o número de parâmetros da distribuição pode ser
muito grande. Portanto, é necessário desenvolver técnicas que permitam
inferir os parâmetros que descrevem os modelos probabilísticos, para que
eles, de fato, possam ser úteis para a análise de problemas reais.
Mas por que é tão importante que se conheça a distribuição de pro-
babilidades que está associada a um determinado problema? A resposta
dessa questão é que, se as curvas de distribuição de probabilidades que
descrevem as flutuações aleatórias observadas em certos problemas

O Problema Amostral: Inferências e Comparações 127


PERTENCE AO N O DE O I

são conhecidas, então é possível comparar os problemas e discriminar


aqueles resultados que devem ser (e os que não devem ser) esperados.
O primeiro caso constitui o conjunto de procedimentos chamados de
testes de hipóteses. A pergunta típica que gera esse conjunto de proce-
dimentos é: “Será que uma certa propriedade ou conjuntos de resultados
obtidos das diferentes curvas de distribuição analisadas podem ser con-
siderados iguais (diferentes)?” Como será visto nos próximos capítulos,
o analista é chamado todo o tempo a opinar sobre essa questão, para
saber se um processo ou conjunto de resultados permanece constante
ou está mudando. O segundo caso constitui o conjunto de problemas
chamados de determinação dos intervalos de confiança. A pergunta
típica que gera esse conjunto de procedimentos é: “Qual é o conjunto
de resultados mais provável?”, ou ainda “Que resultados podem ser
descartados com certo grau de confiança?” Como veremos nos capítulos
seguintes, respostas para essas questões permitem racionalizar sobre a
qualidade dos resultados obtidos experimentalmente e sobre o conteúdo
de informação disponível para análise. Além disso, as respostas dessas
perguntas quase sempre geram procedimentos de projeto e rotinas de
decisão, como visto no Exemplo 2.3.
Para resolver as questões propostas anteriormente, é necessário
amostrar o sistema; isto é, tomar medidas representativas do problema
estocástico considerada. O objeto fundamental deste capítulo é discu-
tir como medidas experimentais podem ajudar o analista a definir as
distribuições de probabilidade que descrevem as flutuações observadas
e, dessa forma, permitir a comparação de resultados e a tomada de
decisão.

3.1. Definição de Intervalo de Confiança


Para que seja possível tomar decisões, é preciso decidir que resultados
podem ser considerados normais (ou seja, têm grande probabilidade
de ocorrer) e que resultados devem ser considerados anormais (ou seja,
que têm probabilidade tão baixa de ocorrer que podem ser descartados
na grande maioria das vezes). Para tanto, define-se como o intervalo
de p% de confiança ao conjunto de resultados que, segundo a curva de
distribuição de probabilidades considerada, concentra p% dos resultados
admissíveis. Portanto, são descartados os (100−p%) resultados menos
prováveis, sendo (100−p%)/2 desses resultados localizados na extremi-
dade inferior e (100−p%)/2 desses resultados localizados na extremidade
superior. A Figura 3.1 ilustra esse conceito.

128 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

jJ(x)

,<m,.!:l!
2

·'
Figura 3.1 - Ilustração gráfica do conceito de intervalo de confiança.

Portanto, se (x1, x2) são os limites de confiança com p% de probabi-


lidade de uma certa variável x, descrita por uma curva de densidade de
probabilidades ℘(x), então:

(3.1)

( ) = "'J. p ()
P.c x,
1- p l+ p
x dr =l - - - = - - (3.2)
$

- . 2 2

Os exemplos a seguir ilustram o procedimento de análise proposto.

Exemplo 3.1 – Admita que dois catalisadores industriais distin-


tos seguem diferentes padrões de decaimento de atividade. No
primeiro caso, sabe-se que a distribuição de tempo de vida segue
a curva exponencial típica, na forma:

 t 
exp  − 
℘1 (t ) =  10 
10
onde t é dado em horas. No segundo caso, sabe-se que a distribui-
ção de tempo de vida segue uma curva gama, na forma:
220 19 −2t
℘2 (t ) = t e
Γ (20 )

Comparando-se as médias e variâncias das duas distribuições,


obtém-se no primeiro caso — Equações (2.29-30).
plT =IO e UJ1-
' =I 00

O Problema Amostral: Inferências e Comparações 129


PERTENCE AO N O DE O I

e no segundo — Equações (2.50-51).


P "l.r =10 e
Portanto, vê-se que, embora os dois catalisadores apresentem
tempos médios de vida iguais (10h), o tempo de vida do segundo
catalisador é muito mais uniforme que o tempo de vida do pri-
meiro catalisador. Dessa maneira, parece muito mais fácil decidir
sobre o momento de troca do catalisador no processo industrial
no segundo caso que no primeiro. Para ilustrar esse efeito, no
primeiro caso o intervalo de confiança de 95% (p = 0.95, (1 – p)/2
= 0.025, (1 + p)/2 = 0.975) para o tempo de vida do catalisador
é: (0.25, 36.89)195% ; enquanto para o segundo é: (6.1, 14.8)295%
Repare que se o nível de confiança exigido for maior e igual a 98%
(p = 0.98, (1 – p)/2 = 0.01, (1 + p)/2 = 0.99), então os intervalos
para cada catalisador são, respectivamente: (0.10, 46.09)198% e (5.54,
15.92)298% os quais são intervalos de confiança mais largos devido
ao aumento no nível de confiança exigido. A Figura 3.2 ilustra
graficamente as duas distribuições de probabilidade analisadas.
<tll (J

<
ll N '
J"'\
I \
...
l
J \
tfl.DI'i I J \
s \
""s::: \
0 u.o~ ·
~

ltD:! •

til. I)
0 10 l (J JO -10 .5(Ji

t
Figura 3.2 - Comparação entre as duas distribuições de tempo
de vida dos catalisadores.

Exemplo 3.2 – Freqüentemente é necessário calcular integrais de


curvas de densidade de probabilidade, para cômputo de médias,
variâncias, intervalos de confiança etc. Na maior parte dos proble-
mas, no entanto, soluções analíticas não estão disponíveis. Temos
portanto que calcular as integrais numericamente.

130 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Muitas técnicas numéricas foram desenvolvidas para o cômputo


de integrais e não se pretende aqui fazer uma revisão dessas
técnicas. Contudo, uma técnica de integração muito simples está
ilustrada na Figura (1.22) e nas Equações (1.66-69). É a chamada
técnica do retângulo para integração, definida como:

xi +1 + xi x = x + i − 1 ∆x
xi = i mín ( )
2 ,
x2
NR
I= ∫ F (x ) dx ≈ ∑ F (x )∆x
i =1
i
NR =
x2 − x1
x1 ∆x
que consiste fundamentalmente em aproximar a integral pela
soma das áreas dos retângulos que têm base igual a ∆x (precisão
da integração) e altura igual ao valor da função no ponto médio
do intervalo ∆x considerado. Portanto, o cálculo das integrais ne-
cessárias para a análise dos dados não deve ser considerada uma
dificuldade intransponível. Muito pelo contrário, essas integrais
podem ser calculadas até com certa facilidade.
Por exemplo, seja a curva exponencial do Exemplo 3.1, dada por:

 t 
exp  − 
℘(t ) =  10 
10
cujo valor médio é conhecido e igual a 10. Numericamente, o
valor médio pode ser obtido na forma:

ti +1 + ti ti = 0 + (i − 1)∆t 100 − 0
ti = NR =
2 , ∆t
A Tabela 3.1 ilustra a qualidade dos resultados obtidos para dife-
rentes valores de ∆t. Observe que a convergência dos resultados é
bastante rápida, à medida que a precisão da integração aumenta
(∆t diminui). Um resíduo final é observado porque a integral é

O Problema Amostral: Inferências e Comparações 131


PERTENCE AO N O DE O I

computada até o limite máximo de 100, que serve como referência


para o limite superior infinito.

Tabela 3.1 - Convergência do procedimento de integração


numérica usado para o cálculo da média da curva Expon(t; 10).
∆t 100 10 5 1 0.5 0.1 0.05
NR 1 10 20 100 200 1000 2000
I 3.369 10.377 10.097 9.999 9.996 9.995 9.995

Para fins de tomada de decisão, todo resultado observado que não


estiver contido no intervalo de confiança pode ser considerado anormal
(improvável), de maneira que ele indica a mudança de comportamento
do sistema estudado ou o aparecimento de um novo fato, até então
desconsiderado. Deve ser enfatizado que, ao se definir o intervalo de
confiança com p% de probabilidade, define-se implicitamente que as
decisões estarão erradas (100-p)% das vezes. Portanto, pode-se dizer
que o estabelecimento do nível de confiança é equivalente à definição
da fração de vezes que um erro pode ser tolerado. Por exemplo, ao se
dizer que uma variável aleatória está num certo intervalo 95% das vezes,
diz-se simultaneamente que ela não está naquele intervalo 5% das vezes
por razões meramente aleatórias. Portanto, ao se dizer que a observação
de um valor fora do intervalo de confiança indica uma mudança, erra-se
5% das vezes.
Erroneamente costuma-se acreditar que, quanto maior o nível de
confiança exigido, menor o intervalo de confiança. Preste atenção que o
resultado correto é exatamente o oposto: quanto maior o nível de con-
fiança exigido, mais largo o intervalo de confiança. Isso ocorre porque é
necessário incluir maior quantidade de resultados possíveis, à medida
que aumenta o grau de confiança exigido. Isso cria um problema para o
processo de tomada de decisão muito interessante:
a) Para aumentar a confiança e diminuir o risco de erro no processo de
tomada de decisão, aumenta-se o nível de confiança exigido;
b) À medida que se aumenta o nível de confiança, aumenta-se simulta-
neamente o conjunto de resultados possíveis e diminui-se o número
de resultados considerados pouco prováveis, tornando o processo
de tomada de decisão sobre o que é possível e o que não é possível
mais difícil.
Por exemplo, considere os resultados obtidos no Exemplo 3.1 com a
distribuição gama. Suponha ainda que foi observada perda de atividade
para uma pastilha de catalisador após 6 horas de operação. Será que
algo mudou no processo? No limite de 95% de confiança (portanto a

132 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

probabilidade de tomar uma decisão errada é de 5% ou 1 em 20) é pos-


sível dizer que algo estranho ocorreu, pois o tempo de vida de 6 horas
é pouco provável. No entanto, no limite de 98% de confiança (portanto
a probabilidade de tomar uma decisão errada é de 2% ou 1 em 50) não
é possível dizer que ocorreu mudança no processo, já que 6 horas é um
valor provável. No limite de 100% de confiança, qualquer valor seria
possível! Veja que fica muito mais difícil detectar falhas quando o nível
de confiança exigido sobe, embora as decisões sejam sempre tomadas
com mais segurança.
Pelas razões discutidas acima, não é possível generalizar nem reco-
mendar de forma absoluta um nível ótimo de confiança para determi-
nação dos intervalos de confiança e tomada de decisão. Cada processo e
cada analista definem o intervalo de confiança adequado para a análise
executada. Se uma eventual decisão equivocada não envolve riscos nem
custos muito grandes, pode-se trabalhar com níveis de confiança mais
baixos e aumentar a velocidade do processo de detecção de falhas e/ou
mudanças do processo (essa é uma estratégia arrojada). Se uma eventual
decisão equivocada pode comprometer seriamente a segurança e/ou a
economia do processo, deve-se trabalhar com níveis de confiança mais
altos, sabendo-se que essa estratégia certamente provocará atrasos no
processo de tomada de decisão (essa é uma estratégia conservadora).
Os níveis típicos de confiança utilizados para tomadas de decisão são os
níveis de 90%, 95%, 98% e 99%, com utilização muito mais freqüente
dos níveis de confiança de 95% e 98%.

Exemplo 3.3 – Conforme discutido na seção anterior, a curva


normal é muito utilizada para representação de erros de medida.
Portanto, é muito conveniente determinar os limites típicos de
confiança para variáveis que apresentam flutuações normalmente
distribuídas.
A Tabela A.1 encaminhada no Apêndice apresenta as probabili-
dades da curva normal, parametrizada na forma

Nonnal (u;O. l], u=(X-Jlx)


ax
onde u representa a variável x normalizada. A Tabela A.1 só con-
tém as probabilidades acumuladas de valores positivos de u, uma
vez que a curva normal é simétrica e

O Problema Amostral: Inferências e Comparações 133


PERTENCE AO N O DE O I

Para ler a Tabela A.1, considere a linha 1.0 e a coluna 0.05, onde
se encontra o número 0.8531. Nesse caso,
p..1(' ( 1.05) = 0.8531
l'.c ( -1.05) = 1-0.8531 = 0. 1469

Usando a Tabela A.1, para obter o intervalo de confiança de 90%,


procura-se o limite inferior onde PAC(u1) = 0.05 e o limite superior
onde PAC(u2) = 0.95. Segundo a Tabela A.1, u2 ≈ 1.65 (PAC(1.65) =
0.9505). Pela simetria da curva normal, conclui-se que u1 ≈ -1.65
(PAC(-1.65) = 1 – 09505 =0.0495). Logo, os limites de 90% de con-
fiança de uma variável distribuída normalmente são:
x1 = Jlx -1 .65<1x < x < Jlx +I 65<1x = x,
Usando a Tabela A.1, para obter o intervalo de confiança de 95%,
procura-se o limite inferior onde PAC(u1) = 0.025 e o limite superior
onde PAC(u2) = 0.975. Segundo a Tabela A.1, u2 ≈ 1.96 (PAC(1.96) =
0.9750). Pela simetria da curva normal, conclui-se que u1 ≈ -1.96
(PAC(-1.96) = 1 – 09750 =0.0250). Logo, os limites de 95% de con-
fiança de uma variável distribuída normalmente são:
x1 = Jlx -1.96<1,. < x < Jl·x + 1.96(1.1• = x,
Usando a Tabela A.1, para obter o intervalo de confiança de 98%,
procura-se o limite inferior onde PAC(u1) = 0.01 e o limite superior
onde PAC(u2) = 0.99. Segundo a Tabela A.1, u2 ≈ 2.33 (PAC(2.33) =
0.9901). Pela simetria da curva normal, conclui-se que u1 ≈ -2.33
(PAC(-2.33) = 1 – 09901 =0.0099). Logo, os limites de 98% de con-
fiança de uma variável distribuída normalmente são:
X1 = Jl x - 2 .33(1X <X< Jlx + 2.330'.r =X 1
Usando a Tabela A.1, para obter o intervalo de confiança de 99%,
procura-se o limite inferior onde PAC(u1) = 0.005 e o limite superior
onde PAC(u2) = 0.995. Segundo a Tabela A.1, u2 ≈ 2.58 (PAC(2.58) =
0.9951). Pela simetria da curva normal, conclui-se que u1 ≈ -2.33
(PAC(-2.58) = 1 – 09951 = 0.0049). Logo, os limites de 99% de
confiança de uma variável distribuída normalmente são:
X1 = Jlx - 2 .58(1X < X < Jl.\' + 2.58(1X = X 2

Esses limites de confiança serão muito utilizados para análise de


dados ao longo das seções e capítulos posteriores.

134 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

3.2. O Problema de Amostragem


Os exemplos da seção anterior mostram que, uma vez conhecida a dis-
tribuição de probabilidades que governa um certo problema estocástico,
muitas informações úteis e procedimentos de tomada de decisão podem
ser construídos. No entanto, a situação real é muito distinta da situação
considerada até aqui, pois quase nunca é possível saber a priori qual é
a distribuição de probabilidades que governa um fenômeno. Pior ainda,
mesmo quando a forma da função de distribuição é conhecida, ainda
assim os parâmetros que caracterizam a distribuição de probabilida-
des em geral não são conhecidos. Para medir grandezas físicas, como
temperatura, é possível construir equipamentos de medição, como um
termômetro por exemplo. Infelizmente, não há equipamentos que pos-
sam ser conectados aos problemas físicos para determinar as curvas de
distribuição de probabilidades dos diferentes problemas. Como proceder
então? A resposta é: EXPERIMENTANDO!
A Equação (1.4), reproduzida abaixo, utilizada para definir a proba-
bilidade de um evento em um problema discreto, mostra que é possível
construir um histograma de probabilidades em um problema discreto a
partir da repetição do experimento um número suficientemente grande
de vezes. Mas o que é um número suficientemente grande de vezes?
 
 
f
pi = f →∞  NR i
lim  = lim  fi  (1.4)
  NT →∞  NT 
 ∑ fj
i

 j =1 

Exemplo 3.4 – Uma moeda é jogada para o alto várias vezes e a


fração de vezes em que se obtém o resultado Cara é lançada no
gráfico da Figura 3.3.

~'Ill .."
",., f.;j
~

...I ..~

Figura 3.3 - Fração de vezes em que se obtém o resultado Cara


no experimento da moeda para várias simulações diferentes.

O Problema Amostral: Inferências e Comparações 135


PERTENCE AO N O DE O I

Os experimentos foram realizados no computador, usando-se a


seguinte função para geração de números aleatórios com dis-
tribuição uniforme: Xk+1 = 11Xk – Trunc(11 Xk) com sementes
X1=0.40634930 e X2=0.75832446. A seguinte regra foi usada
para decidir sobre o resultado da simulação: Xk < 0.5 é Coroa e
Xk > 0.5 é Cara. Podem ser observados grandes desvios do valor
nominal, mesmo quando o número de experimentos é bastante
grande. Portanto, o infinito pode estar realmente longe!!!! Isso
indica de forma clara uma vez mais que não é realista acreditar
que as distribuições de probabilidade possam ser construídas
unicamente da medida de dados experimentais, já que um número
de repetições extremamente elevado pode ser necessário.

Exemplo 3.5 – Uma forma conveniente de gerar curvas de probabi-


lidade acumulada em problemas contínuos a partir da experimen-
tação é admitir uma vez mais a validade da regra de integração
por retângulos. Nesse caso, admitindo-se que vários valores foram
medidos e foram organizados de forma crescente:
x1 ≤ x2 ≤ x3 ... ≤ xN–1 ≤ xN
pode-se admitir que cada um desses valores limita um interva-
lo de igual probabilidade, dado que foram esses os intervalos
amostrados pela repetição do experimento. Repare que essa ar-
gumentação é extremamente questionável, dado que a repetição
do procedimento de medida, de forma geral, não resultará na
mesma seqüência de valores. No entanto, se essa argumentação
é aceita, então:
I
P..c (X , )= N +l

onde o denominador (N+1) designa o número de intervalos con-


tínuos definidos pelos N pontos amostrados. Se a mesma função
de geração de números aleatórios definida no Exemplo 3.4 e as
mesmas sementes são usadas para gerar os pontos experimen-
tais, obtêm-se os resultados apresentados na Figura 3.4. Deve ser
observado como as curvas de densidade acumulada são diferentes
nos diferentes procedimentos de amostragem, mesmo quando
40 pontos experimentais distintos são amostrados. Isso indica
uma vez mais que não é realista acreditar que as distribuições
de probabilidade possam ser construídas unicamente da medida

136 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

de dados experimentais, já que um número de repetições extre-


mamente elevado pode ser necessário.
1.0

~ .. 8

tllti
t::r 0
t:
~
"'·"'' • :'o!L'IT~"III.:' I • N· , 0
0 ..! - N=J,,
~i.."llli."II L~
4), :
• So.."111.:11k I - N- U
a Sanml~ ~ - N- 41)

Figura 3.4 - Probabilidade acumulada de pontos gerados pelo gerador de


pontos pseudo-aleatórios no Exemplo 3.3, admitindo-se que os intervalos são
igualmente prováveis.

Portanto, verifica-se uma vez mais que o infinito pode estar


realmente longe!

Os Exemplos 3.4 e 3.5 mostram que, mesmo em problemas muito


simples, o número de repetições experimentais necessárias para se
construir um histograma ou uma curva de densidade de probabilidades
com precisão pode ser muito grande. Na maior parte dos problemas de
interesse da engenharia e das ciências básicas, não é possível realizar
tantos experimentos por causa do tempo e do custo necessário para a
experimentação. Dessa forma, o analista tem que conviver com muitas
incertezas a respeito da distribuição real de probabilidades que pode ser
associada a um problema físico. Por isso, muito freqüentemente hipóteses
são formuladas a respeito de como as curvas de distribuição de probabi-
lidade regulam a flutuação de grandezas físicas reais, como mostrado no
Capítulo 2. Conseqüentemente, dificuldades adicionais podem aparecer
durante o processo de tomada de decisão, já que algumas medidas flutu-
am aleatoriamente e não se conhece com suficiente precisão a curva de
distribuição de probabilidades que governa o problema e uma vez que
as hipóteses formuladas não são necessariamente verdadeiras.
Nesse contexto, o uso de modelos de distribuição de probabilidades,
como aqueles apresentados no Capítulo 2, é bastante conveniente, pois
reduz a busca da distribuição de probabilidades à busca de uns poucos
parâmetros que são necessários para descrevê-los. Infelizmente, no

O Problema Amostral: Inferências e Comparações 137


PERTENCE AO N O DE O I

entanto, na grande maioria das vezes os modelos são escolhidos sem


grande fundamentação teórica ou experimental e muito pouca atenção
tem sido dada na literatura técnica às conseqüências práticas que podem
resultar de uma escolha mal feita do modelo de distribuição de probabi-
lidades. Por isso, há de se ter cuidado na hora de escolher o modelo mais
adequado para descrever as flutuações observadas. (Testes de aderência
serão formulados neste e nos próximos capítulos para ratificar ou não
o modelo de distribuição de probabilidades utilizado para descrever os
fenômenos físicos. Como veremos, essa escolha é fundamental para a
correta formulação dos problemas de estimação de parâmetros e plane-
jamento experimental.)

3.1.1. Médias e Variâncias Amostrais


Como mostrado no Capítulo 2, na maior parte dos modelos analíticos de
distribuições de probabilidades é possível fazer uma associação direta
entre os parâmetros do modelo e os valores da média e da variância.
Como esses valores são extremamente importantes para caracterizar
em torno de que valores e de quanto flutuam os dados experimentais,
parece claro que o problema fundamental de ajuste da maior parte
dos modelos probabilísticos, e em particular da curva normal, é a de-
terminação da média e da variância a partir dos dados experimentais
amostrados. Portanto, admitamos a princípio que um certo conjunto de
valores amostrais x1, x2, ..., xN foi obtido a partir da repetição de um certo
experimento aleatório. A questão fundamental então é: como obter µX
e σ2X a partir desse conjunto de dados amostrados?
De acordo com as Equações (1.7) e (1.71), reproduzidas abaixo, o
valor médio pode ser obtido a partir do histograma ou da densidade de
probabilidades como:

...• (1.7)

Jlx T
= xao(x)dr
•,...
(1.71)

No entanto, de acordo com a discussão dos parágrafos anteriores,


não se conhecem as distribuições reais de probabilidade do problema,
mas apenas um conjunto de dados amostrados. Como conciliar então a
realidade e os objetivos pretendidos? Para isso, formulemos a seguinte
hipótese:

138 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Hipótese Fundamental 1.1 – A Hipótese do Experimento Bem-


Feito
Admita que cada valor experimental pode ser obtido de forma
semelhante, seguindo procedimentos idênticos de experimenta-
ção e sem vícios na execução dos experimentos. Assim, admita
que as flutuações observadas encerram a realidade da natureza
experimental do problema e não são influenciadas por erros ou
vícios cometidos pelo analista. Nesse caso, cada dado representa
igualmente a grandeza experimental desconhecida, em torno da
qual as observações experimentais flutuam. Portanto, cada obser-
vação experimental pode ser considerada igualmente provável
e a cada uma das observações x1, x2, ..., xN pode ser associada a
mesma probabilidade pi = 1/N de que este seja o melhor valor
para representar a medida física real.

Se a hipótese do experimento bem-feito é aceita, então, por analogia


direta com a Equação (1.7), é possível escrever:
N

N
1
∑N
xi
X = ∑ pi xi = ∑   xi = i = 1
(3.3)

i =1 i =1  N  N

onde X é a chamada média amostral do conjunto de dados. Antes que


se seja tentado a confundir X com µX, é conveniente perceber os resul-
tados apresentados no exemplo abaixo.

Exemplo 3.6 – Nas Tabelas 3.2 e 3.3 apresentam-se as médias amostrais


calculadas para os problemas analisados nos Exemplos 3.4 e 3.5.

Tabela 3.2 - Médias amostrais obtidas no Exemplo 3.4


N Semente X
1 0.500
10
2 0.400
1 0.600
20
2 0.450
1 0.500
40
2 0.425
1 0.538
80
2 0.438
1 0.513
160
2 0.506
∞ - 0.500

O Problema Amostral: Inferências e Comparações 139


PERTENCE AO N O DE O I

Tabela 3.3 - Médias amostrais obtidas no Exemplo 3.5


N Semente X
1 0.518
10
2 0.483
1 0.559
20
2 0.422
1 0.512
40
2 0.488
1 0.547
80
2 0.516
1 0.521
160
2 0.513
∞ - 0.500
Observe que a média amostral flutua de experimento para expe-
rimento em torno da média verdadeira, igual a 0.500 em ambos
os casos. A média amostral, portanto, não deve ser confundida
com a média real da distribuição de probabilidades amostrada,
que o analista a princípio desconhece.

O Exemplo 3.6 mostra claramente que a média amostral X flutua


e, por isso, não deve ser confundida com a média verdadeira µX da
distribuição. (Se houver dúvidas a esse respeito, lembre que o valor
médio do experimento dos dados é 3.5, como mostrado no Exemplo
1.4. No entanto, parece perfeitamente normal jogar o dado três vezes
e obter o número 1 três vezes seguidas, resultando na média amostral
X =1.) Mais ainda, se a média amostral flutua de experimento para
experimento (nesse caso o experimento consiste em tomar amostras de
tamanho N), ela é também uma variável aleatória, assim como os dados
amostrados xi. Portanto, a média amostral X deve ser encarada como
uma variável aleatória que flutua em torno de certo valor médio e com
certa variância, que devem a princípio ser caracterizados, assim como
a distribuição de probabilidades que descreve as flutuações de X . Mas
certamente a conseqüência mais importante dessa discussão é que não
devemos ter esperanças de obter o valor real da média µX, a não ser
que tenhamos a distribuição real de probabilidades do problema, o que,
segundo a discussão apresentada na seção anterior, de maneira geral
não é possível. Dessa forma, se tivermos que obter informações sobre o
problema a partir da experimentação (amostrando), nunca saberemos
qual é o valor verdadeiro da média µX.
Embora a discussão anterior pareça um pouco frustrante, ela coloca
a perspectiva verdadeira que o experimentador deve ter em relação
aos dados obtidos a partir da observação experimental. Não apenas os

140 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

dados flutuam, em função dos diversos erros experimentais apresen-


tados nas seções iniciais, como também os valores obtidos a partir da
manipulação desses dados, como a média amostral, também flutuam.
Dessa forma, o experimentador tem que aprender a conviver com essas
incertezas e a caracterizar as flutuações com que convive. Em particular,
para o procedimento de cálculo da média amostral é possível escrever
as seguintes propriedades:

 Propriedade 3.1 – Se os experimentos xi, i=1... N são todos realiza-


dos em condições idênticas e flutuam em torno da média verdadeira
µX, a média amostral X também flutua em torno do valor médio
verdadeiro µX.

(3.4)

Repare que a Propriedade 3.1 – Equação (3.4) – dá o alento de garantir


que, embora o valor da média amostral não possa ser confundido com o
valor da média real, normalmente o valor da média amostral é igual ao
valor da média real. (Observe como a propriedade de linearidade da média
foi útil para escrever a Equação (3.4).) Isso significa que, se o experimento
usado para obtenção da média amostral for repetido infinitas vezes, na
média o experimento resultará na obtenção da média real. No entanto, na
prática o experimento será realizado UMA ÚNICA VEZ, para uma amostra
de tamanho N. Por isso, a Propriedade 3.1 não garante a obtenção do
valor médio verdadeiro para um conjunto finito de experimentos, mas
garante a consistência do procedimento experimental usado. Podemos
ao menos garantir que a média amostral flutua em torno do valor médio
verdadeiro. No entanto, como ambos xi e X flutuam ao redor da mesma
média verdadeira µX, qual seria então a utilidade de se calcular a média
amostral? A Propriedade 3.2 responde a essa pergunta.

 Propriedade 3.2 – Se as medidas experimentais xi, i=1, ... ,N são


medidas independentes (σ2X , X = 0, i ≠ j) realizadas em condições
i j
idênticas e flutuam todas em torno da mesma média verdadeira µX
com variância σ2X, então a média amostral X flutua em torno do valor
médio verdadeiro µX com variância igual a σ X2 = σ X2 N . I

O Problema Amostral: Inferências e Comparações 141


PERTENCE AO N O DE O I

,.
.L.x, '
~ -Jl = E '-''""-'- - , - - =
N X N

,,, ,. N cr.
' u ,:;.
"'"' a· - "'a· --
1 '' ' _ . ,
N : L...JL x1 .)'1
, ...) Jool
-
J ',.
;{ :t ~ x,
, .,
N ];~ - ·
-N
(3.5)
A Propriedade 3.2 – Equação (3.5) – é extremamente importante
porque ela mostra de forma inequívoca que a variância da média amos-
tral é inversamente proporcional ao tamanho da amostra considerada.
Logo, quanto maior o tamanho N da amostra a partir da qual foi obtido
o valor da média amostral, menor o nível de incerteza desse valor. As-
sim, a grande utilidade do cálculo do valor amostral médio é a redução
do conteúdo de incerteza sobre o valor da média real µX. (Observe que
o Exemplo 2.13 ilustra bem esse efeito de redução da incerteza com o
aumento de N.) É possível inclusive planejar o tamanho da amostra para
que se tenha um nível especificado de flutuação no valor da média amos-
tral, se uma avaliação da variância experimental de uma única medida é
conhecida. No entanto, o conteúdo de incerteza só vai convergindo para
zero no limite em que N vai ao infinito, o que é impossível do ponto de
vista prático. Dessa forma, sempre haverá algum conteúdo de incerteza
sobre o valor real de µX.

Exemplo 3.7 – Suponha que a cada medida xi, i=1, ..., N, de uma
mesma população é associado o peso wi, i=1, ..., N. Suponha
ainda que:
N N
X = ∑ wi xi 0 < wi < 1 ∑w i =1
i =1 i =1
Nesse caso, a Propriedade 3.1 pode ser escrita na forma:

142 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

n
enquanto a Propriedade 3.2 pode ser escrita como:

var{X} = E((x - p , )'} = /i{(t. u ,x, -llx ) } E{(t.">(x, - !lx) =

E{:t I "'•"'• (x,-!lx )(x,- ll.r )} =I I ">w,E{(x, - Jl,. )(.r, -liz)}=


1•1 J...:l -~· J ...
v \ .. \
LL w,..·p·iJx1 =L'-~ai., =a_i. :Lw,:< a~.
1e:1 1:1 1:1 1:1

de maneira que qualquer média ponderada dos dados amostrados


flutua em torno do valor médio µX com variância inferior à dos
dados amostrados. Isso mostra que há um certo grau de arbitra-
riedade na definição da média amostral da Equação (3.3), já que
qualquer média ponderada dos números amostrados também
satisfaz as Propriedades 3.1 e 3.2 definidas anteriormente. Por
isso, retornaremos a esse problema no Capítulo 4, para aumentar
um pouco mais a significação teórica da Equação (3.3).

A mesma discussão apresentada para a média amostral pode ser agora


estendida para a medida amostral da variância. Nesse caso, as Equações
(1.36) e (1.72), reproduzidas abaixo:

G_~'Y = Var{x} = E{(x; - flx n I P. =


t= i
(x, - fl x )' (1.36)

x..,...
<J_h. =...J(x-J.L.J p(x)dY
_ (1.72)

e a hipótese do experimento bem-feito sugerem a seguinte definição


para a variância amostral, s2X

∑( )
N 2
xi − X (3.6)
1
( ) ( )
N 2 N 2
s = ∑ pi xi − X
2
X = ∑   xi − X = i =1

i =1 i =1  N  N

No entanto, antes que a Equação (3.6) seja aceita como medida adequada da
variância amostral (o que de fato ela não é, como será mostrado ao longo
desta seção), é conveniente observar o Exemplo 3.8.

O Problema Amostral: Inferências e Comparações 143


PERTENCE AO N O DE O I

Exemplo 3.8 – Nas Tabelas 3.4 e 3.5 apresentam-se as variâncias


amostrais calculadas a partir da Equação (3.6) para os problemas
analisados nos Exemplos 3.4 e 3.5.

Tabela 3.4 - Variâncias amostrais obtidas no Exemplo 3.4


N Semente s2X
1 0.250
10
2 0.240
1 0.240
20
2 0.248
1 0.250
40
2 0.244
1 0.249
80
2 0.246
1 0.249
160
2 0.250
∞ - 0.250

Tabela 3.5 - Variâncias amostrais obtidas no Exemplo 3.5


N Semente s2X
1 0.137
10
2 0.094
1 0.107
20
2 0.084
1 0.098
40
2 0.078
1 0.083
80
2 0.082
1 0.083
160
2 0.083
∞ - 0.083
Observe que a variância amostral flutua de experimento para
experimento em torno de valores próximos das variâncias verda-
deiras, iguais a 0.250 no primeiro caso e 0.083 no segundo caso.
A variância amostral, portanto, não deve ser confundida com a
variância real da distribuição de probabilidades amostrada, que
o analista a princípio desconhece.

Assim como no caso da média amostral, o Exemplo 3.8 mostra


claramente que a variância amostral s2X flutua e, por isso, não deve ser
confundida com a variância verdadeira σ2X da distribuição. Mais ainda,
se a variância amostral flutua de experimento para experimento (nesse
caso o experimento consiste em tomar amostras de tamanho N), ela é
também uma variável aleatória, assim como os dados amostrados xi.
Portanto, a variância amostral também deve ser encarada como uma

144 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

variável aleatória que flutua em torno de certo valor médio e com certa
variância, que devem a princípio ser caracterizados, assim como a dis-
tribuição de probabilidades que descreve as flutuações de s2X. Como no
caso da média amostral, não devemos ter esperanças de obter o valor
real da variância σ2X, a não ser que tenhamos a distribuição real de pro-
babilidades do problema, o que de maneira geral não é possível, como já
discutido. Dessa forma, se tivermos que obter informações sobre o pro-
blema a partir da experimentação (amostrando), nunca saberemos qual
é o valor verdadeiro da variância σ2X. No entanto, como no caso anterior
e mostrado a seguir, é possível escrever um conjunto de propriedades
bastante úteis para a variância amostral.

 Propriedade 3.3 – Se os experimentos xi, i=1... N, são realizados de


forma independente em condições idênticas e flutuam em torno da
média verdadeira µX com variância σ2X, a Equação (3.6) NÃO fornece
uma avaliação consistente da variância amostral, sendo necessário
reescrever a Equação (3.6) na forma:

∑ (x − X )
N 2
i
(3.7)
s =
2 i =1
N −1
X

A variância amostral definida pela Equação (3.7) flutua em torno do


valor real da variância σ2X.
Para mostrar a Propriedade 3.3, é conveniente primeiramente abrir
a Equação (3.7) em termos dos desvios em relação à média verdadeira,
em geral desconhecida. Assim,

~ - ..
f, (x,- X)' f (x,-f x, J' f (Nx,-f x,)'
_ ,., J•l N _ ,., ,., -
Sx - N - N - N' -

f (N(,r,-.ur)- f,{x, - .ux })'


•= l r-1
N' =

f (N'(x,- f.J., )' - 2N (x,- ~'x) f h-f.Jx}+[f.(x,- Ji.,. }]')


, . , J• l J•l

N'

O Problema Amostral: Inferências e Comparações 145


PERTENCE AO N O DE O I

N
l; (x, -J•,)'
.~=-
• "'":..!.'----,,---
N

(3.8)
Agora, o valor médio da Equação (3.8) pode ser calculado como:

(3.9)
Repare que a Equação (3.9) mostra que, na média, a Equação (3.6) leva
um valor de variância amostral menor que o valor da variância real do
problema. Esse é um defeito inaceitável do procedimento de inferência
do valor real da variância. Para corrigir o resultado, no entanto, o proce-
dimento a seguir é muito fácil: basta multiplicarmos o resultado obtido
por N e dividirmos o resultado por (N-1), o que resulta na Equação (3.7)
e na Propriedade 3.3. Diz-se, portanto, que a variância amostral defini-
da na Equação (3.7) é uma avaliação consistente da variância real do
problema. Deve ficar bem claro que a necessidade de apresentar o valor
(N-1) no denominador da Equação (3.7) nada tem de arbitrário – muito
pelo contrário. É exatamente essa correção que permite obter, na mé-
dia, uma inferência consistente da variância real do problema a partir
dos dados amostrados. O valor (N-1) é chamado de número de graus
de liberdade do problema, representado usualmente por ν. Como no
caso da média amostral, o fato da Equação (3.7) fornecer uma medida
consistente da variância não significa que a variância amostral obtida
em um problema particular é igual à variância verdadeira e desconhe-
cida do problema. Para que isso fosse verdade, seria necessário obter a
média a partir de infinitas repetições do problema físico investigado,
o que não é possível. Portanto, nunca saberemos de fato qual é o valor
real da variância do problema a partir de dados amostrados. No entanto,
a Equação (3.9) oferece ao menos o consolo de que o valor obtido para

146 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

a variância amostral a partir da Equação (3.7) flutua ao redor do valor


verdadeiro da variância.

 Propriedade 3.4 – Se os experimentos xi, i=1...N são realizados de


forma independente em condições idênticas e flutuam em torno da
média verdadeira µX com variância σ2X, então a variância amostral
descrita pela Equação (3.7) flutua em torno de σ2X com variância
igual a:

(3.10)

onde kX é a kurtose, definida na Equação (1.57).


A Equação (3.10) pode ser mostrada com facilidade substituindo-se a
Equação (3.8) no lado esquerdo da Equação (3.10) e efetuando-se as ope-
rações necessárias. Essa demonstração fica deixada como exercício para o
leitor interessado por causa do excessivo número de manipulações algé-
bricas necessárias. Contudo, a Equação (3.10) é muito importante porque
ela indica de forma inequívoca que o nível de flutuação da variância amos-
tral cai continuamente, à medida que aumenta o tamanho do conjunto de
dados amostrados, convergindo para zero quando N vai ao infinito. Dessa
maneira, quanto maior o tamanho do conjunto amostral, maior a precisão
com que se obtém o valor da variância amostral. Para o caso muito especí-
fico em que os dados amostrados seguem uma distribuição normal, então
k4X = 3 (esse é um resultado clássico para a curva normal. Lembre-se que
a curva normal é uma curva bi-paramétrica, de maneira que, fixados
média e variância, todos os demais momentos da curva de distribuição
ficam também automaticamente fixados) e a Equação (3.11) ganha a
forma mais simples:

(3.11)

Observe que as Equações (3.7) e (3.10-11) mostram que é impossível


fazer qualquer inferência sobre a variância real de um problema se apenas
um dado é medido (N-1 = ν = 0). Esse resultado é obviamente pertinen-
te, pois não é possível ter mesmo qualquer noção de espalhamento dos
dados se apenas um dado experimental está disponível.
A Equação (3.7) pode ser então utilizada automaticamente para
descrever o desvio padrão amostral,
s X = s X2 (3.12)

O Problema Amostral: Inferências e Comparações 147


PERTENCE AO N O DE O I

a covariância amostral,

∑ (x − X )(y − Y )
N

i i
(3.13)
s 2
= i =1
N −1
XY

e o coeficiente de correlação amostral,


2
s XY
rXY = (3.14)
s X sY
De forma aos casos anteriores, as Equações (3.12-14) definem for-
mas consistentes de avaliar as grandezas de interesse para a análise a
partir de dados amostrados. Também de forma similar, essas grandezas
amostrais devem ser encaradas como variáveis estocásticas, sujeitas a
flutuações que convergem para zero quando o tamanho do conjunto de
dados amostrados vai para infinito.

Exemplo 3.9 – A covariância amostral, definida pela Equação


(3.13), pode ser colocada na forma:
N  N  N 
∑  N ( xi − µ X ) − ∑ (x j − µ )
X  N ( yi − µY ) − ∑ (y j − µ )
Y 
i =1  j =1   j =1 
2
s XY =
N (N − 1)
2

e:

s.rr' =

N' (N- 1)

148 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Aplicando o operador de média e admitindo que as medidas xi e


yi obtidas de um mesmo experimento podem estar correlaciona-
das entre si, mas não com medidas de experimentos distintos,
então:

N'(N-1)
.... ...
N:LO'~r
~
NLo:i 1
,
N'(N- 1)- N'(N- I)= <T;,.

que mostra que a Equação (3.13) de fato permite uma inferência


consistente da covariância entre dois conjuntos de dados.

3.3. Distribuições e Intervalos de Confiança


de Grandezas Amostrais
Como as grandezas amostrais devem ser encaradas como variáveis ale-
atórias e sujeitas a flutuações, cuja variância depende do tamanho N do
conjunto amostrado, torna-se pertinente perguntar sobre a forma da curva
de distribuição que governa as flutuações das grandezas amostrais. De
maneira geral, essa pergunta pode ser respondida através do procedimento
ilustrado a seguir para uma função genérica dos pontos amostrais.
Seja uma função genérica dos pontos amostrais definida como f(x1, ...,
xN). Suponha que é possível explicitar a dependência inversa do valor de
xN, para que o valor de f(x1, ..., xN) atinja um valor especificado f1 na forma
xN = g(x1, ..., xN-1,f1). Então a seguinte igualdade pode ser escrita:
f2  g (x1 ,..., xN −1 , f2 ) 
∫f ℘f ( f )df = x∫℘(x1 )...x∫ ℘(xN −1 ) ∫ ℘(xN )dxN  dxN −1...dx1

1 1 N −1
 g (x1 ,..., xN −1 , f1 ) 
(3.15)
onde são feitas (N-1) integrações sobre as (N-1) variáveis que podem
flutuar independentemente para gerar os valores especificados da
função f e uma integração sobre o valor de xN, que especifica de fato os
valores desejados de f. Se f1 é o valor mínimo admissível para a função
f(x1, ..., xN), então a Equação (3.15) pode ser rescrita como:

O Problema Amostral: Inferências e Comparações 149


PERTENCE AO N O DE O I

(3.16)
cuja derivação gera a curva de densidade de probabilidades ℘f de
f(x1, ..., xN).
Para ilustrar de forma mais clara o uso das Equações (3.15-16),
suponha que se deseja conhecer a função densidade de probabilida-
des da média entre dois pontos, obtidos segundo uma distribuição de
probabilidades arbitrária ℘(x). Nesse caso, deseja-se conhecer a função
distribuição de probabilidades da seguinte transformação:
x1 + x2
f (x1 , x2 ) = X =
2
que resulta na transformação inversa:

( )
g x1 , X = x2 = 2 X − x1

Obviamente, o valor mínimo de X é o valor mínimo de xi, de ma-


neira que:

Procedimentos semelhantes podem ser gerados para as demais variá-


veis amostrais. Dessa forma, o importante é perceber que a densidade
de probabilidades de uma grandeza calculada a partir de variáveis ale-
atórias (e, portanto, essa grandeza também é a princípio uma variável
aleatória) pode ser obtida a partir de procedimentos matemáticos bem
definidos. Isso não significa dizer que soluções analíticas estão sempre
disponíveis, dado que as transformações matemáticas são complexas e
muitas vezes intratáveis analiticamente.

Exemplo 3.10 – Para a distribuição uniforme no intervalo (0,1),


mostram-se a seguir as funções de densidade de probabilidade
para a média e a variância amostrais obtidas a partir de dois
pontos. Para a média amostral:

150 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

É preciso lembrar que a distribuição uniforme é igual a zero fora


do intervalo (0,1), de maneira que as seguintes relações de desi-
gualdade precisam ser satisfeitas:

0 < x1 < 1 , 0 < 2 X − x1 < 1


ou

0 < x1 < 1 , 2 X − 1 < x1 < 2 X


Mas só é possível satisfazer ambas as desigualdades se:

0 < x1 < 2 X se X < 0.5


2 X − 1 < x1 < 1 se X > 0.5
Portanto, para o caso da média amostral, resulta que:

se X < 0.5

PAC ( x} = 7'[Jdxz]dr, 1('7'idx,]


0 0
+
lX- 1 0
dr, =

2:f- 1 I
se X > 0.5
= f dr,+ j [zx - x,]dr,=4X - 2X - I
2

D 2,\'ooJ

e portanto:

( )
℘ X = 4X se X < 0.5

℘(X )= 4 − 4 X se X > 0.5

que é a distribuição triangular do Exemplo 1.13. Logo, a distri-


buição triangular do Exemplo 1.13 pode ser interpretada como
a distribuição da média de dois pontos obtidos a partir da distri-

O Problema Amostral: Inferências e Comparações 151


PERTENCE AO N O DE O I

buição uniforme. Observe que a distribuição triangular concentra


os valores da média amostral ao redor de 0.5 mesmo quando as
medidas isoladas estão uniformemente distribuídas no intervalo
[0,1], como descrito pela Propriedade 3.2.
No caso da variância amostral, é conveniente ver primeiramente
que o valor mínimo admissível para a variável é igual a zero, obti-
do quando os dois pontos amostrados são iguais. Além disso,
2 2
  x1 + x2     x1 + x2  
2 2
 x1 − x2   x2 − x1 
 x1 −  2   +  x2 −  2    +
2   2 
2
     x −x 
s X2 =  = = 2 1 2 
1 1  2 

de tal maneira que, para qualquer valor especificado de s2X, valores


menores que esses são encontrados no intervalo:

x1 − 2 s X2 < x2 < x1 + 2 s X2
Dessa forma, a Equação (3.16) pode ser escrita como:

s X2 < 0.5
,
Como no problema anterior, é necessário garantir que:

0 < x1 < 1 , x1 − 2 s X2 > 0 x1 + 2 s X2 < 1


,
ou

0 < x1 < 1 , x1 > 2 s X2 x1 < 1 − 2 s X2


,
que só podem ser satisfeitas se:

2 s X2 < x1 < 1 − 2 s X2 s X2 < 0.5


,
Para que a desigualdade acima seja satisfeita, é necessário que:

2 s X2 < 1 − 2 s X2 s X2 < 0.125


,
Portanto:

152 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

' ,,
,

s X2 < 0.125

t-J2s~- ·' i + g /, 2

~-r
~4C (s.~. ) = I
0
I
0
dx2 d'(l +
1-..P•x 2 [[ dxz]dx,

I I

+ I
J:z~J
I dx, d'(,
-
"1-J2.Jr
0.125 < s X2 < 0.5
resultando em:

, 0 < s X2 < 0.5


e portanto:

 1 
℘ s ( )2
X = 2
 2s 2
− 1

 X  , 0 < s X2 < 0.5
que mostra que as variâncias amostrais pequenas são mais pro-
vavelmente obtidas que as variâncias amostrais grandes. A curva
de densidade é inclusive singular no ponto s2X = 0.

O Problema Amostral: Inferências e Comparações 153


PERTENCE AO N O DE O I

O Exemplo 3.10 mostra que, mesmo em problemas supostamente


muito simples, a obtenção formal das curvas de distribuição que descre-
vem as flutuações de grandezas amostrais pode ser muito complexa. Isso
se deve ao fato de que múltiplas combinações de resultados podem levar
aos mesmos valores amostrais. Por isso, optamos nesse texto em apresen-
tar os resultados clássicos da literatura, sem mostrar os procedimentos
que tornam possível a obtenção dessas soluções. O leitor interessado
pode consultar a literatura adicional apresentada ao final do capítulo
para informações matemáticas mais detalhadas a esse respeito.
É interessante observar, no entanto, que o computador pode auxiliar
bastante a tarefa numérica de gerar as curvas de distribuição de probabili-
dades, uma vez fixadas a distribuição de probabilidades da variável amos-
trada e o tamanho N do conjunto de dados, como mostrado no Exemplo
2.13. Para tanto, pode-se utilizar o procedimento numérico descrito a seguir.
O procedimento, normalmente chamado de Procedimento de Monte Carlo,
consiste em gerar muitos números aleatórios (ND números, com ND da
ordem de milhares) que seguem a distribuição de probabilidades estuda-
da e computar as grandezas amostrais a partir de conjuntos contendo N
desses dados. Dessa forma, muitos valores são obtidos para as grandezas
amostrais a partir de N dados que seguem a distribuição considerada.
Obtém-se assim uma amostra fidedigna da distribuição das grandezas
amostrais. As curvas de probabilidade acumulada podem então ser obti-
das, como mostrado nos Exemplos 2.13 e 3.5. Esse tipo de procedimento
numérico pode ser executado com facilidade em computadores pessoais
para quaisquer distribuições de probabilidades e para qualquer tamanho
amostral considerado, como ilustrado a seguir no Exemplo 3.11.

Algoritmo 3.1 – Geração de curvas de distribuição de grandezas


amostrais.
Fixados N, tamanho da amostra, e ND, número de dados amos-
trais
1. Gerar N dados com distribuição uniforme (ver Seção 2.4);
2. Transformar os N dados para a distribuição desejada (ver
Equações 2.24-25);
3. Calcular a grandeza amostral desejada (ver Seções 3.1-3.3);
4. Repetir o procedimento até que sejam gerados ND valores
amostrais;
5. Construir o histograma (ver Exemplo 2.13) ou a curva de pro-
babilidades acumuladas (ver Exemplo 3.5) e, a partir delas, obter
as curvas de densidade de probabilidade.

154 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 3.11 – Para o cômputo das médias e variâncias amostrais


a partir de dois pontos aleatórios distribuídos uniformemente
no intervalo (0,1), como mostrado no Exemplo 3.10, é possível
calcular os intervalos de confiança na forma:
Confiança de 95%:
(x,) =zx: =o.025 ⇒ X 1 = 0.1119
P.,.

P•c (x,) = 4X, -2x~ = o.975 ⇒ X 1 = 0.8881

P AC ( S.~l ) =2 ( J2s.~1 - s_i,) =0 025 ⇒ s X2 1 = 7.91x10−5

l~c(s_i.,} = 2(J2.f.i., -si,) =o975 ⇒ s X2 2 = 0.354

O Algoritmo 3.1 é usado nesse exemplo para gerar a distribuição


desejada numericamente. A função de distribuição uniforme foi
gerada usando-se o procedimento:
X k +1 = 11 X k − Trunc (11 X k )
com semente X1=0.75832446 (ver Seção 2.4). Fez-se ND igual a
2000 e N=2. Os resultados obtidos e ordenados em ordem crescente
são apresentados nas Figuras 3.5 e 3.6. Os limites apresentados
separam os menores 2.5% (50 menores valores) e os maiores 2.5%
(50 maiores valores) valores calculados, de maneira que entre eles

...
encontram-se 95% dos valores obtidos.
·- ,. .,...

..
•• ••
--·
•• '"
~

'"
·--•• •• ••

!
·-
t.~
_,..,../--
r- ,. ,. ,.
}·... - _,£/_ _ _ __
,_(. ~ , __ ·-
....... .. ...... ·-
'"!!' .....

Figura 3.5 - Limites de confiança da média e variância amostrais obtidos ·--'J!' ... ..
numericamente.

O Problema Amostral: Inferências e Comparações 155


PERTENCE AO N O DE O I

Vê-se que os resultados podem ser considerados muito bons, se


comparados aos valores calculados de forma exata. Os limites de
confiança obtidos para a média amostral são aproximadamente
iguais a 0.11 e 0.88, enquanto os limites de confiança obtidos para
a variância amostral são aproximadamente iguais a 1.2x10-4 e 0.32.
Vê-se, contudo, que ainda há razoável grau de incerteza nos valores
dos limites de confiança, a despeito do número elevado de pontos
experimentais considerados. Observa-se uma vez mais que o número
de dados necessários para a adequada representação de curvas de
distribuição de probabilidades pode ser muito elevado. Apesar disso,
quando toda a faixa de valores admissíveis é considerada, observa-se
concordância bastante elevada entre as curvas geradas numérica
e teoricamente.
...
t:
'i
1111.4 ~

!~
..
lUI
I
a.:
-~-
... ...
Figura 3.6 - Probabilidades acumuladas das médias e variâncias
amostrais em toda a faixa de valores admissíveis.

Apesar dos resultados anteriores terem ilustrado a dificuldade de


gerar teoricamente as curvas de distribuição de probabilidades de gran-
dezas amostrais, alguns resultados clássicos são disponíveis para o caso
em que as medidas experimentais estão sujeitas a flutuações normais.

3.3.1. A Distribuição t de Student


Seja x uma variável aleatória sujeita a flutuações normais, com média µX
e variância σ2X. Sejam N o número de amostragens independentes de x
feitas e X e s2X as média e variância amostrais obtidas. Pode-se mostrar
que a variável normalizada t, definida como:
X − µX
t=
sX (3.17)

N
está distribuída na forma:

156 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

ν +1 
Γ 
 ν +1 
2 − 2 
℘(t ) = Stud (t ;ν ) =
1  2  1 + t 
  (3.18)
πν Γ  ν   ν 
 
2
onde ν é o número de graus de liberdade e Γ representa a função gama,
definida pela Equação (2.46). A forma da distribuição t de Student (publi-
cada originalmente por W.S. Gosset, sob o codinome de Student, donde
vem o nome normalmente usado para referenciar essa importante
distribuição estatística) está mostrada na Figura 3.7, enquanto valores
para as probabilidades acumuladas são apresentados na Tabela A.2 do
Apêndice.

•"' ll

lJ
Figura 3.7 - Ilustração da distribuição t.

A Figura 3.7 mostra que a distribuição t é simétrica em relação ao


eixo y de coordenadas e é definida sobre todo o domínio real (-∞,+∞).
Além disso, a distribuição t depende de um único parâmetro, ν, que re-
presenta o tamanho do conjunto amostral. Quanto maior o valor de ν,
mais estreita é a distribuição em torno do valor médio t=0, em função
das menores incertezas existentes sobre o valor real da média quando
N aumenta. A distribuição t tem enorme importância prática porque
permite impor limites precisos sobre a região de confiança onde deve
estar a média verdadeira, a partir de valores amostrados, como mostrado
nos exemplos que se seguem.

Exemplo 3.12 – Admita que testes de atividade catalítica foram


realizados em condições supostamente idênticas, resultando no
seguinte conjunto de dados:

O Problema Amostral: Inferências e Comparações 157


PERTENCE AO N O DE O I

Tabela 3.6 - Dados de atividade catalítica obtidos experimentalmente.


i 1 2 3 4 5 6 7 8 9 10
xi (g/h g) 0.450 0.467 0.431 0.440 0.452 0.458 0.438 0.462 0.447 0.452
onde i designa o experimento realizado e xi designa a atividade
medida, em gramas de produto por hora por grama de reagente.
Nesse caso,
10
I, x,
X= >=I = 0.450
10
10
I,(x, -OA5oY
s~ = •=• 9 =93.2 ·10-o sx =K = 9.65 -10-l

Sabemos, no entanto, que não devemos confundir a média e a


variância amostrais com a média e a variância verdadeiras da
distribuição. Para construir o intervalo de confiança da média
real a partir dos valores amostrais, podemos contar com o auxílio
da distribuição t.
Suponha que um nível de confiança de 95% é requerido. Nesse
caso, deseja-se obter os valores de t1 e t2 tais que:
l>.,c (1,;9) = 0.025 , J>..c (1,;9) = 0.975
Esses valores podem ser obtidos da integração da Equação (3.18)
e estão mostrados na Tabela A.2. Na linha referente a 9 graus de
liberdade e na coluna referente a uma probabilidade acumulada
de 0.975 encontra-se o valor t2 = 2.262. Como a distribuição t é
simétrica em relação ao eixo y, conclui-se que t1 = – 2.262. Pode-se
dizer, portanto, que com 95% de confiança:

-2.262 < I = 0.4SO- Jl x < 2.262


9.65 ·10-J
.JlO
ou

0 .450- 2.262 9 - 6~0-l < Jlx < 0.450+2.262 9 - 6~0-l


10 10

158 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

e:
0.443 < Jlx < 0.457
Portanto, embora não seja possível dizer qual é o valor verda-
deiro da média, é possível definir o intervalo onde ela deve ser
encontrada, com um certo grau de confiança, desde que os dados
medidos estejam sujeitos a flutuações normais. Para os níveis de
confiança de 98% e 99%, os resultados obtidos são respectiva-
mente iguais a:

P..c (t,; 9) = 0.010 P"c(t,; 9)= 0.990


,
0450
-2.821 < f = - Jlx < 2.82 1
9.65 · 10-)
JlO
- 9.65· 10-l 9.65·10-l
0.4:>0 - 2.821 r.;: < tl r < 0.450+2.821 r.;:
viO · v lO
0.44 I< tlx < 0.459

e:

PAC (t1 ; 9 ) = 0.005 PAC (t2 ; 9 ) = 0.995


,
0450 11
- 3.250 < f = - ;y < 3.250
9.65- 10-
,JiO
04-0-'
. :>
?50 9 ·65
.J , _
' 10-! <Jlx < 0450
JIO . , 2-o
+.>. :>
9 ·65 ' 10 -!
JIO
0.440< Jlx < 0.460
Como já discutido em exemplos anteriores, quanto maior o grau
de confiança exigido, maior o intervalo de confiança obtido, tor-
nando mais difícil o processo de tomada de decisão.

Deve ficar bem claro que o Exemplo 3.12 acima admite implicitamente
que a medida experimental está distribuída de forma normal e que todas
as medidas de fato representam o mesmo fenômeno. Só assim é possível
usar a distribuição t de Student. Caso a distribuição da medida amostrada

O Problema Amostral: Inferências e Comparações 159


PERTENCE AO N O DE O I

original não seja normal ou caso o conjunto de medidas represente coisas


diferentes, a utilização da distribuição t não faz qualquer sentido. Nesse
caso, outra distribuição da média amostral deveria ser gerada ou o Algo-
ritmo 3.1 deveria ser usado, como ilustrado no Exemplo 3.11. É verdade,
no entanto, que como conseqüência do Teorema do Limite Central (ver
Seção 2.6), a distribuição t converge para a curva normal à medida que
N aumenta, independentemente da distribuição de probabilidades que
deu origem aos dados amostrados. Portanto, para N suficientemente
grandes (temos visto que isso pode representar valores inconcebíveis
para a prática experimental. Portanto, cuidado com essas hipóteses!),
é possível dizer que X está distribuído normalmente em torno de µX,
com variância igual a σ X2 = s X2 N . I
Exemplo 3.13 – Suponha que tenha sido admitida distribuição
normal para a média amostral. Então, segundo a Tabela A.1 da
curva normal, para limite de confiança de 95%, podem ser obtidos
os seguintes valores:

P,c (u,; 9) = 0 025 ~<c (t 2 ; 9) = 0.975


,

-1.960 <II= 0.4 50 - Jllt < 1.960


9.65-W
JiO
96
· ~- 0 3
96
~- 0 3

0.450 - 1.960 < J.lx < 0.450+ 1.960


~ 10 10

0.444 < Jlx < 0.456


resultando numa visão mais otimista que a real da região onde
se encontra a média verdadeira. Para valores menores de N, como
usados na prática experimental, essas diferenças podem vir a ser
muito grandes, e o uso dessa aproximação raramente pode ser
justificado.

Exemplo 3.14 – Suponha que o seguinte conjunto de dados,


mostrado de forma ordenada na Tabela 3.7, é gerado a partir de
um gerador de números uniformemente distribuídos no intervalo
(0,1), como no Exemplo 3.3.

160 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Tabela 3.7 - Conjunto de dados gerados de acordo com


uma distribuição uniforme em (0,1)
i 1 2 3 4 5
xi 0.007 0.176 0.337 0.884 0.927
Nesse caso,
10 10

∑ xi ∑ (xi − 0.466 )
2

X= i =1
= 0.466 s X2 = i =1
= 0.175
5 4

s X = s X2 = 0.418
Se a região de confiança da média é calculada como no Exemplo
3.12, para um grau de confiança de 99%:

PAC (t,; 9) =0.005 ; ~IC (t2; 9) =0.995

-4.604 <I = 0.466- Jlx 4 604


0.418 < .
JS
0 .418 0.418
0.466 - 4.604 JS < Jlx < 0.466 +4.604 JS
-o.395 < Jlx < 1.321

O resultado obtido acima é absurdo, pois sabemos que a média


está, com 100% de confiança, contida no intervalo (0,1). Ela jamais
pode ser negativa ou maior que 1, conforme calculado, porque
os pontos estão sendo gerados com a distribuição uniforme.
Onde está o erro do procedimento usado? O erro fundamental
cometido foi usar a distribuição t, válida para valores amostrados
que seguem uma distribuição normal, e não uma distribuição
uniforme. Isso mostra de maneira inequívoca como as hipóteses
feitas a respeito dos dados podem ser importantes para a análise.
Portanto, se a função de densidade de probabilidades que gera
os pontos aleatórios não é conhecida, o uso da distribuição t de
Student para interpretar médias amostrais pode ser temerário.

O Problema Amostral: Inferências e Comparações 161


PERTENCE AO N O DE O I

3.3.2. A Distribuição Chi-Quadrado (χ )


2

Seja x uma variável aleatória sujeita a flutuações normais, com média


µX e variância σ X2 . Sejam N o número de amostragens independentes
de x feitas e X e s2X as média e variância amostrais obtidas. Pode-se
mostrar que a variável normalizada χ , definida como:
2

2
N x −X 
χ2 = ∑ i  (3.19)
i =1  σ X 

está distribuída na forma:


 χ2 
ν  − 

( ) ( ) 1
( )
− 1  2 
2  2
℘ χ 2 = Chi χ 2 ;ν = χ  e  
ν ν
  (3.20)
2I 2 Γ  
2
apresentando:
{ }
Ε χ 2 =ν (3.21)

Var {χ }= 2ν2
(3.22)

Figura 3.8 - Ilustração da distribuição χ2.

A Figura 3.8 mostra que a distribuição χ não apresenta qualquer eixo


2

de simetria e é definida sobre o domínio real positivo [0,∞). Além disso,


a distribuição χ depende de um único parâmetro, ν, que representa o
2

tamanho do conjunto amostral. Quanto maior o valor de ν, mais larga


é a distribuição em torno do valor médio χ =ν. A distribuição χ tem
2 2

enorme importância prática porque, dentre muitas outras coisas, per-


mite impor limites precisos sobre a região de confiança onde deve estar

162 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

a variância verdadeira, a partir de valores amostrados, como mostrado


nos exemplos a seguir. Para tanto, observe que:

( )
N 2

 xi − X  (N − 1) ∑
2 xi − X
N
s X2
χ = ∑
2
 =
i =1
= (N − 1) 2 (3.23)
i =1  σ X  σX
2
(N -1) σX
Além disso, somas normalizadas como a apresentada na Equação
(3.19) aparecem com muita freqüência em problemas práticos, como
serão mostrados nos próximos capítulos.

Exemplo 3.15 – No Exemplo 3.12, foram analisados 10 dados de


atividade de catalisador em réplicas experimentais independen-
tes. As média e variância amostrais obtidas foram:
10 10

∑x ∑ (x − 0.450 )
2
i i
X= i =1
= 0.450 s X2 = i =1
= 93.2 ⋅10−6
10 9
s X = s X2 = 9.65 ⋅10−3
Sabemos, no entanto, que não devemos confundir a média e a
variância amostrais com a média e a variância verdadeiras da
distribuição. Para construir o intervalo de confiança da variância
real a partir dos valores amostrais, podemos contar com o auxílio
da distribuição χ .
2

Suponha que um nível de confiança de 95% é requerido. Nesse


caso, deseja-se obter os valores de χ1 e χ2 tais que:
2 2

,
Esses valores podem ser obtidos da integração da Equação (3.20)
e estão mostrados na Tabela A.3. Na linha referente a 9 graus de
liberdade e na coluna referente a uma probabilidade acumulada
de 0.025 encontra-se o valor χ1 = 2.700. Na linha referente a 9
2

graus de liberdade e na coluna referente a uma probabilidade


acumulada de 0.975 encontra-se o valor χ2 = 19.023. Pode-se
2

dizer, portanto, que com 95% de confiança

s X2
χ = 2.700 < χ = (N − 1) 2 < 19.023 = χ 22
2 2

σX
1

O Problema Amostral: Inferências e Comparações 163


PERTENCE AO N O DE O I

ou
s X2 s X2
(N -1) 2 < σ X < (N -1) 2
2

χ2 χ1
e:
93.2 ⋅10-6 93.2 ⋅10-6
9 <σX < 9
2

19.023 2.700
e:
44.1 ⋅10-6 < σ X2 < 311.7 ⋅10-6
De forma similar, para graus de confiança de 98% e 99%, os re-
sultados obtidos são respectivamente iguais a:

,
s X2
χ = 2.088 < χ = (N − 1) 2 < 21.666 = χ 22
2 2

σX
1

s X2 s X2
(N -1) 2 < σ X < (N -1) 2
2

χ2 χ1
93.2 ⋅10-6 93.2 ⋅10-6
9 <σX < 9
2

21.666 2.088
38.7 ⋅10-6 < σ X2 < 401.7 ⋅10-6
e:

,
s X2
χ = 1.735 < χ = (N − 1) 2 < 23.589 = χ 22
2 2

σX
1

s X2 s X2
(N -1) 2 < σ X < (N -1) 2
2

χ2 χ1

164 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

93.2 ⋅10-6 93.2 ⋅10-6


9 <σX < 9
2

23.589 1.735
35.6 ⋅10-6 < σ X2 < 483.5 ⋅10-6
Vê-se, portanto, que as incertezas existentes durante a obtenção
do valor real da variância podem ser muito grandes, quando N
é pequeno.

Deve ficar bem claro que o Exemplo 3.15 anteriormente admite implici-
tamente que a medida experimental está distribuída de forma normal e que
todas as medidas de fato representam o mesmo fenômeno. Só assim é possí-
vel usar a distribuição χ . Caso a distribuição da medida amostrada original
2

não seja normal ou caso o conjunto de medidas represente coisas diferentes,


a utilização da distribuição χ não faz qualquer sentido e resultados espúrios,
2

como aqueles mostrado no Exemplo 3.14, podem ser obtidos.

Exemplo 3.16 – Observe no Exemplo 3.15 que o fator (N – 1) / χ1


2

diz quantas vezes maior a variância real pode ser, quando com-
parada à variância amostral. Por isso, esse número é apresentado
abaixo para alguns valores típicos.

Tabela 3.8 - Fatores que dizem quantas vezes maior que a variância
amostral a variância real pode ser.
% N=1 2 3 5 10 20 30 40 50 100
95 ∞ 1018 39.5 8.26 3.33 2.13 1.81 1.65 1.55 1.35
98 ∞ 6366 99.5 13.5 4.31 2.49 2.03 1.82 1.69 1.43
99 ∞ 25460 199.5 19.3 5.19 2.78 2.21 1.95 1.80 1.49
Observe na Tabela 3.8 que com cinco réplicas é possível apenas ga-
rantir a ordem de grandeza da variância verdadeira. Para garantir
o primeiro algarismo significativo (incertezas inferiores a 100%
do valor medido) da variância verdadeira são necessárias entre 20
e 30 réplicas! Quando o número de réplicas chega a 100, as incer-
tezas são da ordem ainda de 35 a 50% do valor medido! Para que
a incerteza seja inferior a 10% do valor medido são necessárias
900 (95%), 1250 (98%) ou 1500 (99%) réplicas, o que é inaceitável
do ponto de vista do trabalho científico experimental. Por isso,
teremos sempre que conviver com incertezas muito grandes em
relação aos reais valores da variância experimental.

O Problema Amostral: Inferências e Comparações 165


PERTENCE AO N O DE O I

A Tabela 3.8 também mostra que as incertezas da variância


real caem muito rapidamente para pequenos valores de N (por
exemplo, caem cerca de duas ordens de grandeza quando N é
incrementado de 2 para 3), mas depois decaem muito lentamente
para valores elevados de N (por exemplo, decaem cerca de uma
ordem de grandeza quando N é incrementado de 5 para 30).
Por isso, raramente há justificativas para que se reproduza um
dado experimental mais do que 5 vezes, uma vez que ganhos
apreciáveis de certeza requereriam aumento muito grande do
número de réplicas experimentais. Por isso, uma regra heurística
de repetição pode ser formulada, recomendando a replicação de
dados não mais do que 5 vezes, a não ser que seja muito fácil
repetir o experimento.

3.3.3. A Distribuição F de Fisher


Sejam x e y variáveis aleatórias sujeitas a flutuações normais, com médias
2 2
µX e µY e variâncias σ X e σ Y . Sejam N1 e N2 os números de amostra-
2 2
gens independentes de x e y feitas, sendo que X e Y e s X e sY são as
médias e variâncias amostrais obtidas. Pode-se mostrar que a variável
normalizada F, definida como:
s X2
F= I
sY2
σ X2
(3.24)

I σ Y2
está distribuída em conformidade com a seguinte função de densidade
de probabilidades:
 ν +ν 
 
 ν1 
Γ  1 2  ν1  ν 2  
ν
−1
 I2   I2 

  ν  ν  
 2 
2 F
℘(F ) = F (F ;ν 1 ,ν 2 ) =
 ν1   ν1   ν1 +ν 2 
1 2

ν 1 F + ν 2 ) 2 
(  
Γ Γ 
2 2
(3.25)
com:
ν2
Ε {F } = (3.26)
ν2 − 2

166 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

2ν 22 (ν 1 +ν 2 − 2 )
Var {F }= (3.27)
ν 1 (ν 2 − 4 )(ν 2 − 2 )
2

onde ν é o número de graus de liberdade e Γ representa a função gama,


definida pela Equação (2.46). A forma da distribuição F está mostrada
na Figura 3.9, enquanto valores para as probabilidades acumuladas são
apresentados na Tabela A.4 do Apêndice.
A Figura 3.9 mostra que a distribuição F é definida sobre o domínio real
positivo [0,∞). A distribuição F depende ainda de dois parâmetros, ν1 e ν2,
que representam os tamanhos dos conjuntos amostrais analisados. Quanto
maiores os valores de ν1 e ν2, mais estreita é a distribuição, uma vez que
as variâncias amostrais tendem a se aproximar das variâncias reais. Além
disso, a distribuição F apresenta a seguinte propriedade de simetria:

⇒ (3.28)

que é induzida pela própria definição do valor de F. A Equação (3.28) diz


que se a probabilidade de se encontrar um valor de F inferior a um certo
marco é igual a p% para dois conjuntos 1 e 2, ao se inverter a definição dos
conjuntos 1 e 2 os resultados devem ser qualitativamente idênticos. Como
a definição dos conjuntos foi invertida, o valor do marco também tem
que ser. Nesse caso, o que era maior passa a ser menor e vice-versa.
j>(F)

- " I C YJ
- Yt ,._ Y J

- •• c v,..vlcv,, "• <YJ


- VoJ> y._yJ <Y,, Wo<CVJ

F
Figura 3.9 – Ilustração da distribuição F.

A distribuição F tem enorme importância prática porque permite es-


tabelecer comparações muito mais eficientes entre diferentes variâncias
amostrais que aquelas obtidas com a distribuição χ . Para tanto, observe
2

que se as variâncias reais dos dois conjuntos de dados analisados são


supostamente iguais, então:

O Problema Amostral: Inferências e Comparações 167


PERTENCE AO N O DE O I

s X2
F= 2 (3.29)
sY
que é o formato básico de F usado nos exercícios seguintes.

Exemplo 3.17 – Se dois conjuntos de dados supostamente equi-


valentes (variâncias reais supostamente iguais) contêm 3 e 5
dados amostrados, respectivamente, quão diferentes podem ser
as variâncias obtidas?
De acordo com os resultados do Exemplo 3.16, as diferenças
observadas podem ser muito grandes. Dados 2 e 4 graus de liber-
dade, respectivamente, e fixando o grau de confiança em 95%,
procuram-se os valores de F tais que:
,
Esses valores podem ser obtidos diretamente da integração da
Equação (3.25) ou através da Tabela A.4. Nesse caso, como a dis-
tribuição F é bi-paramétrica, são apresentadas várias tabelas para
valores preestabelecidos da probabilidade acumulada. Usando
a tabela montada para a probabilidade acumulada de 0.975, na
coluna relativa ao grau de liberdade igual a 2 e na linha relativa
ao grau de liberdade igual a 4 obtém-se o valor F2=10.649. Não
há tabela disponível para a probabilidade acumulada de 0.025.
Nesse caso, usando a propriedade de simetria descrita pela Equa-
ção (3.28), na tabela de probabilidade acumulada de 0.975, na
coluna relativa ao grau de liberdade igual a 4 e na linha relativa
ao grau de liberdade igual a 2 obtém-se o valor de F1=1/39.248.
Portanto, com 95% de confiança:

1 s X2
< F = 2 < 10.649
39.248 sY
quando o conjunto x tem três medidas amostrais e o conjunto y tem
cinco medidas amostrais. De forma similar, para 98% de confiança:

PAC(~ ;4, 2 ) =0.990 , P,c (1-~; 2,4) = 0.990

1 s X2
< F = 2 < 18.000
99.249 sY

168 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Deve ficar bem claro que o Exemplo 3.17 anterior admite implicita-
mente que as medidas experimentais estão distribuídas de forma normal
e que todas as medidas de fato representam o mesmo fenômeno. Só assim
é possível usar a distribuição F. Caso a distribuição da medida amostrada
original não seja normal ou caso o conjunto de medidas represente coisas
diferentes, a utilização da distribuição F pode não fazer qualquer sentido,
gerando resultados espúrios, como aquele mostrado no Exemplo 3.14.

3.4. Fazendo Comparações entre Grandezas Amostrais


Com enorme freqüência, o analista é chamado a decidir se medidas
amostrais podem ser consideradas equivalentes ou não. De forma mais
específica, deseja-se saber se o valor médio real ou se a variância real do
problema pode estar mudando ou pode ter mudado durante os estudos
experimentais. Como veremos nos capítulos seguintes, essa questão pode
exercer enorme influência sobre o tratamento dos dados e a interpretação
final do conjunto de dados experimentais.
Uma forma muito simples de estabelecer essas comparações e to-
mar decisões está baseada na construção dos intervalos de confiança
para a variável considerada. Por exemplo, sejam α e β as grandezas
comparadas (por exemplo, médias ou ariâncias amostrais) e sejam α1
< α < α2 e β1 < β < β2 os respectivvos intervalos de confiança para
um grau de confiança p% especificado. Então, admitindo que α1 < β1,
as grandezas α e β são distintas com grau de confiança p% se α2 < β1;
ou seja, se não há interseção entre os intervalos considerados.

Exemplo 3.18 – Admita que dois estudantes diferentes obtiveram


os seguintes dados de titulação no laboratório:

Tabela 3.9- Medidas de titulação obtidas por dois alunos


1 2 3 4 5 6 7
1- Volume (ml) 76.48 76.43 77.20 76.25 76.48 76.48 76.6
2- Volume (ml) 77.10 78.4 77.2 76.2 77.7 76.8 -
As médias e variâncias amostrais são iguais a:
7 6

∑x i ∑x i
X1 = i =1
= 76.56 e X2 = i =1
= 77.23
7 6

O Problema Amostral: Inferências e Comparações 169


PERTENCE AO N O DE O I

∑ (xi − 76.56 )
2

s12 = i =1
= 0.0906 e
6
6

∑ (x − 76.56 )
2
i
s22 = i =1
= 0.5707
5

s1 = s12 = 0.301 e s2 = s22 = 0.755


Os intervalos de confiança da média e variância amostrais do primeiro
conjunto podem ser obtidos a partir das distribuições t e χ , como
2

feito nas seções anteriores. Fixando o grau de confiança em 95% e


levando-se em conta que ν1=N-1=6, para a média:

P,.c (1 1;6) = 0.025 , P,.c (t2 ;6) = 0.975


- 76.56-J.l, 2 7
- 2 ·44 7 < r - 0.30 I < .44
J7
0.30 I 0.30 I
76.56-2.447 J7 < ~,, < 76.56+ 2.447 J7
76.28 < ~~ . < 76.84
e para a variância:

s12
χ = 1.237 < χ = (N1 − 1) 2 < 14.449 = χ 22
2 2

σ1
1

0.0906 0.0906
6 < σ 12 < 6
14.449 1.237
0.03762 < σ 12 < 0.4394
Os intervalos de confiança da média e variância amostrais do segun-
do conjunto podem ser também obtidos a partir das distribuições t

170 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

e χ . Fixando o mesmo grau de confiança de 95% para fins de com-


2

paração e levando-se em conta que ν1=N-1=5, para a média:

P,.c (t1 ;6) =0.025 , P,.c (t:; 6)=0.975

. 77.23- J1 ,
-2.571 < I = O - < 2.571
755
.J6
0.755 0. 755
77.23-2.571 -,:--- < J1, < 77.23 + 2.571 ~
v6 • ~6
76.44 < J1 2 < 78.03
e para a variância:

,
s22
χ = 0.831 < χ = (N 2 − 1) 2 < 12.833 = χ 22
2 2

σ2
1

0.5707 0.5707
5 < σ 22 < 5
12.833 0.831

0.2224 < σ 22 < 3.434


Comparando-se os intervalos de confiança da média, observa-se
que no limite de 95% de confiança há interseção dos intervalos
na faixa 76.44 < µ1, µ2 < 76.84, de maneira que não é possível
dizer que as médias são diferentes. De forma similar, para as vari-
âncias obtém-se interseção na região 0.2224 < σ12, σ22 < 0.4394, de
maneira que não é possível dizer que as variâncias são diferentes.
Logo, por esses critérios as medidas dos dois alunos poderiam
ser consideradas equivalentes e, por isso, até misturadas em um
único conjunto de dados.
De forma similar, aplicando o teste F para 95% de confiança:

O Problema Amostral: Inferências e Comparações 171


PERTENCE AO N O DE O I

I~ (_!_.5 6) =0.975
AC }-'"' ' '
p..fC ( rc·. 6 5} =0.975
'1' '
I
,
1 s12
= 0.1670 < F = 2 < 6.9777
5.9876 s2
O valor de F obtido foi:

s12 0.0906
F= 2 = = 0.1587
s2 0.5707
que não satisfaz a desigualdade anterior. Portanto, no limite de
confiança de 95%, o valor de F obtido experimentalmente pode
ser considerado pouco provável. Logo, é pouco provável que as
variâncias reais dos dois problemas sejam iguais. Portanto, com
95% de confiança, pode-se dizer que o segundo aluno lidou com
mais flutuações experimentais do que o primeiro, indicando
que os experimentos conduzidos pelo primeiro aluno são mais
precisos.
Repare que as conclusões obtidas com os intervalos de confiança
da variância e com o teste F são distintas. Isso não é incomum;
muito pelo contrário. No entanto, o teste F tem capacidade muito
maior de detectar diferenças de variâncias amostrais que os inter-
valos de confiança obtidos com a distribuição χ . Por isso, pode-se
2

afirmar com 95% de certeza que os conjuntos amostrais podem


ter a mesma média, mas têm variâncias distintas. Portanto, não
parece haver argumentos que justifiquem a mistura dos dados, já
que os dois conjuntos não parecem ter sido amostrados de uma
mesma população.

Deve ficar bem claro que o Exemplo 3.18 acima admite implicitamente
que as medidas experimentais estão distribuídas de forma normal e que
todas as medidas de fato representam o mesmo fenômeno. Só assim
seria justificável o uso das distribuições t, χ2 e F para a análise. Caso as
medidas amostradas não sejam distribuídas normalmente ou caso os
conjuntos de medidas representem coisas diferentes, a utilização des-
sas distribuições pode não fazer qualquer sentido, gerando resultados
espúrios, como aquele mostrado no Exemplo 3.14.

172 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

As comparações feitas através dos intervalos de confiança são muito


simples e podem ser executadas com facilidade. No entanto, a literatura está
repleta de testes comparativos desenvolvidos para condições particulares,
onde informações adicionais são conhecidas. Não é objetivo desse texto
discorrer longamente sobre esse assunto e o leitor interessado pode buscar
informações adicionais nas referências apresentadas ao final do capítulo. No
entanto, algumas dessas situações particulares são apresentadas a seguir.

3.4.1. Testes Adicionais para a Média


 Condição especial 1 – Seja uma média histórica µX e a respectiva
variância σ X , obtidas com número elevado de graus de liberdade e
2

consideradas iguais aos valores verdadeiros. Deseja-se saber se uma


nova média amostral X , obtida a partir de um novo conjunto de
dados de tamanho N, é compatível com os dados passados. Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, a variável:

(3.30)

é normalmente distribuída, com média zero e variância igual a 1. Logo,


a curva normal pode ser usada para gerar os intervalos de confiança de
X e verificar se o valor obtido é compatível com o esperado.
CJx
u .- - 111 ~.; <
X <Jl \- +11, CJx
~.; (3.31)
· ~ vN . ""N

 Condição especial 2 – Seja uma média histórica µX, obtida com número
elevado de graus de liberdade e considerada igual ao valor verdadeiro.
Deseja-se saber se uma nova média amostral X , obtida a partir de um
novo conjunto de dados de tamanho N, é compatível com os dados
passados. Desconhece-se σ X , mas se conhece s X . Admite-se que as
2 2

medidas amostrais flutuam de acordo com a curva normal.


Nesse caso, a variável:

(3.32)

segue a distribuição t, com ν=N-1 graus de liberdade. Logo, a distribuição


t pode ser usada para gerar os intervalos de confiança de X e verificar
se o valor obtido é compatível com o esperado.

O Problema Amostral: Inferências e Comparações 173


PERTENCE AO N O DE O I

(3.33)

 Condição especial 3 – Dois conjuntos de dados com X 1 , s12 , N1 e ( )


( )
X 2 , s22 , N 2 estão disponíveis. Deseja-se saber se as médias podem
ser consideradas diferentes. Admite-se que as medidas amostrais
flutuam de acordo com a curva normal.
Como os dados flutuam normalmente, as médias amostrais também
flutuam normalmente com variâncias desconhecidas e iguais a σ 1 N1
2
-- I
I
e σ 2 N 2 . A diferença entre as médias amostrais, D = X 1 − X 2 , flutua
2

com variância σ D2 = σ 12 N1 + σ 22 N 2 . Se as populações são similares,


I I
σ D2 = σ 2 [1I N1 + 1I N 2 ], σ 12 = σ 22 = σ 2 .
Admitindo-se que as médias são iguais, porque as populações são
semelhantes, e que se conhece a variância verdadeira dos dados σ2,
então a variável:
D
u= (3.34)
σD
tem distribuição normal, com média zero e variância igual a 1. Assim,
−u1σ D < D < −u2σ D (3.35)
Se a variância real não é conhecida, admitindo-se que os conjuntos
são similares e que têm a mesma variância verdadeira, então:
ν 1s12 +ν 2 s22
s2
1+ 2 = (3.36)
ν 1 +ν 2
é uma estimativa melhor da variância da medida, com ν1 + ν2 graus de
liberdade. Assim,
 1 1 
sD2 = s12+ 2  +  (3.37)
N
 1 N 2 
é uma estimativa da variância de D com ν1 + ν2 graus de liberdade.
Logo, a variável
D
t= (3.38)
sD
segue a distribuição t, com ν1 + ν2 graus de liberdade, de forma que
−t1sD < D < −t2 sD (3.39)

174 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 3.19 – O desempenho de dois tipos de gasolina é apre-


sentado abaixo:
Gasolina 1 2
Milhas/galão (média) 22.7 21.3
Desvio padrão amostral 0.45 0.55
Número de carros que foram medidos 5 5

D = X 1 − X 2 = 1.4
ν 1s12 +ν 2 s22 4 ⋅ 0.452 + 4 ⋅ 0.552
s2
1+ 2 = = = 0.2525
ν 1 +ν 2 4+4

 1 1  1 1
sD2 = s12+ 2  +  = 0.2525  +  = 0.101
 N1 N 2  5 5
D
t= = 4.405
sD = 0.3178 sD
Para 8 graus de liberdade e 95% de confiança,

– 2.306 < t < 2.306


Conclui-se, portanto, que o valor observado de t é pouco provável
e que as gasolinas são diferentes com 95% de confiança.
É importante observar que testes similares podem ser utilizados
para verificar se uma determinada média difere significativamente
de zero, por exemplo. Este teste é bastante importante para a esti-
mação de parâmetros, como será visto nos capítulos posteriores.

3.4.2. Testes Adicionais para a Variância


 Condição especial 1 – Seja uma média histórica µX e a respectiva
variância σ2X, obtidas com número elevado de graus de liberdade e
consideradas iguais aos valores verdadeiros. Deseja-se saber se uma
nova variância amostral s2X, obtida a partir de um novo conjunto de
dados de tamanho N, é compatível com os dados passados. Admite-se
que as medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, a variável:

O Problema Amostral: Inferências e Comparações 175


PERTENCE AO N O DE O I

s X2
χ = (N − 1) 2
2
(3.40)
σX

segue a distribuição χ , com ν=N graus de liberdade. Logo,


2

σ X2 σ X2
χ 2
< sX < χ2
2 2
(3.41)
(
1
N − 1) (N − 1)
3.4.3. Testes Adicionais de Aleatoriedade
 Condição especial 1 – Seja uma média histórica µX e a respectiva
variância σ2X, obtidas com número elevado de graus de liberdade e
consideradas iguais aos valores verdadeiros. Deseja-se saber se as
flutuações das medidas amostrais em um conjunto de tamanho N
podem ser admitidas normais.
Nesse caso, a variável:

X =L
N (
2
;
X -
Jlx )? -
(3.42)
r=l (JX

segue a distribuição χ2, com ν=N graus de liberdade. Logo,


χ12 < χ 2 < χ 22 (3.43)

 Condição especial 2 – Deseja-se saber se as flutuações das medidas


amostrais em um conjunto de tamanho N podem ser admitidas
normais.
Nesse caso, a variável:
2
x −X 
N
χ2 = ∑ i  (3.44)
i =1  sX 

segue a distribuição χ , com ν=N – 1 graus de liberdade. Logo,


2

χ12 < χ 2 < χ 22 (3.45)

 Condição especial 3 – Deseja-se saber se as flutuações das medidas


amostrais em um conjunto de tamanho N seguem uma distribuição
estatística particular.
Esse problema pode ser tratado de forma mais rigorosa usando-se
as ferramentas de estimação de parâmetros apresentadas nos próximos

176 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

capítulos. No entanto, uma técnica muito usada consiste em construir


uma tabela na forma:
Intervalo Limites do Probabilidade Número total
Intervalo do Intervalo de observações
1 x0 < x < x1 1/NI N1
2 x1 < x < x2 1/NI N2
... ... ... ...
NI xNI-1 < x < xNI 1/NI NNI

que divide o domínio de definição da distribuição que está sendo testada


em NI intervalos igualmente prováveis. Então, o número de observações
efetuadas em cada intervalo é distribuído na tabela. Para analisarmos
os dados, é conveniente observar que um ponto experimental pode
estar ou não no intervalo considerado (2 respostas são possíveis) e que
a probabilidade de acerto (1/NI) é conhecida. Logo, o número provável
de pontos colhidos em cada intervalo pode ser previsto com a curva
binomial. Os valores observados são então comparados com aqueles
obtidos pela curva binomial, para um dado grau de confiança. Se todos
os valores observados estão em conformidade com a previsão efetuada
com a distribuição binomial, então a curva de probabilidade original-
mente proposta pode ser considerada plausível; caso contrário, a curva
de probabilidade proposta deve ser descartada. Se N é o número total
de pontos considerado, um procedimento heurístico consiste em fazer
NI = N . Sabe-se que se NI < 5, o poder de discriminação dessa técni-
ca é muito baixo, o que mostra uma vez mais a necessidade de grande
número de réplicas para um ajuste adequado da curva de distribuição
de probabilidades.

Exemplo 3.20 – No Exemplo 3.5 foi gerada a seguinte seqüência de


pontos experimentais que seguem uma distribuição uniforme:

Tabela 3.10 - Números aleatórios com distribuição uniforme no intervalo (0,1),


gerados como no Exemplo 3.5
0.0109 0.1194 0.3298 0.3970 0.4607 0.6282 0.7481 0.8654
0.0306 0.1610 0.3369 0.4055 0.4766 0.6725 0.7573 0.9101
0.0316 0.2291 0.3416 0.4423 0.5192 0.6732 0.7680 0.9237
0.0498 0.2430 0.3475 0.4476 0.5202 0.7062 0.7706 0.9493
0.0680 0.3138 0.3665 0.4518 0.5482 0.7227 0.8227 0.9702

A média e variância amostrais são iguais a:

O Problema Amostral: Inferências e Comparações 177


PERTENCE AO N O DE O I

40

∑x i
X= i =1
= 0.4884
40
40

∑ (x − 0.4884 )
2
i
sx2 = i =1
= 0.07952
39
s X = s X2 = 0.2820
Deseja-se saber se a curva normal pode representar de forma ade-
quada esse conjunto de dados aleatórios. Para isso, admitindo que
µ X = X , que σ X2 = s X2 e que NI = 40 = 6 , monta-se a seguinte
tabela de distribuição dos dados.

Tabela 3.11 - Distribuição dos pontos da Tabela 3.10 em intervalos


de igual probabilidade da curva normal
Limites do Probabilidade Número total
Intervalo
Intervalo do Intervalo de observações
1 −∞ < x < 0.2156 1/6 7

2 0.2156 < x < 0.3669 1/6 8

3 0.3669 < x < 0.4884 1/6 7

4 0.4884 < x < 0.6099 1/6 3

5 0.6099 < x < 0.7612 1/6 7

6 0.7612 < x < ∞ 1/6 8

Os limites de confiança de 95% obtidos a partir da curva binomial,


com m=40 e p=1/6 (ver Seção 2.1) são 2 (PAC(2;40,1/6)≅0.025) e 12
(PAC(12;40,1/6)≅0.975). Logo, o número de observações em cada
um dos intervalos analisados deve estar entre 2 e 12, com 95% de
confiança. Como essa condição é satisfeita em todos os intervalos
da Tabela 3.11, não é possível dizer que os dados da Tabela 3.10,
gerados segunda uma distribuição uniforme, não seguem uma
distribuição normal. Vê-se uma vez mais como é difícil definir de
forma inequívoca a curva de distribuição de probabilidades que rege
um determinado problema físico. A Figura 3.10 confirma claramente

178 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

o resultado e mostra como pode ser difícil discriminar diferentes


curvas de densidade de probabilidade mesmo quando um número
razoável de pontos está a disposição, como no caso proposto.
1.0

-..='
!!!!
'!!)
lUI

E
~:;,.o
,(,

~
151

~
:s
!Ill
..1:1
;:
=-..

Figura 3.10 - Ajuste normal aos dados da Tabela 3.10.

3.4.4. Testes Adicionais de Independência dos Dados


 Condição especial 1 – Dois conjuntos de dados com (X , s X2 , N ) e
(Y , sY2 , N ) estão disponíveis. Deseja-se saber se os dados podem estar
correlacionados. Admite-se que as medidas amostrais flutuam de
acordo com a curva normal.
Nesse caso, a medida de dependência é dada pela covariância ou pelo
fator de correlação (ver Seção 1.6). No entanto, como saber se a medida é
significativa? Um teste bastante simples é baseado na Equação (1.40):
Var {x + y}= Var {x}+ 2Covar {x, y}+ Var {y} (1.40)
Se os dados são independentes, a variância da soma (diferença) é a
soma das variâncias. Se os dados não são independentes, a variância da
soma (diferença) é diferente da soma das variâncias. O teste consiste em
verificar com o teste F se a diferença observada é inferior ou não àquela
que poderia ser causada por mera flutuação aleatória.

Exemplo 3.21 – O seguinte conjunto de dados está disponível:


x: 1 2 3 4 5
y: 1.1 1.9 3 3.9 5.1
que resultam nas grandezas amostrais:

O Problema Amostral: Inferências e Comparações 179


PERTENCE AO N O DE O I

X =3 s X2 = 2.50 s X = 1.5811

Y =3 sY2 = 2.51 s X = 1.5843


2
s XY
s 2
XY = 2.50 ρ XY = = 0.998
s X sY
Para a soma (diferença) de x e y, as grandezas amostrais são:

X +Y = 6 s X2 +Y = 10.1 s X +Y = 3.1639

X −Y = 0 s X2 −Y = 0.01 s X +Y = 0.1
Fixando-se o limite de confiança em 95%, para quatro graus de
liberdade obtém-se:

1
< F < 9.6045
9.6045
Para os dois casos analisados:
, ,
F= ·'.\· - r= O.OI = 0.002 F= ·'.i:'+l' = 10.0 1 = 2.00
(s} +s~ ) 5.0 l ' (s} + s~) 5.01
Vê-se, portanto, que as diferenças observadas na variação das
diferenças não poderiam ser explicadas por flutuações puramente
aleatórias. Assim, pode-se dizer que a covariância (e o fator de
correlação) entre x e y são significativos com 95% de confiança.
O resultado obtido não deve impressionar demais o leitor, pois
esse problema foi, de certa forma, fácil de resolver. Na maior
parte dos casos, poucos pontos resultam quase sempre em baixa
qualidade de resolução dos termos de correlação.

 Condição especial 2 – Um conjunto de dados com X , s X2 , N está ( )


disponível. Deseja-se saber se os dados obtidos são realmente alea-
tórios ou se podem estar correlacionados entre si. Admite-se que as
medidas amostrais flutuam de acordo com a curva normal.
Nesse caso, é conveniente definir a função de autocorrelação na
forma:

180 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

N- k
L,(x,-Xo)(x,.,.-x.) (3.46)
Cx. -_ -_,_1=~·--------------
N- k- 1
ou na forma:

(3.47)

em que é calculada a covariância (Equação (3.46)) ou a correlação (Equação


(3.47)) de dados amostrais deslocados de k unidades no tempo. Nesse caso,
X 0 é a média amostral dos primeiros N-k valores amostrados, enquanto
X k é a média amostral dos últimos N-k valores amostrados. A função de
autocorrelação pode fornecer importantes pistas sobre a existência de
dinâmica (não aleatoriedade) entre os dados amostrados e sobre a exis-
tência de efeitos experimentais indesejados. No entanto, para evitar a
tomada equivocada de conclusões, a significância dos valores calculados
com a Equação (3.46) deve ser sempre testada, como ilustrado no Exemplo
3.21. Como procedimento heurístico, recomenda-se que (N-k) seja sempre
igual ou superior a 20 para uso eficiente das Equações (3.46-47).
Fundamentalmente, a função de autocorrelação mostra se existe
uma memória entre dados que se sucedem em uma série de dados. Se
existe uma relação determinística entre os dados (por exemplo, os dados
representam a resposta de um processo a uma dada perturbação), as
correlações são significativas e se aproximam do valor unitário. Se os
dados são corrompidos por erros experimentais e/ou as perturbações
do processo são muito freqüentes, as correlações tendem a diminuir
à medida que o atraso k aumenta. Dessa forma, é possível definir um
horizonte de memória do processo, que é o máximo valor de k para o
qual ainda se observam correlações significativas entre os dados. Essa
informação pode ser fundamental em vários problemas.
Um exemplo típico de aplicação prática dos espectros de autocor-
relação é a análise do comportamento dinâmico de processos. Se um
processo opera em condições estacionárias (todas as variáveis se mantêm
aproximadamente constantes ao longo do tempo), as flutuações dos da-
dos refletem apenas os erros de medida e operação do processo (ou seja,
as flutuações são essencialmente aleatórias), de forma que o espectro
de autocorrelação deve apresentar correlações muito próximas do zero

O Problema Amostral: Inferências e Comparações 181


PERTENCE AO N O DE O I

para qualquer valor de k considerado. Assim, se correlações pronuncia-


das são observadas para valores de k baixos, esse é um indício claro de
que o processo opera de forma dinâmica na freqüência de amostragem
dos dados e que qualquer tentativa de interpretação dos dados deve ser
feita à luz de um modelo dinâmico do processo. Portanto, o espectro de
autocorrelação auxilia na definição da melhor estratégia de modelagem
matemática dos dados disponíveis. Além disso, o máximo valor de k
para o qual as correlações ainda podem ser consideradas significativas
(kmax) é uma constante de tempo que caracteriza o processo e o procedi-
mento de amostragem. Esse dado pode conter importante conteúdo de
informação para a implementação de rotinas de controle de processo e
simulação. Por exemplo, o uso de simuladores estacionários só deveria
ser usado para descrição do processo se os dados estão amostrados
com freqüência inferior àquela definida por kmax, para que seja possível
filtrar a influência dinâmica que um dado da seqüência exerce sobre o
outro. Mais ainda, esquemas de controle devem coletar informações do
processo com freqüência superior àquela definida por kmax, para que seja
possível capturar a informação dinâmica e corrigir efeitos causados por
perturbações indesejadas do processo.

Exemplo 3.22 – Para o conjunto de dados ilustrado abaixo na Fi-


gura 3.11, calcula-se o espectro de autocorrelação da Figura 3.12.
Vê-se de forma clara que as correlações diminuem lentamente,
à medida que a distância entre os dados aumenta, e tornam-se
não significativas após um certo tempo.

;.- A
••
n:::
•..... .. .
••" •i!i
U,fl
• •
• _:• •. "'•·., ,
..........


• • Ill Ill"
_,. •· "'•· •
IIi ••,.•\ ·~ _..IIi
•\.
,_IIi . ••••1
. . ..

.•.
..... ..• ..•r.... ~~c I· "• /..,_,..,
0.:!
01 :m fo.O 11)1)

.\mw. tffil!,i'm , i

Figura 3.11 - Dados amostrados num processo de experimentação.

182 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

1.00

11.7S lr

ec"• .
Q
••
._,~,
I
I
n
11.:!~

:! J 4 5 4 1 8 9 ICI II I! JJ I ~ I~ Hi 17 18 19 :!II
lksiCW:aJll('IIIO

Figura 3.12 - Função de autocorrelação para os dados da Figura 3.11.

Considerando-se que correlações da ordem de 0.5 já são bastante


fracas, observa-se na Figura 3.12 que o horizonte de memória
característica do processo é de 16 unidades de amostragem (kmax).
Esse deslocamento dá uma idéia da dinâmica do processo e de quão
longe uma informação inserida no processo de experimentação
permanece influenciando os demais resultados obtidos. Se com-
portamento aleatório fosse desejado, como durante a execução de
réplicas experimentais, os dados deveriam ser recusados.

3.4.5. Testes Adicionais para Outliers


Outlier é a expressão usada genericamente para designar pontos expe-
rimentais que parecem não se adequar a uma distribuição particular de
probabilidades definida pela grande maioria dos demais pontos experi-
mentais. Quase sempre a detecção de outliers visa a eliminação desses
pontos suspeitos de não fazerem parte do conjunto. Essa é uma questão
muito controversa da prática estatística, em particular quando poucos
pontos experimentais estão disponíveis, e será analisada algumas vezes
nos capítulos que seguem. De uma forma cautelosa, como descrito por
E.J. Gumbel (Technometrics, 2, 165, 1960): “A rejeição de outliers em bases
puramente estatísticas é e continua a ser um procedimento perigoso. Sua
existência pode ser a prova de que a população estudada não é, na reali-
dade, o que se assumiu que fosse.”
Se o número de graus de liberdade é pequeno, o melhor teste para
detecção de outliers parece ser primeiramente a repetição da medida ex-
perimental e em segundo lugar a comparação estatística dos resultados
amostrais obtidos quando o candidato a outlier é removido ou adicionado
ao conjunto de dados. Se as comparações resultarem em conclusões de

O Problema Amostral: Inferências e Comparações 183


PERTENCE AO N O DE O I

equivalência, a decisão mais sensata será manter o candidato a outlier


no conjunto de pontos experimentais, a não ser que sobre ele pairem
dúvidas de erros grosseiros.

Exemplo 3.23 – Os seguintes dados foram obtidos para a concen-


tração de uma espécie química em uma solução mineral:
x (ppm): 23.2 23.4 23.5 24.1 25.5
havendo desconfiança de que o último ponto seja na realidade
um outlier. Para analisar a questão, para um grau de confiança
de 95%, o conjunto amostral que contém o outlier:

X = 23.94 s X2 = 0.873 s X = 0.934 ν = 4


22.78 < Jlx < 25 . LO

é comparado com o conjunto amostral que não contém o ou-


tlier:

X = 23.55 s X2 = 0.150 s X = 0.387 ν = 3


22.93 < J-l·:· < 24.17

1 0.873
<F= = 5.82 < 15.101
9.9792 0.150
Como as médias e variâncias obtidas com e sem o outlier são
estatisticamente semelhantes, não parece razoável descartar o
candidato a outlier do conjunto de pontos.

3.5. A Região de Confiança em Problemas


Multidimensionais
Chama-se de região de confiança com probabilidade p àquela região do
espaço de variáveis que concentra uma probabilidade definida e igual a p
das possíveis flutuações observáveis no problema. Em um problema uni-
dimensional, a definição da região de confiança é extremamente simples,
pois consiste simplesmente em descartar as extremidades inferior e supe-
rior dos valores menos prováveis que concentram probabilidades (1-p)/2.
Em um problema multidimensional, no entanto, a definição da região de
confiança pode não ser um problema bem posto, pois diferentes regiões,
com diferentes formas, podem resultar numa mesma concentração de
probabilidades. Essa questão está ilustrada no Exemplo 3.24 a seguir.

184 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 3.24 – Considere a distribuição exponencial de probabi-


lidades definida para duas variáveis no Exemplo 2.14.

℘(x1 ; x2 ) = 2e(− x1 − 2 x2 )
Pode-se então construir regiões de confiança com forma quadrada,
com lados de tamanho 2a e centradas ao redor do ponto médio,
na forma:
1+ a 0.5 + a 1+ a 0.5 + a
(− x1 − 2 x2 ) (− x1 )
∫ ∫ 2e dx2 dx1 = 2 ∫ e ∫ e(−2 x2 )dx2 dx1 =
1- a 0.5- a 1- a 0.5- a
1+ a 0.5 + a
 e(− x1 )   e(−2 x2 ) 
2   
 − 1 1-a  −2  0.5-a
cuja confiança depende do valor de a. Como ambas as variáveis
x1 e x2 são estritamente positivas, o maior valor admissível para
a é 0.5 (lados iguais a 1). Portanto, o maior quadrado centrado em
torno da média representa uma confiança de 33.15%.
Alternativamente, pode-se também construir regiões de confiança
com forma retangular, com lados de tamanhos proporcionais a
2:1 e centradas ao redor do ponto médio, na forma:
1+ 2 a 0.5 + a 1+ 2 a 0.5 + a
(− x1 − 2 x2 ) (− x1 )
∫ ∫ 2e dx2 dx1 = 2 ∫ e ∫ e(−2 x2 )dx2 dx1 =
1-2 a 0.5- a 1-2 a 0.5- a
1+ 2 a 0.5 + a
 e(− x1 )   e(−2 x2 ) 
2   
 − 1 1-2 a  −2  0.5-a
De forma análoga, o maior desses retângulos admissível tem
lados iguais a 2 e a 1. Nesse caso, o retângulo máximo admissível
concentra uma confiança de 74.76%. Logo, parece claro que existe
um retângulo com os lados na proporção 2:1 e centrado em torno
do ponto médio que concentra a mesma confiança do quadrado
com lado de comprimento igual a 1. Na realidade, esse retângulo
tem os lados com comprimentos iguais a 1.44 e 0.72, nas direções
de x1 e x2 respectivamente.

O Problema Amostral: Inferências e Comparações 185


PERTENCE AO N O DE O I

Da mesma forma que feita entre o retângulo e o quadrado no


caso anterior, diferentes regiões de forma retangular, circular,
elipsoidal etc., podem ser desenhadas para conter a mesma pro-
babilidade de observação dos dados que a região quadrada pro-
posta inicialmente. Logo, não é possível definir a forma da região
de confiança de forma inequívoca sem que restrições adicionais
sejam impostas ao problema.

3.5.1. A Geometria da Região de Confiança da Curva Normal


Multidimensional
Como mostrado no Exemplo 3.24, não é possível definir uma região de
confiança de forma inequívoca em problemas multidimensionais sem que
se imponham restrições adicionais ao problema. No caso particular da
curva normal multidimensional, uma propriedade muito importante é o
fato de que a curva apresenta a forma de um chapéu ou sino, convergindo
para o valor zero à medida que as variáveis tendem a infinito em quais-
quer direções do espaço. Portanto, é possível desenhar curvas de nível
fechadas, onde a densidade de probabilidade se mantém constante. Por
isso, para o caso da curva normal multidimensional, define-se a região de
confiança com probabilidade p àquela região do espaço de variáveis que é
limitada por uma superfície onde todos os pontos estão associados a um
mesmo valor da densidade de probabilidade e onde a integral da função
densidade de probabilidade é igual a p. O conceito de região de confiança
aqui proposto pode ser facilmente compreendido se imaginarmos que
a função densidade de probabilidade descreve um relevo no espaço e as
superfícies que delimitam regiões de diferentes probabilidades são as
curvas de nível, como mostrado na Figura 3.13:

... ••

_,.
-l.l
..:r n -1 11 i• Jn
.u.taada t.llfro•

Figura 3.13 - Definição da região de confiança para a curva normal


multidimensional.

186 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

No caso da curva normal, a definição da região de confiança está


associada ao expoente da Equação (2.72), dado que os demais termos
da equação são constantes e não dependem do ponto experimental
considerado. Sendo assim, as curvas de nível que limitam as regiões de
confiança satisfazem a Equação (3.48) abaixo:
(3.48)

onde c é uma constante que caracteriza o nível da função densidade de


probabilidade e, portanto, o grau de confiança. Quanto menor o valor
de c, maior o grau de confiança, uma vez que a função normal tende ao
zero para valores muito grandes. A região de confiança é então aquela
que satisfaz a Equação (3.49)
(3.49)

constituída pelos pontos interiores em relação à curva de nível.


As Equações (3.48-49) são muito estudadas na Álgebra e caracterizam
um conjunto particular de curvas chamadas de formas quadráticas.
Este nome deve-se ao fato de que, depois de feitas as multiplicações
vetoriais, a Equação (3.48) pode ser colocada na forma:
NX NX

∑ ∑ (v )(x − µ )(x
i =1j =1
−1
ij i i j − µ j )= c (3.50)

que é a generalização de uma polinomial de segundo grau para várias


−1
variáveis. vij é o elemento ij da inversa da matriz de covariâncias de
x.
Como a matriz VX é positiva definida, a curva definida pela Equação
(3.48) é uma forma quadrática muito especial, que recebe o nome de
hiper-elipse; ou seja, uma elipse no espaço de dimensão NX. Portanto,
a região de confiança obtida a partir da curva normal é sempre uma
elipse no espaço de variáveis de dimensão NX. O problema é que o
estudo da Equação (3.48) na forma proposta é bastante dificultado
pelo fato da matriz VX não ser diagonal, o que faz com que todos os
termos quadráticos apareçam, como na Equação (3.50). Portanto, antes
de estudar as características da hiper-elipsóide que define a região de
confiança, é conveniente diagonalizá-la. Para tanto, lembremos do pro-
blema clássico de valores característicos, colocado como encontrar os
números λ (valores característicos) e vetores d (vetores característicos)
que satisfazem a seguinte equação:

VXd = λd (3.51)

O Problema Amostral: Inferências e Comparações 187


PERTENCE AO N O DE O I

ou seja:
(VX − λ I )d = 0 (3.52)

O sistema de equações (3.52) é um sistema linear clássico. Para que


existam soluções não triviais da Equação (3.52), é necessário que a matriz
(VX - λI) seja singular; ou seja, que seu determinante seja igual a zero.
Portanto, a equação:
det (Vx − λ I ) = 0 (3.53)

é a equação que permite calcular os valores característicos do sistema.


Uma vez obtidos os valores característicos do sistema, a Equação (3.51)
pode ser utilizada para que sejam obtidos os vetores característicos.
Como a matriz (VX - λI) é singular, infinitos vetores característicos
satisfazem a Equação (3.51). Para normalizar e definir de forma única
a solução do problema, é conveniente tomar como solução, dentre as
infinitas soluções existentes, aquela cujo vetor tem tamanho unitário.
Deve ser ainda enfatizado que a Equação (3.53) resulta sempre em um
polinômio de grau NX, que portanto admite até NX diferentes raízes ou
valores característicos. Como a matriz VX é positiva definida e simétrica,
é possível garantir que todos os seus valores característicos são números
reais e positivos.
A Equação (3.51) pode ser reescrita de forma compacta, engloban-
do todas as soluções características do sistema ao mesmo tempo, na
forma:

λ1 0  0 
0 λ  0 
VX [d1  d 2  d NX ]= [d1  d 2  d NX ] 2

0 0   
 
0 0  λNX 

(3.54)

que pode então ser usada como definição da matriz diagonal dos valores
característicos e da matriz de vetores característicos na forma:
(3.55)

onde:

188 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

1., 0 . .. 0
o A2 o
A= (3.56)

e:
(3.57)

Desta forma, é possível representar a matriz VX como o produto de


matrizes:
VX = DLD–1 (3.58)
onde Λ tem estrutura diagonal.

1 − 1
Exemplo 3.25 – Seja a matriz A =  . Neste caso, os valores
característicos são iguais a: 0 2 

 1 − λ −1  
det (A − λ I ) = det    = (1 − λ )(2 − λ ) − 0 (−1) = 0
 0 2 − λ  

λ 2 − 3λ + 2 = 0
cujas raízes são:

− (−3) ± (−3) − 4 (1)(2 )


2
1
λ= =
2 (1) 2
Assim, os vetores característicos podem ser obtidos como:
1 −1  a   a  a − b = a  a  a 
0 2  b  = 1 b  ⇒  2b = b  ⇒  b  =  0  = d1
          
1 
A solução com tamanho unitário é d1 =   .
0

1 −1  a   a   a − b = 2a   a   −b 
0 2  b  = 2  b  ⇒  2b = 2b  ⇒ b  =  b  = d 2
          

O Problema Amostral: Inferências e Comparações 189


PERTENCE AO N O DE O I

 2
− 
A solução com tamanho unitário é d 2 =  2 .
 2 
 
 2 
 .r2

A =[~ ~]
1 − 
Desta forma, e D= 2 
.

0
.r2 

 2 

Calculando-se a matriz inversa de D como:

D−1 =
1  d 22 −d12 
=
1 
 2 .r.r2  = 1 1 
 
det (D )  −d 21 d11   2  
2 2 
0 2
   0 1 
 2 
chega-se finalmente à representação diagonalizada de A como:


 1 −
2 ..r
 1 0  1 1 
A= 2   

 0

2 

..r
0 2  0 2
 2 

Como além de positiva definida, a matriz VX é simétrica, é possível


mostrar que D–1 = DT, de forma que nos problemas que nos interessam
mais diretamente, é possível escrever:
(3.59)

Substituindo a Equação (3.59) na Equação (3.48), a equação que des-


creve a superfície que envolve a região de confiança ganha a forma:

(3.60)

Finalmente, redefinindo as variáveis do problema como:


(3.61)

a Equação (3.60) ganha a forma;

190 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

(3.62)

que tem a forma explícita:


NX
zi2
∑ λ
i =1 i
=c (3.63)

facilmente identificável como uma elipse centralizada no ponto central


e com semi-eixos com comprimentos iguais a cλi . Repare que c, ou
o grau de confiança exigido, não exerce qualquer influência sobre o
formato da região de confiança, excetuando-se obviamente o aumento
proporcional de todos os semi-eixos da elipse. Por isso, quase sempre
o fator c é desprezado durante a análise, já que ele apenas muda de
forma absolutamente proporcional os eixos da elipse. Esses resultados
indicam que as regiões de confiança obtidas para a curva normal para
diferentes níveis de confiança formam uma estrutura semelhante à da
cebola, em que as regiões com maior confiança envolvem completa e
proporcionalmente as regiões de menor confiança.
O conjunto de transformações introduzidas através da Equação (3.61)
representa uma translação para o zero e uma rotação da elipse, de forma a
fazer com que os seus semi-eixos coincidam com os eixos ortogonais e que o
centro da elipse coincida com a origem dos eixos de coordenadas. As transfor-
mações da Equação (3.61) são isométricas, no sentido de que elas preservam
a forma original da figura geométrica, como ilustrado na Figura 3.14.

lJ. U I.J. M J.' U U 1.t •• u


"
• •
Figura 3.14 - Transformações geométricas devidas às mudanças de
coordenadas.

A partir da Equação (3.63) fica relativamente fácil extrair muitas


informações sobre a geometria da região de confiança de um problema
descrito pela curva normal multidimensional. As informações mais
importantes são:

O Problema Amostral: Inferências e Comparações 191


PERTENCE AO N O DE O I

1. A região de confiança da curva normal multidimensional é uma hiper-


elipse, cujos eixos têm comprimentos proporcionais a λi , onde λi,
i=1, ... , NX, são os valores característicos de VX;
2. A assimetria máxima da hiper-elipse que descreve a região de
confiança, ou fator de esfericidade, definida como a razão entre os
comprimentos extremos de seus eixos, pode ser dada por:

λMIN
φ=
F λMAX
3. Como o traço de uma matriz (a soma dos elementos da diagonal prin-
(3.64)

cipal) é igual à soma de seus valores característicos, ou seja,


NX .VX
tr(V,.)= L v. =,LA., (3.65)
1 =1 • =1

o traço da matriz de covariâncias é igual à soma dos comprimentos


quadrados de seus eixos;
4. Como o volume de uma elipse é proporcional ao produto do compri-
mento de seus eixos, conclui-se que o volume da região de confiança
é proporcional à raiz quadrada do produto dos valores característicos
de VX. Como o produto dos valores característicos de uma matriz é
idêntico ao valor do determinante da matriz, é possível escrever
NX
Volume = ~det (V,) =f1 J}:; (3.66)
r-1

Portanto, os valores característicos da matriz de covariâncias VX guar-


dam muitas informações a respeito da geometria da região de confiança
da distribuição normal. Repare que distribuições probabilísticas não
normais podem apresentar geometria da região de confiança bastante
distinta da aqui apresentada.

Exemplo 3.26 – Seja a distribuição de probabilidades exponencial


apresentada a seguir:
 
 1   1   NX xi − µi 
℘(x ) =  NX  NX exp  ∑ − 
 2  τ   τ 
 ∏
i =1 i
i 
i =1 

192 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

cujo vetor de médias e matriz de covariâncias são dados por:

 µ1   2τ 12 0  0 
µ   
0 2τ 22  0 
ì =  2  VX = 
        
   2 
µ
 NX  ,  0 0  2τ NX 
A região de confiança da distribuição exponencial pode também
ser obtida explorando-se a simetria da distribuição em torno do
centro e o fato de que a função converge suavemente para o
zero nos limites de infinitamente positivos ou negativos. Assim,
como no caso da curva normal, a região de confiança pode ser
dada pela equação:

onde c é uma constante relacionada ao grau de confiança desejado.


A equação que define a forma da região de confiança é a equação
de 2NX planos, a depender do sinal adotado para o termo na função
módulo. Esses planos cruzam os eixos coordenados nos pontos:

x.r =J11 +..,.,.c


- c. r

Como os planos definidos pela equação se interceptam nos


mesmos 2NX pontos, esses pontos constituem os vértices de um
poliedro regular, cujas faces planas são os planos que conectam
os vértices em cada um dos quadrantes definidos quando os eixos
coordenados são centrados em . O poliedro é formado então
por 2NX faces e 2NX vértices. Os eixos do poliedro são paralelos
aos eixos coordenados, conectam vértices opostos e têm compri-
mentos iguais a 2cτi. Assim, no espaço bidimensional a região de
confiança tem a forma de um losango, com centro em e eixos
paralelos aos eixos coordenados. No espaço tridimensional a re-
gião de confiança tem a forma de um octaedro regular, com faces
,.,
triangulares, centro em e eixos paralelos aos eixos coordenados.
E assim por diante.

É muito importante perceber que a Equação (3.61) sugere uma mu-


dança de variáveis na forma:

O Problema Amostral: Inferências e Comparações 193


PERTENCE AO N O DE O I

(3.67)

onde dij representa o j-ésimo componente do i-ésimo vetor característico


de VX. Se os valores característicos são ordenados de forma que:
λ1 >λ2 > ... >λNX (3.68)
então as variações observadas podem ser decompostas ao longo das
direções definidas pelos vetores característicos, sendo que as variações
são máximas ao longo de d1 (direção que define o maior eixo da hiper-
elipse) e mínimas ao longo da direção dNX (direção que define o menor
eixo da hiper-elipse). Por isso, os vetores característicos são freqüente-
mente chamados de direções principais de variação, enquanto os valores
característicos são usados para definir as direções do espaço ao longo
das quais as variações são mais importantes. Quando um ou mais dos
valores característicos apresentam ordem de magnitude muito inferior
às dos demais, é possível sugerir a redução do número de variáveis do
problema, já que isso indica que uma ou mais combinações de variáveis
permanecem essencialmente constantes no conjunto de dados.

Exemplo 3.27 – Seja o vetor de médias


JL=[!] e a matriz de

100 9
covariâncias VX =   , cujos valores característicos são:
 9 1 
 100 − λ 9 
 = (100 − λ )(1 − λ ) − 81 = λ − 101λ + 19 = 0
2
det   
 9 1− λ  

101 ± 1012 − 4.19


λ=
2
λ1 = 100.81153 , λ2 = 0.18847
Observa-se que as flutuações ocorrem principalmente ao longo da
direção 1, enquanto as flutuações observadas ao longo da direção
2 são comparativamente pouco importantes. Isso sugere que há
apenas uma variável aleatória no problema, e não duas, como
sugerido pela matriz de covariâncias e observações experimentais.
A direção principal de variação pode ser obtida com:

194 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

100 9   a   a  100a + 9b = 100.81153 a


 9 1 b  = 100.81153   ⇒ 9a + b = 100.81153 b ⇒
   b 

a = 11.0901b
Para obter o vetor unitário:

11.0901
d1 = 
 1 
 I I ~
⇒ d1 = 11.09012 + 12 = 11.13509

Assim:

1 11.0901 0.9960 
d1 =   = 
11.13509  1   0.0898 
que sugere a seguinte mudança de variáveis:
z1 = 0.9960x1 + 0.0898x2 – 1.1756
que é a verdadeira variável aleatória do problema.
A segunda direção de variação pode ser obtida como,

100 9   a  a  100a + 9b = 0.18847 a


 9 1 b  = 0.18847 b  ⇒ ⇒
     9a + b = 0.18847b

a = – 0.09017b
Para obter o vetor unitário:

 −0.09017 
d2 =  I d 2 I = ~0.09017 + 1 = 1.00406
2 2
 ⇒
 1 
Assim:

1 − 0.09017  − 0.0898
d2 =  =  0.9960 
1.00406  1   
que sugere que a seguinte variável se mantém essencialmente
constante e igual a zero:
z2 = – 0.0898x1 + 0.9960x2 – 1.9022 = 0
Portanto:
x2 = 0.09016x1 + 1.9098 = 0

O Problema Amostral: Inferências e Comparações 195


PERTENCE AO N O DE O I

3.6. Conclusões
Foi mostrado nesse capítulo que, em geral, os parâmetros que caracteri-
zam as curvas de distribuição de probabilidades em problemas estocás-
ticos (em particular a média e a variância) não podem ser jamais obtidos
por métodos empíricos. Nesses casos, é preciso definir procedimentos
consistentes de inferência, a partir de dados amostrados empiricamen-
te. Contudo, as grandezas amostradas constituem também variáveis
aleatórias, sujeitas a flutuações e incertezas. É necessário, portanto,
descrever como essas grandezas flutuam e definir a forma das respectivas
distribuições de probabilidade.
No caso particular de medidas sujeitas a flutuações normais, mos-
trou-se que a média amostral flutua de acordo com a distribuição t de
Student, que pode ser utilizada para fins de determinação dos intervalos
de confiança dos valores amostrados e para comparações entre valores
amostrados em diferentes conjuntos de dados. De forma similar, mos-
trou-se que a variância amostral flutua de acordo com a distribuição χ ,
2

que também pode ser utilizada para fins de determinação dos intervalos
de confiança dos valores amostrados e para comparações entre valores
amostrados em diferentes conjuntos de dados. Contudo, comparações de
variâncias obtidas em diferentes conjuntos de dados podem ser feitas de
forma mais eficiente com o auxílio da distribuição F de Fisher.
Finalmente, foi mostrado que a geometria natural das regiões de
confiança em problemas multidimensionais, descritos adequadamente
pela distribuição Normal, é a geometria das formas elípticas. Nesse caso,
os valores característicos e vetores característicos que caracterizam a
matriz de covariâncias do problema representam respectivamente os
conteúdos de incertezas e as direções características de flutuações do
problema analisado.

3.7. Leitura Adicional


Como já discutido no final dos Capítulos 1 e 2, a literatura dedicada à
apresentação e discussão do problema amostral é imensa. Não cabe aqui,
portanto, uma revisão extensa dessa área. O leitor interessado encontrará
centenas de livros que abordam esses assuntos em qualquer biblioteca
dedicada à Matemática e à Engenharia.
Conforme apresentado anteriormente, um texto clássico relacionado
ao uso e aplicação dos conceitos discutidos no Capítulo 3 em problemas
de Engenharia é apresentado em:
 Process Analysis by Statistical Methods, D.M. Himmelblau, John Wiley
& Sons, Nova York, 1970.

196 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Um outro texto clássico sobre análise e comparação de dados expe-


rimentais é apresentado por:
 Statistics for Experimenters. An Introduction to Design, Data Analysis,
and Model Building, G.E.P. Box, W.G. Hunter e J.S. Hunter, John Wiley
& Sons, Nova York, 1978.

Uma discussão mais formal sobre as propriedades matemáticas as-


sociadas ao problema de inferência estatística e aos testes de hipóteses
é apresentada em:
 Probability and Statistical Inference. Volume 1: Probability, J.G. Kalbfleis-
ch, Springer-Verlag, Nova York, 1985.
 Probability and Statistical Inference. Volume 2: Statistical Inference, J.G.
Kalbfleisch, Springer-Verlag, Nova York, 1985.
 Probability and Statistics. Theory and Applications., G. Blom, Springer-
Verlag, Nova York, 1989.

Textos básicos sobre a álgebra de matrizes e formas quadráticas, em


especial sobre o cálculo de valores e vetores característicos, podem ser
encontrados em
 Matrix Computations, G.H. Golub e C.F. van Loan, The John Hopkins
University Press, Baltimore, 1996.
 Linear Algebra and Its Applications, G. Strang, Harcourt Brace Jovano-
vich College Publishers, Orlando, 1988.
 Advanced Engineering Mathematics, C.R. Wylie e L.C. Barrett, McGraw-
Hill, Nova York, 1985.

3.8. Exercícios Sugeridos


1. Suponha que você está insatisfeito com a reprodutibilidade de uma
certa técnica experimental e não pode comprar um novo equipa-
mento e nem pode melhorar a técnica disponível. O que você pode
fazer para melhorar a precisão das análises efetuadas? Será que você
pode obter uma precisão arbitrariamente pequena para uma técnica
experimental? Justifique.

2. Suponha que a análise de dados históricos disponíveis no laboratório


indiquem que a variância de uma certa medida experimental é igual
a σ2 = 1. Como você poderia propor um sistema de amostragem que
reduzisse em 10 vezes a variância das medidas? Justifique.

O Problema Amostral: Inferências e Comparações 197


PERTENCE AO N O DE O I

3. Quatro turmas de operadores trabalham numa empresa química. O


desempenho das quatro turmas deve ser avaliado. Você é o engenheiro
recomendado para isso. Para tanto, você deve analisar os dados de
conversão do reator químico onde se processa a reação. Os dados
disponíveis são os seguintes:

Turma 1 Turma 2 Turma 3 Turma 4


1 0.892 0.850 0.775 0.915
2 0.910 0.875 0.872 0.921
3 0.880 0.880 0.650 0.917
4 0.900 0.842 0.881 0.911
5 0.920 0.900 0.910 0.907
6 0.905 0.910 0.720 0.899
7 0.860 0.891 0.851 0.912
8 0.920 0.905 0.820 0.910
9 0.904 0.870 0.730 0.907
10 0.930 0.865 0.780 0.913
11 0.921 0.880 0.792 0.905
12 0.872 0.891 0.751 0.898
13 0.897 0.832 0.891 0.902
14 0.880 0.886 0.950 0.911
15 0.911 0.872 0.971 0.907
16 0.908 0.907 0.918 0.906
17 0.915 0.652 0.863 0.913
18 0.882 0.871 0.721 0.908
19 0.920 0.915 0.753 0.906
20 0.900 0.870 0.828 0.909
a) Calcule as médias e variâncias amostrais para cada conjunto de
dados;
b) Calcule os intervalos de confiança da média e da variância para cada
conjunto de dados. Explicite as hipóteses usadas;
c) Aplique os testes cabíveis e verifique se as turmas são ou não equi-
valentes;
d) Verifique se os dados de cada grupo podem estar correlacionados aos
dados dos demais;
e) Construa um gráfico na seguinte forma:

198 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Limite Superior de 98% de Confian~a



1--..L.- - - - =•- - - - - '"-----MCdia
• • • •
Limite Inferior de 98% de Confian~a

Para cada turma, verifique se há outliers; ou seja, pontos fora da


região de confiança. Podem ser observadas tendências de aumento ou
decréscimo de conversão?
f) Você mandaria alguma turma para treinamento?

4. Seja o conjunto de dados relativos à variável xi retirados do compu-


tador com a rotina RANDOM:

00 10 20 30 40
1 0.1025 0.2217 0.3737 0.8341 0.0910
2 0.1147 0.3344 0.4521 0.4298 0.9511
3 0.9508 0.1351 0.5811 0.6315 0.1223
4 0.7212 0.6227 0.9123 0.4726 0.8711
5 0.4393 0.5111 0.7314 0.6215 0.5661
6 0.6161 0.7502 0.3122 0.5871 0.6161
7 0.0012 0.8192 0.4659 0.2012 0.9813
8 0.1200 0.9095 0.2197 0.3191 0.6715
9 0.8837 0.0195 0.7382 0.4615 0.2328
10 0.4141 0.5823 0.1180 0.9867 0.9142
a) Calcule média e variância para a lista de medidas disponíveis.
b) Faça zi = xi e yi = xi+1. Calcule o coeficiente de correlação entre z e
y. Você consegue observar alguma tendência?
c) Divida os dados em 10 classes, de forma que
Classe1 = 0 ≤ xi ≤ 0 .10 , ...,
Classe10 = 0 . 9 ≤ xi ≤ 1.00
Monte o histograma de freqüência das classes.
d) A distribuição obtida é supostamente uniforme. Os dados confirmam
isso? Admitindo-se que

O Problema Amostral: Inferências e Comparações 199


PERTENCE AO N O DE O I

 0, x < 0

℘(x ) =  1, 0 ≤ x ≤ 1
0, x > 1

calcule a média e a variância esperadas.
e) As médias e variâncias obtidas podem ser consideradas equivalentes
às teóricas? Quais os limites de confiança dos dados obtidos?

5. Suponha que um problema estocástico envolve duas variáveis sujei-


tas a flutuações normais. Suponha ainda que o vetor de médias e a
respectiva matriz de covariâncias são dados por:

x   1 0.9 
x =  1 , , VX =  
 x2  0.9 1 
a) Calcule a forma da região de confiança – faça c = 1 na Equação
(3.48);
b) Calcule as direções principais e interprete os resultados;
c) Como você descreveria a região de confiança, com um nível de con-
fiança correspondente a c = 1, onde você espera encontrar valores
de x1 e x2?

x1min ≤ x1 ≤ x1max
x2min ≤ x2 ≤ x2max
6. Três valores medidos estão disponíveis: 1.0, 1.5 e 8.0.
a) Caracterize estatisticamente os dados;
b) Suponha que o experimentador desconfia do último valor medido.
Que conselho você daria ao experimentador?
c) Admita que um quarto valor é obtido e é igual a 1.3. A sua opinião muda?
E se o quarto valor obtido for igual a 5.0? E se for igual a 9.1?

200 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Estimação

4 de Parâmetros

Antes de começarmos a discutir o problema e o procedimento de es-


timação de parâmetros, é conveniente retornar à Seção 1.1 e à Figura
1.1, para relembrar o processo clássico de construção do conhecimento
científico. As observações experimentais, quando inseridas no contexto
científico, têm como objetivo fundamental permitir que se compreen-
dam os vínculos que existem (e se de fato existem) entre as diversas
variáveis que compõem um problema. O puro exercício de observação
e armazenamento de dados experimentais não constitui um processo
científico. Para que o processo científico se ponha em marcha, é necessário
estabelecer relações, propor explicações, construir e testar teorias. Como
já discutido na Seção 1.1, é muito comum ainda hoje ouvir discussões
sobre a natureza do trabalho científico, classificando os pesquisadores
ora como experimentalistas, ora como teóricos. Essa discussão é vazia
e fútil! Não aceite ser classificado dessa forma! Todo bom pesquisador
exercita o lado experimental (que fornece a matéria-prima básica para
interpretação da realidade e validação de teorias e modelos) e o lado te-
órico (que permite estabelecer as relações entre as diversas variáveis do
problema, tornando assim possível a compreensão dos eventos passados
e a previsão dos eventos futuros). É óbvio que certas pessoas têm mais
afinidade com o computador que com a chave de fendas, e vice-versa. É
por isso que o trabalho conjunto e em equipe é tão importante para o
bom desenvolvimento da pesquisa científica!
Nesse contexto, as técnicas de estimação de parâmetros constituem
as ferramentas básicas para estabelecimento e interpretação dos víncu-
los existentes entre as diversas variáveis de um problema. Como será

Análise de Dados Experimentais - Volume I 201


PERTENCE AO N O DE O I

discutido nos capítulos seguintes, os procedimentos de estimação de


parâmetros são as ferramentas que tornam possível a interpretação
qualitativa e quantitativa dos dados experimentais, como também a
discriminação das variáveis relevantes de um problema, a construção
de modelos preditivos, a simulação e projeto de processos etc. Dessa
forma, os procedimentos de estimação de parâmetros constituem a
ponte que conecta as observações experimentais à interpretação teórica
e quantitativa do problema. Será surpreendente para muitos descobrir
ao longo dos próximos capítulos que toda a atividade experimental
científica desemboca em procedimentos de estimação de parâmetros,
mesmo quando essa atividade não está sendo aparentemente realizada.
Mais surpreendentemente ainda será descobrir que toda metodologia de
planejamento experimental encontra-se intimamente ligada aos proce-
dimentos de estimação de parâmetros. Afinal, é para isso mesmo que os
experimentos são feitos! Por isso, preste muita atenção nas discussões
que se seguem!

4.1. Modelos, Modelagem e Simulação


Mas, afinal, o que é um modelo? Podemos definir um modelo como uma
estrutura que tenta descrever de forma aproximada a realidade, baseado
em um conjunto de observações experimentais. Um modelo é, portanto,
uma estrutura que estabelece vínculo entre variáveis distintas e permite
explicar os eventos passados e prever de alguma forma o comportamento
do sistema em condições experimentais ainda não realizadas. Se, dadas
certas condições experimentais, um observador é capaz de fazer algum
tipo de previsão sobre o resultado futuro a ser ainda observado, então o
observador dispõe de um modelo.
Como já discutido na Seção 1.1, é importante lembrar que o modelo
não deve ser jamais confundido com a realidade. O modelo é apenas uma
tentativa de explicar a realidade, baseado nas observações disponíveis
e em um conjunto de hipóteses admitidas pelo pesquisador. Nenhum
modelo é capaz de descrever a realidade completamente porque todo
dado experimental é corrompido por erros de medida e porque nem todas
as variáveis podem ser controladas e/ou medidas precisamente durante
os testes experimentais, como já discutido nos capítulos anteriores. Por
isso, o bom pesquisador não tem apego a qualquer modelo e está pronto
a modificá-lo sempre que uma nova observação experimental confiável
(ou seja, que pode ser reproduzida, respeitados os limites impostos pela
incerteza experimental) não pode ser explicada pela estrutura original.
Darwin e Einstein são considerados gênios da humanidade exatamente
porque tiveram a coragem de reinterpretar a realidade sugerida por

202 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

um novo conjunto de dados experimentais. O modelo evolucionário e


da relatividade ainda são considerados bons modelos porque as novas
observações experimentais puderam ser previstas e explicadas de forma
adequada com essas estruturas teóricas. Mas quem sabe o que nos reserva
o futuro? É claro que não é fácil propor mudanças em um modelo muito
testado e amplamente aceito pela comunidade científica. Por isso, há de
se ter cuidado com a interpretação dos dados experimentais. Mas há
também de se ter a coragem de propor novas interpretações da realidade.
Não pode haver oportunidade maior para um pesquisador que um dado
experimental que não pode ser explicado pelo modelo!
O modelo pode ser apresentado de várias formas, a depender dos
propósitos do pesquisador, das limitações das observações experimentais
e da complexidade do fenômeno investigado. Algumas dessas formas
são apresentadas a seguir.

4.1.1. O Modelo Matemático


O modelo matemático é aquele que propõe que as relações entre as diver-
sas variáveis de um problema podem ser descritas de forma matemática
precisa. Por exemplo:
y = 5x + 4 z 2 + 1
d2y 1 dy y (0 ) = 0
dy
2
+ = Da y 2 , ,
=0
dx Pe dx dx x=L

No primeiro caso, a relação é explícita: dados os valores das variáveis


x e z, é possível calcular diretamente o valor da variável y. No segundo
caso, a relação é implícita: dados os valores de Pe, Da, L e um certo valor
de x, é necessário primeiramente resolver a equação para achar o valor
de y. (Muitas vezes, a resolução do modelo só pode ser feita com o auxílio
de métodos numéricos sofisticados.) De qualquer forma, em ambos os
casos as relações matemáticas são bem estabelecidas.
A grande vantagem dos modelos matemáticos é que eles podem ser
usados para fazer previsões quantitativas sobre o comportamento futuro
do sistema estudado. Modelos matemáticos são, portanto, ferramentas
fundamentais das ciências exatas, já que são eles que permitem o projeto
de novos processos e equipamentos.

Exemplo 4.1 – Suponha que um vaso de reação tenha que ser


projetado para conduzir a reação
A 
K
→B

Estimação de Parâmetros 203


PERTENCE AO N O DE O I

onde K é a constante de velocidade da reação. Suponha que o


reagente A é fornecido em concentração conhecida CA0 por uma
empresa já estabelecida no mercado e será transformado no pro-
duto B dentro do vaso de volume desconhecido V. O tempo total da
batelada é tB, sendo que é necessário, além de promover a reação,
também descarregar, limpar e carregar o vaso entre bateladas
sucessivas. Esses tempos são representados respectivamente por
tR, tD, tL e tC. Assim, para fazer o projeto da unidade, é necessário
descrever primeiramente o lucro da empreitada. A função lucro
L pode ser escrita como
L(V, tR) = NBV (CA0 – CAf (tR)) $B – NBVCA0$A –
– NB (VCAf (tR))m $O – Vn $I
onde NB é o número total de bateladas realizadas ao longo da vida
útil do equipamento ∆t, dado por

∆t
NB =
(tR + tD + tL + tC )
e $B, $A, $O e $I são respectivamente os preços de mercado para
o produto, o reagente, a operação (que aumenta com o teor de
reagente no final da batelada, por causa da necessária purifica-
ção do produto) e o investimento (que aumenta com o aumento
das dimensões do equipamento). CAf (tR) é o teor residual de A no
produto final.
O primeiro termo da equação do lucro representa os ganhos
obtidos com a venda do produto B; o segundo termo, os custos
devidos à compra do reagente A; o terceiro, os custos operacio-
nais do processo; e o quarto, os custos do investimento. Quanto
maior o tempo de reação, menor o teor residual final de A, maior
a quantidade de produto B e menores os custos operacionais. No
entanto, quanto maior tR, menor o número de bateladas produ-
zidas ao longo da vida útil do equipamento (admite-se que tD, tL
e tC são constantes). Quanto maior o volume V do reator, maiores
são as quantidades produzidas do produto B, mas também maio-
res são os custos operacionais e de investimento. Por isso, deve
haver um ponto ótimo, ou de máximo lucro. O projeto consiste
em achar esse ponto de máximo lucro.
O ponto de máximo pode ser encontrado fazendo-se

204 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

∂L
= f1 (V , t R ) = 0
∂V
N B (C A0 − C Af (t R ))$ B − N B C A0 $ A − (VC Af (t R )) $O − nV n −1 $ I = 0
mN B m

e
∂L
= f 2 (V , t R ) = 0
∂t R
∂N B V (C − C (t ))$ − V C $ − (V C (t ))m $  −
∂t R  A0 Af R B A0 A Af R O

∂C Af m NB
(V C Af (t R )) $O = 0
m
−NB V $B −
∂t R C Af (t R )

Repare que as duas equações acima dependem de duas variáveis


(V e tR) e, portanto, podem ser resolvidas usando-se a técnica
matemática adequada para resolução de equações algébricas,
como a técnica de Newton-Raphson. Contudo, é preciso nesse
caso definir quem é a função CAf (tR); ou em outras palavras, como
a concentração de A no reator depende to tempo de reação. Ou
ainda, é necessário definir o modelo matemático que descreve de
forma apropriada a evolução da reação no tempo. Admitindo-se
que a reação é de primeira ordem, então:

dC A
= − K C A , C A (0 ) = C A0
dt
de forma que

Como saber se a reação é de primeira ordem ou que a relação


acima é válida? A resposta correta é: fazendo experimentos e cons-
truindo o modelo. Como saber o valor de K? A resposta correta é:
estimando parâmetros. O engenheiro que usa a informação acima
para fazer o projeto do reator nem sempre percebe que é usuário
dos procedimentos de modelagem e estimação de parâmetros
já executados por um outro observador. Sem o modelo e sem o
parâmetro, o projeto bem embasado é impossível.

Estimação de Parâmetros 205


PERTENCE AO N O DE O I

4.1.2. O Modelo Conceitual


O modelo conceitual é aquele que estabelece vínculos qualitativos entre
as várias variáveis de um problema, sem que se estabeleçam necessaria-
mente vínculos matemáticos quantitativos precisos. Esses modelos são
muito utilizados em campos da ciência onde a mensuração das variáveis
é complexa ou impossível, como na área de Ciências Humanas, e como
protótipo de modelos matemáticos precisos, a serem desenvolvidos a
posteriori.
Um exemplo clássico de modelo conceitual é o bem conhecido “Com-
plexo de Édipo”, usado para explicar as relações que se estabelecem entre
pais e filhos na Psicologia. Admite-se que os filhos homens disputam a
atenção da mãe com o pai e que a maneira com que se desenrola essa
disputa pode resultar na formação de pessoas adultas saudáveis ou no
desenvolvimento de sérios desvios de comportamento. Repare que a
mensuração das grandezas envolvidas é virtualmente impossível nesse
caso, impedindo a construção de um modelo matemático preciso do
fenômeno. Isso não diminui, no entanto, a importância do modelo nem
impede o seu uso para a solução de problemas reais da Psicologia.
Um modelo conceitual extremamente importante na Engenharia é a
idéia de que a massa, a energia e a quantidade de movimento do universo
se conservam. (O primeiro modelo é chamado de Princípio de Lavoisier; o
segundo modelo é chamado de Primeira Lei da Termodinâmica; o terceiro
modelo é constituído pelas Leis Fundamentais de Newton para o Movi-
mento.) Esse é o ponto de partida para a quase totalidade dos modelos
matemáticos fenomenológicos que se estabelecem nos vários ramos da
Engenharia. Assim, partindo-se do pressuposto de que massa, energia e
quantidade de movimento se conservam, é possível estabelecer vínculos
matemáticos quantitativos precisos entre várias variáveis envolvidas em
um fenômeno físico particular.

Exemplo 4.2 – Suponha que uma massa M0 de água é colocada


em uma caixa d’água, com comprimento L, altura H e largura W.
Suponha que um medidor de nível (bóia) fornece a altura h de
água no interior da caixa d’água em qualquer instante de tempo.
É possível, com essas informações, acompanhar a quantidade de
água consumida?
Sabendo-se que a densidade da água é ρ = 1000 kg/m3, a massa
de água contida no interior da caixa d’água pode ser obtida em
qualquer instante de tempo como
M=ρLWh

206 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Admitindo-se que a massa total do universo (nesse caso, a caixa


d’água) permanece constante, é possível escrever
M0 = M + M C
onde MC é a massa total de água consumida, já que a água não
poderia desaparecer como num golpe de mágica. Portanto
MC = M 0 – ρ L W h
Repare que a equação acima só pode ser escrita depois de se
admitir que a massa total do universo tem que permanecer
constante. O modelo conceitual precede, portanto, o modelo
matemático preciso.

Observe que já se sabe há muitos anos que o Princípio de Lavoisier


não é válido quando os objetos se movem com grande conteúdo de
energia. Nesse caso, é necessário utilizar a Teoria da Relatividade para
acompanhar com maior precisão as variações de massa do universo. A
Teoria da Relatividade admite, entre outras coisas, que existe uma relação
direta entre massa e energia, que assim seriam manifestações distintas
de uma mesma grandeza mais fundamental. O Princípio de Lavoisier, no
entanto, descreve bem o comportamento de sistemas de baixa energia,
constituindo por isso a base de toda a Engenharia Química. Isso mostra
que um modelo não precisa ser completo nem descrever todos os detalhes
da realidade para que seja útil e possa ser usado na prática. Na realidade,
um modelo é útil quando fornece as respostas desejadas, com precisão
compatível com a precisão experimental, com o maior grau de simplici-
dade possível. Utilidade e complexidade não são sinônimos!

4.1.3. O Modelo Físico - A Planta Piloto


Em muitos problemas é inconveniente ou impossível realizar experi-
mentos diretamente no sistema estudado. Por exemplo, em uma fábrica
não há muito espaço para experimentação, uma vez que experimentos
mal-sucedidos podem resultar em acidentes ou em desvios das metas
de produção. Em ambientes naturais, experimentos mal-sucedidos
podem comprometer a saúde do ecossistema e resultar em catástrofes
ambientais. Nesses casos, é comum construir modelos físicos reais do
sistema estudado, as chamadas plantas pilotos. As plantas pilotos são
modelos físicos reais, quase sempre de escala muito inferior à escala dos
sistemas realmente estudados, utilizados para fazer experimentações
e estudos que podem ser vinculados ao comportamento dos sistemas
reais de interesse. Por exemplo, uma planta piloto que produz 10 kg

Estimação de Parâmetros 207


PERTENCE AO N O DE O I

de plástico por hora pode ser usada como modelo de uma fábrica que
produz 30 toneladas de plástico por hora. Assim, testes de produção
só são efetuados na planta industrial depois de terem sido aprovados
na planta piloto, onde os custos e riscos são muito menores. Também
nesse caso o modelo não deve ser confundido com a realidade, já que
a planta industrial é provavelmente muito mais complexa que a planta
piloto usada para representá-la, em função do maior volume de peças
e equipamentos.
Pode-se de certa forma dizer que um modelo resulta sempre de um
trabalho de investigação em qualquer área do conhecimento, já que o
objetivo central da ciência é correlacionar dados e fatos. Para o enge-
nheiro, pela própria natureza prática e exata da Engenharia, a tarefa de
construir modelos para um sistema atinge o seu clímax quando resulta
num conjunto consistente de relações matemáticas que permita a descri-
ção quantitativa do sistema. Essa atividade é designada genericamente
de modelagem. Para os fins desse livro, define-se especificamente como
modelagem àquelas atividades relacionadas ao desenvolvimento de rela-
ções matemáticas precisas entre as várias variáveis de um problema.

FatO;J
lliilO•tsts s§o Modclo ~ c;:nado
(cilt~S

ratos .sio
.l'\0'' 05 0 modelo gcn
gcrados noYas qucstOcs

HipOtcscs sio 0 modclo C


~\' i S I3S apctr;::i~o*do

Figura 4.1 - O Conceito de Modelagem.

O conceito de modelagem pode ser representado como na Figura 4.1.


Portanto, a representação é similar à utilizada para representar o ciclo
clássico do método científico na Figura 1.1, pois o modelo resulta natural-
mente da compreensão do problema analisado. É importante observar na
Figura 4.1 que o modelo está necessariamente vinculado ao conjunto de
hipóteses efetuadas pelo observador e aos dados experimentais obtidos.
Logo, para que descreva adequadamente dados reais, a modelagem não
dispensa os dados experimentais. MUITO PELO CONTRÁRIO! Apenas os
dados experimentais podem permitir a validação e/ou negação do modelo
criado. Não é possível, portanto, fazer modelagem sem experimentação.
Modelagem sem experimentação é especulação!
As atividades de modelagem são muito importantes nas diversas áreas
da ciência porque são muitas as utilidades de um bom modelo matemático.
Primeiramente, o modelo matemático permite armazenar uma quantidade

208 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

enorme de informação experimental. Por exemplo, a Teoria Clássica da


Gravitação diz que a força de atração exercida mutuamente por dois corpos
de massas M1 e M2, separados por uma distância r é igual a
M1 M 2
F =G
r2
Repare que a equação acima substitui os infinitos registros expe-
rimentais possíveis para as forças de atração entre corpos de massas
distintas, separados por distâncias distintas. São 10 símbolos (contando
os sinais e índices) substituindo infinitos registros experimentais. Que
bela concisão! Somemos a essa equação a Segunda Lei de Newton
dv
M =F
dt
e já somos capazes de descrever o comportamento de uma infinidade de sis-
temas físicos reais e de interesse tecnológico. Que enxuto! Que beleza!
Em segundo lugar, como já discutido, os modelos podem ser usados
para prever o comportamento de sistemas de interesse. É a atividade
usualmente denominada de simulação. Modelos são utilizados para
simular o comportamento de sistemas físicos reais. Pode-se definir como
simulação ao uso do modelo que representa o sistema real para estudar o
comportamento do sistema físico real. Podem ser consideradas atividades
de simulação as atividades de projeto, de otimização, de análise de estraté-
gias, de treinamento etc., sempre que o modelo for usado como represen-
tação adequada do sistema real. A atividade de simulação é extremamente
importante do ponto de vista prático, já que resolver equações é em geral
mais barato e mais rápido (além de muito mais seguro) que promover
testes experimentais no sistema físico real. Assim, um teste experimental
o qual a simulação indique que resultará em resposta inadequada não
deve ser realizado. Por outro lado, a realização de um experimento que
a simulação indique que resultará em uma resposta mais adequada do
processo deve ser incentivada. Se a melhoria não for de fato obtida, não se
deve desprezar o modelo ou renegar a atividade de modelagem. Ao invés
disso, deve-se modificar e aperfeiçoar o modelo. Se a resposta obtida for
satisfatória, o modelo é validado e a confiança no modelo e na qualidade
da interpretação do fenômeno físico aumenta.

4.2. Classificação de Modelos


Muitas vezes é conveniente classificar os modelos em grupos distintos,
em função dos diferentes conjuntos de ferramentas e técnicas matemá-
ticas disponíveis para análise.

Estimação de Parâmetros 209


PERTENCE AO N O DE O I

4.2.1. Modelos Teóricos e Empíricos


Diz-se que um modelo é teórico quando as equações que relacionam as
diversas variáveis do problema são derivadas a partir de pressupostos
teóricos fundamentais, como as leis de conservação de massa, energia e
quantidade de movimento. Pode-se dizer que os modelos teóricos derivam
de modelos conceituais que procuram interpretar o fenômeno físico estu-
dado. Diz-se que o modelo é empírico quando as equações utilizadas para
descrever as relações observadas entre as diversas variáveis do problema
são postuladas, não havendo qualquer pressuposto teórico que justifique
a princípio a relação utilizada. Muito freqüentemente, os modelos teóricos
podem ser propostos a priori, antes mesmo da observação experimental
(o que não significa que modelos teóricos prescindam das observações
experimentais, uma vez que alguns pressupostos teóricos podem não ser
verdadeiros para o problema particular analisado). Por sua vez, o desen-
volvimento de modelos empíricos depende completamente da obtenção
de dados experimentais confiáveis e da criatividade do analista.

Exemplo 4.3 – Considere o problema de mistura num vaso de


processo, como apresentado abaixo:

1111 ~
/
m2

.
fll)
c.........: ..) ~·

Figura 4.2 - Mistura contínua em um vaso de processo.

Admitindo-se que a massa se conserva, é possível escrever a


seguinte relação matemática
m 3 = m 1 + m 2
que é um modelo teórico simples, que relaciona as variáveis do
problema.
Admita que um conjunto de medidas experimentais é obtido em
campo, na forma

210 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

m 1 (kg/h) 1.0 2.0 2.0

m 2 (kg/h) 2.0 2.0 1.0


m 3 (kg/h) 3.1 3.9 2.9

Observe que a relação teórica não é obedecida exatamente. No


primeiro caso parece sair mais massa do que entra, enquanto
no segundo e terceiro casos parece acontecer o contrário. Isso
significa que o modelo teórico está errado? Não necessariamente.
Lembre que os instrumentos estão sujeitos a pequenos erros de
medida e que não há precisão absoluta em nenhum processo de
medição. Há que se avaliar de forma mais precisa como os desvios
observados se comparam aos erros de predição. Além disto, quem
garante que não pode haver um pequeno vazamento nas linhas?
Nesse caso, o problema não seria do pressuposto teórico, mas do
inadequado controle experimental. (Aliás, alguém saberia dizer
por que a massa se conserva obrigatoriamente?)
Suponha agora que um modelo empírico será construído a partir
dos dados disponíveis. Nesse caso, propõe-se a priori que
m 3 = α m 1 + β m 2
onde α e β são constantes a serem determinadas a partir das me-
didas experimentais. Para isso, utiliza-se aqui um procedimento
chamado de mínimos quadrados, que consiste em reduzir ao
mínimo as diferenças do quadrado dos desvios observados entre
as medidas experimentais e calculadas. Nesse caso,

3 ~ 3 2
F =""
L (1113J.
·• - 1nJ,
. .. ) =L"" (·n13•, - a . 11,
111 - n "·'ll• )
JJ
i =l l=l

deve ser mínimo. O superescrito e indica o dado experimental,


enquanto o superescrito m designa o dado obtido a partir do
modelo. Para obter o valor mínimo,

∂F 3
(
= ∑ 2 m 3ei − α m 1ei − β m 2ei m 1ei = 0
∂α i =1
)( )
∂F 3
(
= ∑ 2 m 3ei − α m 1ei − β m 2ei m 2ei = 0
∂β i =1
)( )
resultando em

Estimação de Parâmetros 211


PERTENCE AO N O DE O I

16.7 = 9α + 8β ⇒
α = 0.8882
 
16.9 = 8α + 9 β  β = 1.0882

e no modelo empírico
m 3 = 0.8882m 1 + 1.0882m 2
Repare que nenhum argumento teórico sustenta a relação apresen-
tada acima, mas somente o fato de descrever de forma adequada
os dados experimentais obtidos. Abaixo são mostrados os resulta-
dos experimentais e as previsões obtidas com os modelos teórico
e empírico. Entre parênteses são mostrados os desvios observados
entre a previsão do modelo e o dado experimental.
dado
m 3 (kg/h) 3.1 3.9 2.9 experimental
modelo
m 3 (kg/h) 3.0 (–0.1) 4.0 (+0.1) 3.0 (+0.1) teórico
modelo
m 3 (kg/h) 3.06 (–0.04) 3.95 (+0.05) 2.86 (–0.04) empírico

É importante enfatizar que nesse texto não se faz qualquer diferen-


ciação ou discriminação dos modelos somente pela forma com que foram
gerados. Em outras palavras, não se considera aqui que modelos teóricos
são necessariamente melhores que os modelos empíricos somente porque
estão baseados em pressupostos teóricos. Deixa-se essa questão para o
analista e seu problema particular. De qualquer forma, é importante dizer
que modelos teóricos usualmente permitem extrapolações muito mais
confiáveis que aquelas obtidas com modelos empíricos. Isso ocorre porque
em geral é muito mais razoável admitir que os pressupostos teóricos se
mantenham válidos em ampla faixa de experimentação (Figura 4.3) do que
admitir que a estrutura matemática proposta se mantenha constante ao
longo de todas as possíveis condições experimentais (Figura 4.4). Por isso,
pode-se dizer sem muito rigor que modelos empíricos revelam a estrutura
local das relações existentes entre as diversas variáveis, enquanto modelos
teóricos permitem desvendar uma estrutura muito mais geral a partir de
umas poucas observações experimentais. Por outro lado, modelos empíri-
cos são em geral mais simples e fáceis de derivar, permitindo construção
mais rápida e barata, quando comparada à construção de modelos teóri-
cos mais detalhados do processo. Portanto, não parece surpreendente o
fato de modelos empíricos serem preferidos para realizar interpolações
e desenvolver aplicações em linha, como em algoritmos de controle de
processos. Por essa razão, esse texto dá igual importância aos modelos

212 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

teóricos e empíricos, entendendo que cada grupo particular de modelos


encontra também seu nicho particular de aplicações.

_ _ ..,) Oados

==>•hp(>tCSCS
_ _ _ ) Prindpios Modelo Tei>ri<:o

_ _ ..,) Postulndos

Figura 4.3 - O Desenvolvimento de um Modelo Teórico.

___ ) Dados
Modclo Empirico
_ _ _) Estruturas

Figura 4.4 - O Desenvolvimento de um Modelo Empírico.

4.2.2. Modelos Lineares e Não-Lineares


Diz-se que o modelo é linear quando ele satisfaz uma das seguintes
propriedades:

 Propriedade 4.1 – Sejam yT = [y1 y2 ... yNY] um conjunto de variá-


veis, chamadas de variáveis de saída ou de variáveis dependentes,
e xT = [x1 x2 ... xNY] um segundo conjunto de variáveis, chamadas
de variáveis de entrada ou de variáveis independentes. Seja ainda
um modelo matemático explícito na forma

 y1   f1 (x1 x2 ... xNX ) 


 y   f x x ... x 
( )
y= 2 = 2 1 2 NX  = f (x ) (4.1)
 ...   ... 
   
y  f (
 NY   NY 1 2x x ... x )
NX 
O modelo matemático explícito da Equação (4.1) é linear se
y = f (α x + β w) = α f (x) + β f (w) (4.2)
onde α e β são escalares quaisquer.

Estimação de Parâmetros 213


PERTENCE AO N O DE O I

O modelo descrito pela Equação (4.1) é dito explícito porque permite


a obtenção direta dos valores das variáveis dependentes a partir dos
valores das variáveis independentes. A definição de modelo linear é
extremamente importante porque os modelos lineares geralmente per-
mitem a obtenção de soluções analíticas para os problemas de simulação,
otimização e estimação de parâmetros, como será visto adiante.

 Propriedade 4.2 – Sejam yT = [y1 y2 ... yNY] um conjunto de variá-


veis, chamadas de variáveis de saída ou de variáveis dependentes,
e xT = [x1 x2 ... xNY] um segundo conjunto de variáveis, chamadas
de variáveis de entrada ou de variáveis independentes. Seja ainda
um modelo matemático implícito na forma

 g1 (x1 x2 ... xNX ; y1 y2 ... y NY ) 


 
 g 2 ( x1 x2 ... x NX ; y1 y 2 ... y NY )  = g (z ) (4.3)
 ... 
 
 NY 1 2
g ( x x ... x NX ; y1 y 2 ... y )
NY 
onde zT = [x1 x2 ... xNY ; y1 y2 ... yNY]. O modelo matemático implícito
da Equação (4.3) é linear se
g (α z + β w) = α g (z) + β g (w) (4.4)
onde α e β são escalares quaisquer.
O modelo descrito pela Equação (4.3) é dito implícito porque não
permite a obtenção direta dos valores das variáveis dependentes a
partir dos valores das variáveis independentes. Nesse caso, diz-se que o
modelo tem que ser resolvido. Uma vez resolvido, a Equação (4.3) ganha
a forma da Equação (4.1). Repare que o significado de resolvido aqui é
muito tênue. Por exemplo, a aplicação de uma técnica numérica permite
resolver o sistema sem que seja necessário encontrar uma solução analí-
tica fechada para o problema. Por isso, na grande maioria das vezes será
admitido neste livro que o modelo matemático tem a forma da Equação
(4.1), mesmo que uma solução analítica fechada não seja disponível para
o problema. Nesse caso, será admitido implicitamente que uma técnica
numérica pode ser usada para resolver o sistema.

Exemplo 4.4 – Seja o modelo matemático implícito a seguir, que


relaciona o conjunto de variáveis dependentes y com o conjunto
de variáveis independentes x

214 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

x
g (z ) = C z = [A B ]  = A x + B y
y 
onde C é uma matriz de dimensão NYx(NX+NY), A é uma matriz
de dimensão NYxNX e B é uma matriz de dimensão NYxNY. Nesse
caso,
g (α w + β u) = C (α w + β u) = α C w + β C u =
= α g (w) + β g (u)
Logo, o modelo matricial proposto é linear. Repare que a equação
implícita

x
g (z ) = C z = [A B ]  = A x + B y = 0
y 
pode ser resolvida como
y = –B–1 A x = f (x)
passando a ter a forma explícita, desde que a matriz B possa ser
invertida. Nesse caso,
f (α w + β u) = – B–1 A (α w + β u) = – α B–1 A w –
– β B–1 A u = α f (w) + β f (u)
confirmando a linearidade.
Modelos lineares matriciais como aqui descritos aparecem natu-
ralmente durante a formulação de balanços de massa, com ou sem
reação. Por exemplo, sejam as seguintes reações químicas:
(1) A + B  C + D (2) A + C  E + F
Então, as seguintes equações de balanço podem ser escritas para
um tanque fechado onde ocorrem as reações:

M A0 − M A − ξ1 − ξ 2 = 0 M B 0 − M B − ξ1 = 0
M C 0 − M C + ξ1 − ξ 2 = 0 M D 0 − M D + ξ1 = 0
M E 0 − M E + ξ2 = 0 M F 0 − M F + ξ2 = 0
onde ξ1 e ξ2 são os graus de avanço das reações 1 e 2 respectiva-
mente. As equações acima podem ser também escritas como:

Estimação de Parâmetros 215


PERTENCE AO N O DE O I

1 0 0 0 0 0   M A0 − M A   −1 −1
0
 1 0 0 0 0   M B 0 − M B   −1 0 
0 0 1 0 0 0   M C 0 − M C   +1 −1  ξ1 
  +  =0
0 0 0 1 0 0   M D 0 − M D   +1 0  ξ 2 
0 0 0 0 1 0  M E 0 − M E   0 +1
    
0 0 0 0 0 1   M F 0 − M F   0 +1

Exemplo 4.5 – Seja o modelo parabólico apresentado a seguir.


y = x2, então
(α w + β z ) = α 2 w2 + 2 α β w z + β 2 z 2 ≠ α w2 + β z 2
2

Logo, o modelo é não-linear.

Exemplo 4.6 – O conceito de linearidade não é absoluto para uma


equação e depende das variáveis consideradas no problema. Por
exemplo, seja o modelo na forma y = α1 x1 + α 2 x2
2 2

O modelo é linear nas variáveis T = [α1 α2] e não-linear nas


variáveis xT = [x1 x2]. Portanto, é necessário definir as variáveis
consideradas para que o conceito de linearidade faça sentido.
Da mesma forma, seja o modelo matemático implícito abaixo,
que relaciona a variável dependente y com a variável indepen-
dente x
dy
g ( y, x ) = + 4 y , y (0 ) = y0
Fazendo-se
dx

 y w   u   α w1 + β u1 
z =   =α w+ β u =α  1+ β  1 =  
 x  w2  u2  α w2 + β u2 
então
dy dw du
y = α w1 + β u1 ⇒ =α 1 + β 1
dx dx dx
d d d d
x = α w2 + β u2 ⇒ =α ⇒ =β
dw2 dx du2 dx
y = α w1 + β u1 ⇒ y0 = α w10 + β u10

216 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Combinando as duas equações anteriores nos termos da equação


original
dy dw du dw du
=α 1 + β 1 = 1 + 1
dx dx dx dw2 du2
4 y = 4 α w1 + 4 β u1 e

 dw1   du 
 + 4 α w1  +  1 + 4 β u1  ≠ α g (w1 , w2 ) + β g (u1 , u2 )
 dw2   du2 
de maneira que o modelo é não-linear. No entanto, admitindo-se
que x não é uma variável relevante do problema e que não pode
ser manipulada, então
dy
g (y ) = + 4 y , y (0 ) = y0
dx
Fazendo-se
dy dw du
y = α w1 + β u1 ⇒ =α 1 + β 1
dx dx dx
que combinada com a equação original
 dw   du 
α  1 + 4 w1  + β  1 + 4u1  = α g (w1 , x ) + β g (u1 , x )
 dx   dx 
resultando em um modelo linear. Portanto, sempre que a hipótese
de linearidade for levantada, é necessário definir o conjunto de
variáveis que estão sendo consideradas no problema.

4.2.3. Modelos Determinísticos e Estocásticos


Como já discutido na Seção 1.3, modelos determinísticos são aqueles que
associam a cada experimento um resultado experimental bem definido,
enquanto modelos estocásticos associam a cada condição experimental um
conjunto de possíveis resultados, cada qual com uma certa probabilidade
de ocorrer. De maneira pragmática, um modelo determinístico associa a
cada pergunta sempre uma mesma resposta, enquanto modelos estocás-
ticos associam a cada pergunta um conjunto de respostas possíveis, com
diferentes probabilidades. Um modelo estocástico admite, portanto, que
um mesmo experimento pode resultar em diferentes respostas, algumas
muito prováveis, enquanto outras pouco prováveis.

Estimação de Parâmetros 217


PERTENCE AO N O DE O I

Exemplo 4.7 – Seja o modelo dado na forma

dy
= − y , y (0 ) = y0 ⇒ y (t ) = y0 e − t
dt
Dada uma certa condição inicial, a trajetória dinâmica obtida é
sempre a mesma. O modelo é, portanto, determinístico.

Exemplo 4.8 – Para simular a difusão do composto A num segundo


composto B, monta-se uma rede (ou grid) e trocam-se as posições
de A com um de seus vizinhos B, de forma aleatória, até que A
atinja o outro lado da rede. O tempo (ou número de iterações)
que A demora para atingir o outro lado da rede caracteriza a
velocidade de difusão de A no meio.
j=S

j=l

Figura 4.5 – Rede para Simulação da Difusão.

A simulação é conduzida com a geração de números pseudo-


aleatórios com a equação abaixo
Xk+1 = 11Xk – Trunc (11Xk)
usando como semente inicial o número X0=0.35312356. O pro-
cesso difusivo é simulado com as seguintes regras:
a) Se 0.00 < Xk+1 < 0.25; ik+1 = ik–1; jk+1 = jk; ou seja, a molécula
anda para trás;
b) Se 0.25 < Xk+1 < 0.50; ik+1 = ik; jk+1 = jk–1; ou seja, a molécula
anda para baixo;
c) Se 0.50 < Xk+1 < 0.75; ik+1 = ik+1; jk+1 = jk; ou seja, a molécula
anda para frente;
d) Se 0.75 < Xk+1 < 1.00; ik+1 = ik; jk+1 = jk+1; ou seja, a molécula
anda para cima.

218 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

A simulação é interrompida quando ik+1 = 7; ou seja, quando a


molécula atinge a outra extremidade da Figura 4.5. A simulação é
realizada 1000 vezes, usando como semente para o algoritmo de
geração de números pseudo-aleatórios o último número gerado na
etapa anterior. A Figura 4.6 mostra o caminho trilhado pela molécula
na rede de difusão durante a primeira simulação. A Figura 4.7 mostra
o número de iterações obtidas ao longo das 1000 simulações e a qua-
lidade do ajuste exponencial. Pode-se dizer que o tempo característico
de difusão segue a distribuição exponencial. (É curioso observar que
os balanços determinísticos resultam na mesma relação exponencial
com o tempo, mostrando que nem sempre é possível distinguir com
exatidão um modelo determinístico de um modelo estocástico.) O
número médio de iterações necessárias para atingir o lado oposto
da rede é igual a 78, com variância igual a 4442.

I !
.5 -~

-
.... J ~-
i
~
~-

-
1

l
J

Figura 4.6 - Caminho difusivo percorrido pela molécula A durante


a primeira simulação.

Figura 4.7 - Distribuição do tempo necessário para percorrer a rede de


difusão e comparação com o ajuste exponencial (℘(i) = Expon(i-6; 59)).

Modelos e simulações deste tipo são usualmente chamados de


Modelos e Simulações de Monte Carlo.

Estimação de Parâmetros 219


PERTENCE AO N O DE O I

4.2.4. Modelos a Parâmetros Concentrados e a Parâmetros


Distribuídos
Na Engenharia é muito adequado também classificar os modelos quanto
à forma com que são descritas as variações espaciais das variáveis de in-
teresse. Diz-se que um modeloa parâmetros concentrados ocorre quando
as variações espaciais são desprezíveis e as propriedades não mudam
com a posição. O exemplo clássico é o modelo do tanque de mistura.
Nesse caso, admitindo-se a validade de hipótese de mistura perfeita, as
propriedades são as mesmas em qualquer ponto do espaço. Por outro
lado, diz-se que um modelo a parâmetros distribuídos ocorre quando
as variações espaciais são importantes e não podem ser desprezadas.
Nesse caso há, portanto, heterogeneidade espacial. O exemplo clássico é
o modelo do reator tubular. Veja a Figura 4.8 apresentada a seguir.

• x. ' (a)

(b)

X! •
--·~t~)-·_·_·____·~·~·~9--.
"
Figura 4.8 - Exemplo de sistemas a parâmetros concentrados (a)
e a parâmetros distribuídos (b).

Essa classificação é útil porque os modelos matemáticos que des-


crevem sistemas a parâmetros distribuídos ganham em geral a forma
de equações diferenciais parciais, cuja resolução requer o uso de pro-
cedimentos numéricos bastante específicos. Os modelos a parâmetros
concentrados, por sua vez, quase sempre são constituídos por equações
algébricas ou equações diferenciais ordinárias de primeira ordem, cuja
solução numérica é muito mais simples.

4.2.5. Modelos Estacionários e Dinâmicos


Finalmente, é bastante útil classificar os modelos quanto à dependência
temporal das propriedades e/ou variáveis que ele descreve. O modelo
é dito dinâmico quando uma ou mais variáveis do modelo mudam no
tempo. Aplicações em controle de processos, por exemplo, requerem
estruturas dinâmicas para análise, uma vez que se procura detectar e
corrigir problemas que possam ocorrer com o processo ao longo do tem-
po. O modelo é chamado de estacionário quando as variáveis não mudam
no tempo. O desenvolvimento de projetos de máquinas e equipamentos
em geral parte do pressuposto do comportamento estacionário, para

220 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

que seja possível determinar as dimensões ótimas do equipamento e a


condição ótima de operação.
Essa classificação é útil porque os modelos matemáticos que des-
crevem sistemas dinâmicos quase sempre requerem a implementação
de rotinas numéricas de integração, como os algoritmos clássicos de
Euler e Runge-Kutta. Os modelos estacionários, por sua vez, quer se-
jam a parâmetros concentrados ou a parâmetros distribuídos (depois
de implementados os procedimentos de discretização), quase sempre
resultam em sistemas de equações algébricas, a serem resolvidos com
técnicas numéricas clássicas, como de Newton-Raphson, desenvolvidas
para resolução de sistemas de equações algébricas.

Exemplo 4.9 – Seja o modelo abaixo


∂C ∂ 2C ∂C
= D 2 −v −K C
∂t ∂x ∂x
∂C
C (t , 0 ) = C0 C (0, x ) = 0 =0
∂x x=L

que descreve as variações de concentração (C) de um certo reagente


A ao longo da posição axial (x) de um reator tubular de comprimento
L, ao longo do tempo (t). D é o chamado coeficiente de dispersão
do reagente A no tubo; v é a velocidade média do escoamento ao
longo do tubo; e K é a constante de velocidade da reação. A primeira
condição de contorno diz que o reator está inicialmente vazio do
composto A (só contém solvente, por exemplo); a segunda condição
de contorno diz que a concentração da corrente de alimentação é
constante e igual a C0; e a terceira condição de contorno diz que
nada muda a partir da saída do reator.
O modelo acima é um modelo dinâmico a parâmetros distribuí-
dos. A versão estacionária desse modelo, usada freqüentemente
para o projeto de reatores químicos e obtida quando as variações
temporais desaparecem, tem a forma

d 2C dC
0 = D 2 −v −K C
dx dx
dC
=0 C (0 ) = C0
dx x=L

Estimação de Parâmetros 221


PERTENCE AO N O DE O I

Repare que a complexidade do modelo é bastante menor.


Para resolver o modelo, é bastante comum adotar esquemas de
discretização. Embora isso não seja necessário nos dois modelos
acima, pois soluções analíticas fechadas podem ser desenvolvidas
para ambos os casos, admita que o reator tubular é dividido em
N “fatias” de comprimento ∆L = L/N ao longo do comprimento
L, como representado na Figura 4.9. Nesse caso, em um ponto i
qualquer no interior do reator, é possível escrever
dC Ci +1 − Ci −1
- ≈
dx x = xi 2 ∆L

d 2C
- ≈
-I
dC
dx x = x i + ∆L
I2

-I
dC
dx x = x i − ∆L
I2
Ci +1 − Ci Ci − Ci −1
≈ ∆L

∆L = Ci +1 − 2Ci + Ci −1
dx 2 x = xi
∆L ∆L ∆L2

de maneira que o modelo estacionário fica na forma de um con-


junto de N equações algébricas
D v
0 = - 2 (Ci +1 − 2Ci + Ci −1 ) − - - (Ci +1 − Ci −1 ) − K Ci , i = 1...N
∆L 2 ∆L
com
C0 conhecido (primeira condição de contorno)
CN+1 = CN (segunda condição de contorno)
que pode ser resolvido com a precisão desejada e imposta pela
discretização (número de “fatias” N).

.i-1 i iXL+ m

, ,,., ()
.,_ -~B
;
.. •
}
....

0
I AL l ~+·
Figura 4.9 - Esquema de discretização de diferenças finitas.

Para o caso muito especial em que N é igual a 1 (a discretização


mais simples possível)

222 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

D v
0= (C − 2C + C ) − (C2 − C0 ) − K C1
∆L 2 ∆L
2 2 1 0

com
C0 conhecido (primeira condição de contorno)
C2 = C1 (segunda condição de contorno); e
D v
0= (C − 2 C + C ) − (C1 − C0 ) − K C1
∆L2 2 ∆L
1 1 0

 D v 
 2+ 
 ∆L 2 ∆L 
C1 = C2 = C0
 D v 
 2+ +K
 ∆L 2 ∆L 
De maneira similar, o modelo dinâmico fica na forma
dCi D v
= 2 (Ci +1 − 2 Ci + Ci −1 ) − (Ci +1 − Ci −1 ) − K Ci
dt ∆L 2 ∆L ,
i = 1...N
com
Ci(0) =0 (primeira condição de contorno)
C0(t) conhecido (segunda condição de contorno)
CN+1(t) = CN(t) (terceira condição de contorno)
Assim, para N igual a 1

dC1  D v   D v 
+ 2 + + K  C1 =  2 +  C0
dt  ∆L 2 ∆L   ∆L 2 ∆L 
com C1 (0) = 0
Repare como o esquema de discretização reduz a complexidade
matemática do modelo ao mesmo tempo em que aumenta o
número de equações a serem resolvidas. Repare ainda que o
procedimento de discretização reduziu o modelo estacionário
diferencial original a um conjunto de equações algébricas, redu-
zindo o modelo dinâmico diferencial original a um conjunto de
equações diferenciais ordinárias.

Estimação de Parâmetros 223


PERTENCE AO N O DE O I

É importante salientar que, uma vez desenvolvido um modelo


matemático, é fundamental que possamos RESOLVÊ-LO. Um modelo
matemático que não pode ser resolvido não tem qualquer utilidade.
Além disso, um modelo matemático mal resolvido é ineficiente. Por
isso, de maneira pouco precisa, pode-se dizer que fazer simulações
é resolver o modelo muitas vezes, para diferentes condições. Pode-se
inclusive dizer que um modelo é o pacote constituído pelas equações
que representam o sistema e as técnicas numéricas que permitem
resolvê-las. Portanto, as técnicas numéricas utilizadas constituem
uma parte importante do modelo utilizado para descrever o processo.
Normalmente não atentamos para este fato porque nos acostumamos
a pensar em modelos explícitos, em que dado x é possível obter y di-
retamente, como na Equação (4.1). Isso nem sempre é verdade, como
mostram os Exemplos 4.8 e 4.9. Às vezes é necessário um pouco mais
de trabalho e criatividade. Daí a enorme importância da Matemática e
da Computação, em particular das ferramentas numéricas, na área de
Modelagem e Simulação de Processos, e mais especificamente para a
disciplina de Estimação de Parâmetros. É importante salientar, no en-
tanto, que para os fins deste livro admite-se que o modelo sempre pode
ser resolvido de forma eficiente pelo analista. É problema do analista,
portanto, resolver o modelo por ele desenvolvido.

4.3. Definição do Problema de Estimação de Parâmetros


Como já discutido exaustivamente ao longo desse capítulo, um problema
fundamental em qualquer trabalho científico é o de correlacionar dados
(construir modelos). No entanto, a construção do modelo envolve a de-
finição de ao menos duas entidades básicas distintas:
a) A estrutura do modelo:
y = α x2 (relação quadrática entre x e y)
y = α eβx (relação exponencial entre x e y)

b) Os parâmetros do modelo: α e β nas relações acima


A estrutura do modelo é a forma funcional através da qual as diversas
variáveis do problema estão relacionadas. Os parâmetros do modelo são
os números que tornam possível a previsão quantitativa das relações
existentes entre as diversas variáveis do problema, através da estrutura
do modelo. Por exemplo, quando se diz que duas variáveis x e y estão
relacionadas linearmente, apenas se estabelece o tipo de relação funcional
que existe entre as duas variáveis analisadas como
y=α x+β

224 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

No entanto, para que o modelo seja útil e possa ser utilizado para fazer
previsões ou simulações, é necessário definir adicionalmente quem são
os coeficientes angular (α) e linear (β) da reta. Caso contrário, de pouco
serve o modelo. Repare que a estrutura do modelo pode ser gerada de
diversas maneiras, de forma empírica ou fundamentada em preceitos
teóricos. De qualquer forma, sem os parâmetros, a estrutura pura do
modelo raramente faz sentido.

Exemplo 4.10 – A Lei de Fourier da transferência de calor, gerada


a partir da observação experimental, diz que a taxa de transfe-
rência de calor que se estabelece entre os dois planos opostos de
uma parede é proporcional à diferença de temperaturas existente
entre os dois planos, é proporcional à área de contato entre os
dois planos, e é inversamente proporcional à distância entre os
dois planos (espessura da parede). Levada ao limite infinitesimal
de espessura da parede, a Lei de Fourier ganha a forma

dT
q = −k A
dx
onde q é a taxa de transferência de calor (energia / tempo), A é a área
de contato entre os planos, T é a temperatura e x é o comprimento
medido ao longo da espessura da parede. k é a chamada condutivida-
de térmica do material ((energia comprimento)/(tempo temperatura)).
O sinal de menos indica que o calor flui sempre do lado mais quente
para o lado mais frio; ou seja, flui na direção contrária do gradiente
de temperaturas. Se a condutividade térmica do material é constante
(ou se a parede é suficientemente fina), então

q = −k A
(T2 − T1 )
L
A equação acima é uma equação fundamental para o projeto de
isolamentos. Dadas as características do material isolante (k), do
sistema avaliado (A, T2, T1) e a máxima perda de calor admissível ( q ),
obtém-se a quantidade necessária de isolante (L). No entanto, para
que a equação seja de fato útil, é necessário conhecer o parâmetro
k. A medição e estudo da condutividade térmica de materiais é um
problema fundamental da área de sistemas térmicos.
De outra forma, a aplicação de princípios teóricos rigorosos (e
elegantes) permitem afirmar que as taxas de reação química

Estimação de Parâmetros 225


PERTENCE AO N O DE O I

observadas em sistemas gasosos diluídos, formados por molé-


culas esféricas rígidas, são proporcionais às concentrações dos
reagentes. Essa dependência funcional é conhecida como Lei de
Ação das Massas e pode ser escrita na forma
NR
R1 + ... + RNR 
→ P1 + ... + PNP
K
R = K ∏C i
i =1

onde Ri designa o reagente i, Pi designa o produto i, R designa a


velocidade da reação (moles / (tempo volume) ), Ci é a concentração
da espécie i (moles / volume) e K é a constante de velocidade da
reação, que depende da temperatura de acordo com a equação

 ∆E 
K = K 0 exp  −
 RT 
que é a conhecida Lei de Arrhenius. K0 é o fator de freqüência da
reação, ∆E é a energia de ativação da reação (energia / mol), R é a
constante universal dos gases (1.9876 cal / (mol K)) e T é a tempe-
ratura absoluta. A Lei de Ação das Massas e a Lei de Arrhenius são
fundamentais para o projeto de reatores químicos e são objetos
de estudo da disciplina de Cinética das Reações Químicas. No en-
tanto, são de pouco valor se os valores do fator de freqüência (K0)
e da energia de ativação (∆E), característicos da reação química
investigada, não são conhecidos.

Um problema fundamental para todos aqueles envolvidos com ativi-


dades científicas, em particular àqueles envolvidos com a compreensão
quantitativa de como uma variável do problema influencia as demais,
é determinar os parâmetros do modelo. Por exemplo, como determinar
q , k, A, L, T, R , C, K0 e ∆E nos problemas do Exemplo 4.10? A resposta
pode ser obtida usualmente das seguintes formas:
a) Fixando alguns valores típicos de projeto para algumas variáveis
independentes. Por exemplo, no caso da troca de calor, os valores do
q máximo admissível e de ao menos uma das temperaturas são nor-
malmente estabelecidos a priori pelas características do projeto;
b) Calculando as variáveis dependentes através do modelo. Por exemplo,
no problema de troca de calor, a espessura de isolante L é obtida como
função das demais variáveis do problema;

226 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

c) Medindo variáveis e parâmetros com instrumentação adequada. Por


exemplo, no problema de troca de calor, a área de contato pode ser
obtida medindo-se as dimensões características do meio que está
sendo isolado;
d) Consultando a literatura especializada. Por exemplo, no caso da
troca de calor, um manual pode ser consultado para se observar se
a condutividade térmica do isolante considerado já foi avaliada e
reportada por outros pesquisadores.
Embora o parágrafo anterior induza o leitor a pensar que o problema
de avaliação dos parâmetros é simples, isso não é absolutamente verdade.
Vejamos alguns pontos curiosos.
a) A literatura especializada não fornece todos os dados necessários para
a realização de qualquer projeto. Muito pelo contrário! Quanto mais
importante e relevante o problema do ponto de vista tecnológico e
econômico, menos provável é que se encontrem informações relevan-
tes do problema na literatura pública. Todo engenheiro já passou pela
experiência de procurar dados na literatura sem sucesso. Além disso,
essa estratégia apenas transfere de mãos o problema fundamental
da avaliação dos parâmetros, não o solucionando. Aliás, grande parte
das correlações propostas na literatura resulta de extenso trabalho
de modelagem e estimação de parâmetros realizados por terceiros;
b) A medição de certos parâmetros é virtualmente impossível, seja
porque não existe técnica experimental disponível para esse fim (por
exemplo, para medir os valores de K0 e ∆E que caracterizem uma rea-
ção química), seja porque o parâmetro não tem qualquer significado
físico real (como os coeficientes α e β da correlação empírica linear
ou quaisquer outros coeficientes de natureza empírica), seja porque o
parâmetro é na realidade definido pela relação estabelecida entre as
variáveis fundamentais do problema (como a condutividade térmica
na Lei de Fourier), ou seja, porque nem mesmo a relação existente
entre as variáveis é de fato conhecida.
Por todas as razões apresentadas anteriormente, independentemente
da estrutura ou origem do modelo matemático utilizado, quase sempre
há certos números ou parâmetros que não podem ser medidos nem ava-
liados a priori pelo analista, mas sem os quais não é possível nem usar
o modelo nem estabelecer vínculos entre as variáveis. Como proceder
então nesses casos? A resposta para esse problema constitui o conjunto
de ferramentas conhecidas como técnicas de estimação de parâmetros.
Estimar parâmetros consiste fundamentalmente em inferir os valores dos

Estimação de Parâmetros 227


PERTENCE AO N O DE O I

parâmetros que não podem ser medidos nem avaliados a priori, a partir
de uma comparação estabelecida entre dados experimentais e um modelo
disponível para o processo, cujo desempenho é afetado pelo parâmetro
de interesse. Estimar parâmetros consiste, portanto, em obter dados
experimentais e comparar esses dados com estruturas que pretendem
explicá-los. Ou seja, estimar parâmetros consiste em exercitar as com-
ponentes experimental e teórica de uma investigação científica.

Exemplo 4.11 – Para o problema da transferência de calor do


Exemplo 4.10, não é possível de fato medir o valor de k. Não existe
um instrumento (“condutivômetro térmico”? ☺ ) que possa ser
conectado ao material para fornecer diretamente o valor de k.
Mas a Lei de Fourier diz que

q = −k A
(T2 − T1 )
L
e que todas as demais grandezas físicas, com exceção de k, podem
ser medidas durante um experimento de troca de calor. Suponha
que um pedaço do isolante considerado é prensado entre duas
paredes de dimensões bem definidas (a espessura L e a área A
medidos), mantidas a temperaturas constantes (T1 e T2 medidos)
através da manipulação da quantidade de calor dissipada por uma
resistência elétrica ( q medido). Nesse caso, suponha que várias
medidas (experimentos) são feitas. Segundo a Lei de Fourier, a con-
dutividade térmica k é o fator de proporcionalidade (coeficiente
angular) existente entre a medida q e o grupo de medidas
A
(T2 − T1 ) .
L
Se essas medidas são lançadas em um gráfico, na forma abaixo,
é possível inferir de alguma maneira o valor de k. Portanto, não
é exagero dizer que o problema de estimação de parâmetros é
equivalente à construção de um sensor virtual (softsensor) para
medição das variáveis que não podem ser medidas diretamente
com instrumentos físicos. Portanto, o “condutivômetro térmico”
é o procedimento de estimação de parâmetros.

228 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

k muito alto boa inferencia de k

• •

k muito baixo

(T,. T,
A L
Figura 4.10 - Inferência da condutividade térmica do isolante
a partir de outras medidas experimentais.

4.4. Características Fundamentais do


Problema de Estimação de Parâmetros
Embora o procedimento de estimação de parâmetros esteja filosoficamen-
te ilustrado na Figura 4.12, é preciso definir o problema de forma mais
rigorosa e precisa, para que sejam eliminadas quaisquer ambigüidades de
condução do processo e a possibilidade da intervenção deletéria e desavi-
sada do analista. Por isso, é conveniente tentar colocar primeiramente em
palavras em que consiste o procedimento de estimação de parâmetros. Uma
possível definição do problema pode ser apresentada na forma: Estimar
parâmetros é usar um modelo como referência e variar os parâmetros até que as
predições do modelo passem o mais próximo possível dos dados experimentais,
respeitadas as incertezas características da medição.
A definição introduzida acima é bastante interessante porque é com-
posta por um conjunto de palavras-chaves que antecipam a formulação
do problema matemático que caracteriza o procedimento de estimação
de parâmetros. Vejamos como alguns desses elementos fundamentais
caracterizam o problema de estimação ou inferência:
a) Há um modelo de referência. Essa é uma característica fundamental
do processo de estimação de parâmetros. O modelo de referência
serve de molde, em torno do qual os dados experimentais devem ser
encaixados. Portanto, o procedimento de estimação de parâmetros
pressupõe uma tentativa de compreender a realidade experimental e
não pode ser conduzido se o analista não quer ou não tem coragem
de propor uma explicação, seja ela empírica ou teórica, para as suas
observações experimentais. Logo, para o problema de estimação de

Estimação de Parâmetros 229


PERTENCE AO N O DE O I

parâmetros o modelo é um dado conhecido, cabendo ao analista


prover esse dado.
b) Os parâmetros são variados. Dessa forma, durante o procedimento
de estimação de parâmetros, os parâmetros do modelo são as
verdadeiras variáveis consideradas. Genericamente, durante uma
simulação com o modelo y = f (x; ), admite-se que os parâmetros
α são conhecidos e são feitos estudos sobre como as variáveis inde-
pendentes x influenciam as variáveis dependentes y. O problema
de estimação de parâmetros consiste, ao contrário, em observar
quão longe ou perto dos dados experimentais x e y conhecidos o
modelo passa, quando os parâmetros α são modificados. (Por isso,
não é surpresa que em muitas áreas da Engenharia o problema de
estimação de parâmetros é chamado de problema inverso.) Duran-
te a estimação dos parâmetros podem ser feitas, portanto, muitas
simulações das condições experimentais, para diferentes conjuntos
de valores de parâmetros.
c) O modelo deve passar o mais próximo possível dos dados expe-
rimentais. Logo, o procedimento de estimação de parâmetros
pressupõe a existência de uma métrica; ou seja, de uma função
que mede a distância existente entre os dados experimentais e os
dados previstos pelo modelo. Todo o procedimento de estimação
de parâmetros depende da definição dessa métrica, que em última
análise diz se as previsões feitas com o modelo são boas ou ruins.
Mais ainda, o procedimento de estimação de parâmetros pressupõe
a implementação de algum tipo de rotina de otimização, dado que
as previsões feitas com o modelo não devem estar apenas próximas
aos dados experimentais, mas sim o mais próximo possível. Portanto,
a similaridade entre os dois conjuntos, experimentos e previsões,
deve ser máxima.
d) Devem ser respeitadas as incertezas características da medição.
Logo, não deve ser esquecido que as medidas experimentais contêm
erros e que os erros influenciam o processo de inferência dos
parâmetros. Essa questão é ilustrada na Figura 4.11 apresentada a
seguir. Suponha que dois pares de dados experimentais estão dis-
poníveis para que se estimem os parâmetros característicos da reta.
Como os dados experimentais contêm erros, os valores verdadeiros
dos dados não são conhecidos, mas é possível avaliar uma região
de confiança, com grau de precisão escolhido pelo analista, onde
se espera encontrar os valores verdadeiros. Observe, no entanto,
que a incerteza no dado experimental provoca como conseqüência

230 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

uma incerteza na reta que une os dois pares de dados experimen-


tais. Portanto, é fundamental reconhecer que o procedimento de
estimação de parâmetros, por estar baseado na análise de dados
experimentais que contêm um certo grau de incerteza, resulta em
valores que também contêm um certo grau de incerteza. Portanto,
o procedimento de estimação de parâmetros deve ser interpretado
à luz dos conhecimentos básicos da Estatística.

Figura 4.11 - Os pontos ilustram as medidas experimentais. As regiões ovais


indicam as incertezas experimentais. A região hachurada indica onde estão as
possíveis retas que descrevem os dados experimentais.

Baseado na discussão anterior e por conveniência de apresentação,


o problema de estimação de parâmetros é segmentado aqui em três
subproblemas. O primeiro subproblema consiste em definir uma métri-
ca (também chamada de função objetivo) adequada para o problema.
A definição de uma métrica apropriada é de fundamental importância,
pois é baseado nessa métrica que se desenvolve o processo de inferên-
cia paramétrica. O segundo subproblema consiste em achar o ponto de
ótimo da métrica formulada (mínimo ou máximo, a depender da lógica
subjacente à métrica utilizada). Quase sempre, a definição do ponto de
ótimo só é possível com o auxílio de técnicas numéricas. Algumas dessas
técnicas numéricas são apresentadas e discutidas ao longo do Capítulo
5. No entanto, para alguns poucos problemas específicos descritos por
modelos lineares nos parâmetros, é possível encontrar o ponto de ótimo
analiticamente. O terceiro subproblema consiste finalmente em formular
uma interpretação estatística precisa dos parâmetros obtidos e da quali-
dade da previsão efetuada com o auxílio do modelo. Cada um desses três
subproblemas fundamentais é discutido nas seções que seguem.

Estimação de Parâmetros 231


PERTENCE AO N O DE O I

Exemplo 4.12 – Em conformidade com o Exemplo 4.11, suponha


que o seguinte conjunto de dados experimentais está disponível

q (cal / h) 1050 2000 2950 4000

A
(T2 − T1 ) 10 20 30 40
L (m K)

a partir dos quais pretende-se estimar o valor da condutividade


térmica k. Para simplificar a apresentação e ajudar a fixação da no-
menclatura proposta, o problema é descrito na forma y = α x

 (T2 − T1 ) 
onde x é a variável independente  x = A ,
 L 

y é a variável dependente ( q ) e α é o parâmetro estimado (k). Suponha


ainda que a seguinte métrica é proposta para descrever a distância
entre os dados experimentais e os dados previstos pelo modelo:
NE NE
F =∑ y −y ( ) = ∑ yie − α xie( )
2 2
e m
i i
i =1 i =1

onde NE representa o número total de experimentos analisados


(4, nesse caso) e os superescritos e e c designam respectivamente
os dados medidos experimentalmente e os dados previstos com
o modelo. Repare que, de fato, à medida que a diferença entre os
dados experimentais e os dados do modelo aumenta, F também
aumenta. Desta forma, quanto maior o valor de F, mais distante
as previsões feitas com o modelo estão dos dados experimentais
disponíveis. Para minimizar a distância do modelo aos dados ex-
perimentais deve-se manipular os parâmetros de forma adequada.
Nesse caso, o ponto de mínimo é encontrado quando

∂F NE
= ∑ 2 yie − α xie
∂α i =1
( )(− x )= 0
e
i

Resolvendo a equação acima em termos de α, é possível obter

232 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

NE

∑ (y x ) e e
i i
α= i =1
NE

∑ (x )
2
e
i
i =1

Para o caso particular analisado,

α=
(10 ⋅1050 + 20 ⋅ 2000 + 30 ⋅ 2950 + 40 ⋅ 4000 ) = 299000 = 99.67
(10 2
+ 202 + 302 + 402 ) 3000

Admitindo que os dados experimentais xi têm erros desprezíveis,


estando os erros de medição concentrados em yi, e que as medidas
experimentais são independentes, então é possível utilizar as
Equações (1.37) e (1.44) para escrever

∑( { } )⇒ σ
NE NE

∑( )
2 2
Var y  x  e
i
e
i xie σ y2
i
Var {α }= i =1
2
2
α = i =1
2
 NE e 2   NE e 2 
 ∑ xi  ( )  ∑ xi ( )
 i =1   i =1 
que relaciona os erros de medida experimental com os erros
paramétricos. Se os erros de medição são iguais em todas as
condições de experimentação
NE

∑ (x )
2
e
i
σ y2 σ y2
σ =2
α
i =1
2
σ = 2
y NE
=
 2
∑ (x )
NE 2 3000
∑ i  ( )
e e
x i
 i =1  i =1

Observe que a equação acima indica claramente que as incertezas


experimentais viram incertezas paramétricas durante o processo
de estimação de parâmetros. Observe ainda que a natureza das
incertezas paramétricas está intimamente relacionada à natureza
dos erros experimentais (se as hipóteses feitas em relação aos er-
ros experimentais fossem diferentes, a fórmula acima não poderia
ser escrita – há de se caracterizar de forma apropriada os erros
experimentais!), à natureza do modelo (a equação acima só pode
ser escrita para o modelo proposto – cada modelo dá origem a

Estimação de Parâmetros 233


PERTENCE AO N O DE O I

um problema novo!), à natureza da métrica (a equação anterior


só pode ser escrita para a função objetivo utilizada – cada métrica
dá origem a um problema novo!) e aos valores experimentais me-
didos (se as medidas xi mudarem, mudam os erros paramétricos;
assim, é possível interferir no desempenho do modelo escolhendo
bem as condições experimentais!).
Para o caso particular analisado, se σ y =3000 (cal/h)2, então
2

3000
σ α2 = = 1 ⇒ α = 99.67 ± 2 σ α = 99.67 ± 2
3000
onde foi admitido comportamento normal com aproximadamente
95% de confiança. (O bom procedimento científico talvez nos
obrigasse a escrever α = 100 ± 2, dado que não se deve usar mais
casas decimais que as permitidas pela precisão experimental.
Esse rigor será muitas vezes ignorado ao longo desse texto.) A
hipótese de normalidade será discutida bastante ao longo dessa
e das próximas seções.
O desempenho do modelo pode ser comparado às medidas ex-
perimentais na forma

q e (cal / h) 1050 2000 2950 4000

q m (cal / h) 996.7 1993.4 2990.1 3986.8

ε = q e − q m 53.3 6.6 -40.1 13.2

de maneira que a variância em torno do zero pode ser calculada


como
53.32 + 6.62 + 40.12 + 13.22
σ =2
ε = 1555.6
3
com três graus de liberdade. (O número de graus de liberdade
perdidos durante o procedimento de estimação de parâmetros
é igual ao número de parâmetros estimados. Essa questão será
discutida com detalhes ao longo dessa seção.) Comparando-se a
variância experimental da medida com a variância dos desvios
observados, utilizando-se para isso o teste F com três graus de
liberdade no numerador (desvios de predição observados), infini-
tos graus de liberdade no denominador (admite-se que a variância

234 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

experimental da medida é o valor verdadeiro, disponibilizado por


estudo anterior), e 95% de confiança, verifica-se que
1 1 σ 2 1555.6
= < ε2 = = 0.518 < F (3, ∞;0.975 ) = 3.1161
F (∞,3;0.975 ) 13.902 σ y 3000

é satisfeita. Logo, a variâncias experimental característica das medi-


das de y e a variância dos desvios de predição não podem ser conside-
radas diferentes. Portanto, o modelo pode ser considerado bom, com
incertezas de predição comparáveis às incertezas experimentais.
Mais ainda, admitindo-se a normalidade dos erros de medição,
com aproximadamente 95% de confiança os erros de medida são
da ordem de ± 2 σ y = ± 2 3000 ≈ ±110 . Como nenhum dos
desvios observados é maior que isso, não há pontos suspeitos
ou outliers. Assim, tudo indica que o procedimento de estimação
foi bem executado.
Finalmente, como o modelo pode ser usado para fazer previsões
de y a posteriori, é conveniente calcular os erros de previsão com
o modelo. Nesse caso, usando novamente as Equações (1.37) e
(1.44), chega-se a
Var {yˆ }= Var {α x} ⇒ σˆ y2 = x 2σ α2 = x 2
que é a variância de predição inerente ao modelo, uma vez que
foram desprezados os possíveis erros experimentais de x e y.
Toda essa informação está contida na Figura 4.12 abaixo. Observe
como os erros de predição mudam com x e nesse caso particular
crescem, à medida que nos afastamos do zero.
~jl

-1000

3001}
;..
:i:I}IJ!}

1,1)1)1)1

ll
II
•• 2JII .!llll ~

X
Figura 4.12 - Resultados do procedimento de estimação do Exemplo 4.12.
Barras verticais denotam os erros experimentais, a linha cheia é o modelo
e as linhas tracejadas indicam o intervalo de confiança das previsões feitas
com o modelo.

Estimação de Parâmetros 235


PERTENCE AO N O DE O I

4.5. A Definição da Função Objetivo


Para que seja possível introduzir a noção de proximidade ou distância,
é necessário primeiramente definir uma métrica. Para que se note a im-
portância de introduzir uma definição precisa de uma métrica, a Figura
4.13 ilustra como pode ser difícil decidir que função está mais próxima
dos dados experimentais quando uma transformação matemática precisa
não está disponível.

y
Y =a. +b

p(ux)

Figura 4.13 - Ilustração sobre a necessidade de definir uma métrica.


Qual a função mais próxima dos dados experimentais?

Do ponto de vista estritamente matemático, define-se como uma


função distância entre dois elementos quaisquer x e y de um conjunto,
representada usualmente por d(x,y), uma função que satisfaz os seguin-
tes axiomas:
a) d(x,y) é um número real estritamente positivo; ou seja,

d (x, y ) ∈ ℜ ; d (x, y ) ≥ 0 (4.5)

b) d(x,y) é igual a zero se e somente se x=y; ou seja,

d (x, y ) = 0 ⇔ x=y (4.6)

c) d(x,y) é uma transformação comutativa; ou seja,

d (x, y ) = d (y ,x ) (4.7)

d) d(x,y) satisfaz a desigualdade do triângulo; ou seja,

d (x, y ) ≤ d (x,z ) + d (z, y ) (4.8)

236 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

É importante enfatizar que a necessidade de satisfazer os axiomas


apresentados acima guarda estreito vínculo com a nossa idéia de distância
física existente no mundo real. O primeiro axioma exige que a distância
seja um número real positivo mensurável, como usual na nossa escala
de valores. Por exemplo, alguém consegue imaginar o significado de se
associar um número complexo ou um número negativo à distância entre
duas cidades em um mapa geográfico? O segundo axioma generaliza a
idéia de que se dois pontos são diferentes, então a distância entre eles
não pode ser igual a zero. Da mesma forma, não parece fazer sentido
associar um valor diferente de zero para a distância de um ponto a ele
mesmo. O terceiro axioma generaliza a idéia de que a distância entre
dois pontos quaisquer deve ser independente da escolha de qual deles é
considerado como origem ou referência para a trajetória. Finalmente, o
quarto axioma generaliza a idéia de que a trajetória mais curta possível
entre dois pontos é aquela que liga diretamente esses dois pontos. Por-
tanto, as Equações (4.5-8) introduzem formalmente conceitos com que
já estamos bem acostumados a lidar no mundo real.

Exemplo 4.13 – Seja o conjunto dos números reais. Sejam x e y dois


números reais quaisquer. Então d (x, y) = |x – y| define uma métrica
em ℜ. Veja que o primeiro axioma é satisfeito naturalmente pela
função módulo. O segundo axioma também é naturalmente satis-
feito, porque o único número real que tem módulo igual a zero é o
próprio zero. O terceiro axioma também é naturalmente satisfeito,
uma vez que os módulos de números opostos (ou seja, de sinais
distintos) são iguais. Finalmente, para mostrar a desigualdade do
triângulo, suponha sem perda de generalidade que x < y. Então,

< Ix − zI+ Iz − y , z<x



d (x, y ) = Ix − yI = Ix − z + z − yI= Ix − z I+ Iz − y , x < z < y
< x − z + z − y , z>y
 I I I
Por exemplo, se x = 1 e y = 3

< 1 − 0I+ I0 − 3 = 4

d (1,3) = I1 − 3I = 2 = 1 − 2I+ I2 − 3 = 2
< 1 − 4 + 4 − 3 = 4
 I I
Portanto, o valor absoluto da diferença entre dois números reais
é uma medida da distância entre esses dois números.

Estimação de Parâmetros 237


PERTENCE AO N O DE O I

Para o problema de estimação de parâmetros, os pontos x e y são na


verdade os conjuntos de valores (vetores) que contêm os dados experi-
mentais e os dados calculados com o modelo. Suponha que NE dados
experimentais estão disponíveis e organizados em um vetor de dados
experimentais (ye) e estão sendo comparados a igual número de dados
calculados com um modelo e organizados para representar condições
experimentais semelhantes (ym). Nesse caso, pode-se considerar que ye e
ym são elementos do ℜNE; ou seja, vetores de números reais com dimensão
NE. Nesse caso, qualquer métrica utilizada para descrever uma distância
em ℜNE pode ser também usada para descrever a distância entre os dados
experimentais e os dados calculados pelo modelo.

Exemplo 4.14 – Sejam os conjuntos de dados experimentais e


calculados, representados por ye e ym, constituídos por números
reais. Então
1/ 2
 NE e 2
( e
d y ,y m
) (
=  ∑ yi − yim  )
 i =1 
define uma métrica para o problema de estimação de parâme-
tros. Veja que o primeiro axioma é satisfeito naturalmente pela
função quadrática, que resulta sempre num número real positivo.
O segundo axioma também é naturalmente satisfeito, uma vez
que o único número real cujo quadrado é igual a zero é o próprio
zero. O terceiro axioma também é naturalmente satisfeito, uma
vez que os quadrados de números opostos (ou seja, de sinais
distintos) são iguais. Finalmente, para mostrar a desigualdade
do triângulo, é conveniente lembrar apenas que

(y )= ~(y )
2 2 2
e
− yim yie − yim ⇒
e
− yim = yie − yim
i I i

de maneira que o resultado do Exemplo 4.13 também pode ser


usado aqui para garantir a desigualdade do triângulo.
Portanto, a soma dos quadrados das diferenças entre as com-
ponentes de dois vetores reais é uma medida da distância entre
esses dois vetores.

Os axiomas definidos pelas Equações (4.5-8) permitem definir um con-


junto virtualmente infinito de métricas para o ℜNE. Por exemplo, pode-se
mostrar que as seguintes métricas satisfazem os axiomas propostos:

238 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

1/ 2
 NE e 2
(
d1 y e , y m ) (
=  ∑ yi − yi 
m
) (4.9a)
 i =1 
1/ N
 NE e 
( ) (
=  ∑ yi − yim )
N
e m
d2 y , y  , N par (4.9b)
 i =1 
1/ N
 NE N
(
d3 y e , y m ) ( )
=  ∑ wi yie − yim  , wi positivo, N par (4.9c)
 i =1 
 NE e 
(
d4 y e , y m ) =  ∑ yi − yim  (4.9d)
 i =1 
 NE e 2
(
d5 y e , y m ) (
= exp  ∑ yi − yim  − 1 ) (4.9e)
 i =1 
Surge, portanto, intuitivamente a necessidade de perguntar qual
deve ser a melhor métrica para descrever o problema de estimação de
parâmetros. Do ponto de vista estritamente matemático, essa questão
não faz qualquer sentido e todas as expressões acima (e infinitas ou-
tras) podem ser igualmente utilizadas para descrever a distância entre
os pontos experimentais e os pontos obtidos com o auxílio do modelo.
Contudo, um axioma adicional é imposto ao problema de estimação de
parâmetros na forma:

e) d(x,y) deve conter significação estatística.


Por exemplo, um exercício de derivação de uma métrica com signifi-
cação estatística é apresentado a seguir. Suponha para isso que a estru-
tura do modelo está correta; ou seja, que o modelo é perfeito, embora
os parâmetros do modelo sejam eventualmente desconhecidos. Essa
hipótese, chamada de Hipótese do Modelo Perfeito será usada muitas
vezes ao longo do texto e é apresentada a seguir.

Hipótese Fundamental 4.1 – A Hipótese do Modelo Perfeito


Admita que um modelo y = f (x; ) é usado para descrever um
problema físico. O modelo é perfeito se é capaz de descrever exa-
tamente as relações existentes entre as variáveis do problema.
Nesse caso, as medidas experimentais não obedecem exatamente

Estimação de Parâmetros 239


PERTENCE AO N O DE O I

as relações impostas pelo modelo única e exclusivamente por


causa dos inevitáveis desvios experimentais. Nesse caso,
.

A Hipótese do Modelo Perfeito é obviamente uma idealização sobre


a compreensão do problema físico e impossível de ser atendida com-
pletamente, pois já foi extensamente discutido que nenhum modelo
descreve todos os detalhes da realidade. Dessa forma, nenhum modelo
pode ser de fato perfeito. A despeito disso, admitimos que a estrutura do
modelo matemático utilizado para representar os dados experimentais
é muito boa. Portanto, qualquer desvio eventualmente observado entre
o dado experimental e o dado calculado com o modelo é devido única
e exclusivamente às incertezas experimentais. Admita, portanto, que
ye = ym + ε, onde ye é o valor observado experimentalmente, ym é o valor
calculado pelo modelo e ε é o desvio entre estes dois valores devido ao
erro experimental. Na realidade, ε deve conter também os erros de mo-
delagem, desprezados quando se utiliza a hipótese do modelo perfeito.
No entanto, é muito difícil usar uma outra hipótese para o trabalho de
estimação de parâmetros a priori, pois se os erros de modelagem fos-
sem conhecidos, o modelo poderia ser melhorado e não haveria razão
a princípio para se utilizar o modelo errado.
Se os erros são aleatórios e simétricos, espelhando um bom proce-
dimento experimental, espera-se que eles tenham média igual a zero.
Essa é uma das hipóteses fundamentais associadas à natureza dos da-
dos experimentais, chamada de Hipótese do Experimento Bem-Feito.
Admite-se que, se o experimento é bem-feito e o modelo é perfeito, o
erro experimental não deve apresentar qualquer tipo de tendência ou
polarização, flutuando em torno do valor zero. Dessa maneira, o valor
médio esperado para o experimento é o próprio valor calculado com o
modelo, pois

{} { } { }
E y e = E y m + ε = E y m + E {ε }= E y m = y m { } (4.10)

Se o experimento é bem-feito, não hárazão para acreditar que o erro


experimental é maior que o erro mínimo inevitável, devido às incertezas
experimentais. Em função da hipótese do experimento bem-feito, uma
avaliação da variância dos erros experimentais pode ser feita na forma
NE

∑ (y )
2
e
i −y
m
i
(4.11)
σ =
2 i =1
ν
y

240 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

onde ν é o número de graus de liberdade. A Equação (4.11), segundo o


Exemplo 4.14, constitui uma métrica para o problema de estimação de
parâmetros. Portanto, deseja-se minimizar a função
NE
FObj = ∑ yie − yim ( )
2
(4.12)
i =1
que é uma métrica com interpretação estatística precisa.

Hipótese Fundamental 4.2 – A Hipótese do Experimento Bem-Feito


Diz-se que o experimento é bem-feito se os erros de medição come-
tidos durante a condução dos procedimentos experimentais são tão
pequenos que é possível admitir que a probabilidade de encontrar
os dados experimentais é máxima. Alternativamente, diz-se que o
experimento é bem-feito se os erros de medição cometidos durante
a condução dos erros experimentais são equivalentes ao conteúdo
mínimo de erro admissível para o processo de medição.

A Hipótese do Experimento Bem-Feito permeia toda a análise estatís-


tica e numérica do problema de estimação de parâmetros. Do ponto de
vista prático, é difícil não considerar essa hipótese durante a formulação
do problema, já que a negação dessa hipótese condena de certa forma o
conjunto experimental que está sendo analisado. Se os experimentos não
são bem-feitos, ou se os erros experimentais são muito grandes, parece
razoável sugerir ao analista que os dados experimentais sejam medidos
novamente; ou seja, recomenda-se a repetição dos experimentos.
A função objetivo definida na Equação (4.12) é uma medida do erro
experimental, se as hipóteses do experimento bem-feito e do modelo per-
feito são adequadas. Portanto, minimizar essa função objetivo é o mesmo
que dizer que o erro experimental não deve ser superior ao menor valor
possível, em consonância com a hipótese do experimento bem-feito. A
Equação (4.12) define a função objetivo de mínimos quadrados. Deve ficar
claro que apenas a interpretação estatística torna essa métrica melhor
que as demais métricas definidas pelas Equações (4.9a-e).

Exemplo 4.15 – Um exemplo de aplicação da técnica de mínimos


quadrados é o caso clássico da reta. Suponha que
A função de mínimos quadrados fica na forma
NE
P0 hJ = L,(y7
1•1
-a x:- f3t
'

Estimação de Parâmetros 241


PERTENCE AO N O DE O I

Os valores de α e β são então obtidos minimizando-se o valor


da função objetivo

Há, portanto, duas equações a resolver e duas incógnitas a determinar,


uma vez que os dados experimentais são conhecidos. Portanto:

Nf! (/ x:- a(x;r' - t3x;) =0


-22,
t =l
Nfi:
-22,(y;-
i =l
ax; -13)=0
NE .., N8 NE
ai,(x:r +f3I, (x;)=I, (y;x;)
,.. t•l ,••
Vb~ N6.
a I, (x:)+ /3 NE =
t•l
L(Yn
1•l
resultando em

NE[ ~ {y;x;)]-[~(y;)][ ~(x; )]


a= NE[~(x:f ]-[~(x.')r

242 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 4.16 – Um outro exemplo de aplicação da técnica de


mínimos quadrados é o caso clássico da parábola. Suponha que
y m = α x2 + β x + γ
A função de mínimos quadrados fica na forma

( )
NE 2
FObj = ∑ y − α x ( ) −β x
2
e
i
e
i
e
i −γ
i =1

Os valores de α, β e γ são obtidos minimizando-se o valor da


função objetivo
∂FObj
( )( ( ) )= 0
NE
= ∑ 2 yi − α xie ( ) −β x
e 2 e 2
−γ − xie
∂α i =1
i

= ∑ 2 (y − α (x ) − β x − γ )(− x )= 0
∂FObj NE
e e
2 e e

∂β i i i i
i =1

= ∑ 2 (y − α (x ) − β x − γ )(−1) = 0
∂FObj NE
e e
2 e

∂γ i i i
i =1

Há, portanto, três equações a resolver e três incógnitas a deter-


minar, uma vez que os dados experimentais são conhecidos. A
solução analítica para esse problema pode ser facilmente derivada.
Isto ocorre sempre que o modelo é linear nos parâmetros.

Exemplo 4.17 – Um outro exemplo de aplicação da técnica de


mínimos quadrados é o caso clássico da função exponencial.
Suponha que y = α e β x
A função de mínimos quadrados fica na forma
NE 2
FObj  β xie 
= ∑  yi − α e 
e

i =1  
Os valores de α e β são obtidos minimizando-se o valor da função
objetivo

∂FObj 
NE
β xie  β xie 
= ∑ 2  yi − α e  −e  = 0
e

∂α i =1   

Estimação de Parâmetros 243


PERTENCE AO N O DE O I

∂FObj NE
 β xie  β xie 
= ∑ 2  yi − α e  −α xi e  = 0
e e

∂β i =1   
Há, portanto, duas equações a resolver e duas incógnitas a deter-
minar, uma vez que os dados experimentais são conhecidos. Uma
solução analítica para esse problema não pode ser derivada. Isto
ocorre por causa da natureza não-linear do modelo. A solução do
problema requer, portanto, o uso de técnicas numéricas como as
que serão discutidas no Capítulo 5. A necessidade de usar técnicas
numéricas para resolver um problema supostamente tão simples
mostra que não é possível, de maneira geral, conduzir estudos
de estimação de parâmetros longe do computador. O usuário de
procedimentos de estimação de parâmetros deve estar, portanto,
habilitado a utilizar procedimentos numéricos de estimação.
Uma maneira comum de propor uma solução analítica para o
problema é escrever o modelo na forma

( )
z m = ln y m = ln (α ) + β x = αˆ + β x

e a função objetivo na forma


NE
(
FObj = ∑ zie − αˆ − β xie )
2

i =1

de maneira a poder usar a solução apresentada no Exemplo 4.15.


Deve-se prestar a atenção para o fato, no entanto, de que toda a
significação estatística da função objetivo pode ter sido jogada
fora nesse caso, já que a variável medida efetivamente foi y e não
z=ln(y). (Essa questão será discutida com um pouco mais de deta-
lhes na Seção 5.8 do Capítulo 5.) Além disso, minimizar a função
NE
FObj = ∑ y − y ( )
2
e m
i i
i =1

não é equivalente a minimizar a função

( ( ) ( ))
NE 2
FObj = ∑ ln y − ln y e
i
m
i
i =1

244 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

e valores diferentes dos parâmetros estimados provavelmente


serão encontrados. Por isso, o usuário deve resistir o máximo
possível à tentação de introduzir transformações dos dados ex-
perimentais. Voltaremos a esse ponto adiante.

Os Exemplos 4.15 e 4.16 mostram que, para modelos lineares nos pa-
râmetros, a aplicação da técnica de mínimos quadrados admite solução
analítica. Já para o modelo exponencial do Exemplo 4.17 é necessário algum
método numérico para que a solução seja encontrada. Assim, de forma
generalizada pode-se definir um modelo linear nos parâmetros como:

(4.13)

O modelo proposto tem NP parâmetros, αT = [α1 α2 ... αNP], associa-


dos a NP funções fj (x), que transformam as NX variáveis independentes,
xT = [x1 x2 ... xNP], na variável dependente y. Cada uma das variáveis
é medida em cada uma das NE condições experimentais. A função de
mínimos quadrados fica então na forma
2
NE  e NP 
FObj = ∑  yi − ∑ α j f j xie  ( ) (4.14)
i =1  j =1 
Os valores de α são obtidos minimizando-se o valor da função objetivo
em relação a cada um de seus componentes, na forma
∂FObj  e NP 
( ) ( ( ))= 0
NE
= ∑ 2  yi − ∑ α j f j xie  − f k xie k = I. ..NP
∂α k i =1  j =1 
,

(4.15)
que resulta no seguinte sistema de equações
NP
 NE e 
NE

∑ ( ) ( )
α j  ∑ f j xi f k xi  = ∑ yie f k xie
e
( ) , k = LNP
j =1  i =1  i =1 (4.16)
Há, portanto, NP equações a resolver e NP incógnitas a determinar,
uma vez que os dados experimentais são conhecidos. A solução analítica
para esse problema pode ser facilmente derivada se a notação matricial
é utilizada.

Estimação de Parâmetros 245


PERTENCE AO N O DE O I

Sejam
 NE NE NE

 ∑ f1 ( ) ( ) ∑ ( ) ( )
xie f1 xie f1 xie f 2 xie  ∑ f (x ) f (x ) 
1
e
i NP
e
i
 i =1 i =1 i =1

 NE NE NE

∑f
M =  i =1 2
(x ) f (x ) ∑ f (x ) f (x )
e
i 1
e
i 2
e
i 2
e
i  ∑ f (x ) f ( )
2
e
i NP
e
x 
i
(4.17)
i =1 i =1 
     
 NE NE NE 
 f
 ∑ NP (x ) f (x ) ∑ f (x ) f (x )
e
i 1
e
i NP
e
i 2
e
i  ∑ f (x ) f ( )
NP
e
i NP
e 
xi

i =1 i =1 i =1

e
 NE e
 ∑ yi f1 xi
e
( ) 
 i =1 
 NE e 
 ∑
Yf =  i =1
yi f 2 xie ( ) 
(4.18)

 ... 
 NE 
 y e f xe
 ∑ i NP i ( ) 

i =1
então
M a = Yf ⇒ a = M–1 Yf (4.19)

que é uma solução de enorme importância prática para a teoria de


estimação de parâmetros e planejamento de experimentos. É muito
conveniente ainda definir a matriz
 f1 x1e

( ) f1 xe2 ( ) ... ( )
f1 xeNE 

 f 2 x1e
GY = 
( ) f2 (x ) e
2 ... ( )
f 2 x NE 
e

 (4.20)
 ... ... ... ... 
 
e
 f NP x1 ( ) f NP xe2 ( ) ... e
( )
f NP x NE 
pois assim é possível escrever a solução diretamente em termos das
variáveis medidas na forma
vlt
. I

Q = f) - L Gl y e , y [ = •L'~_ (4.21)

que indica que existe uma relação linear direta entre a medida experi-
mental da variável dependente e o valor estimado para o parâmetro.

246 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 4.18 – Suponha que o seguinte modelo está sendo usado


para interpretar um problema físico

y m = α1 x1 + α 2 x2 + α 3 x1 x2 + α 4
onde y representa uma variável dependente que depende de duas
outras variáveis independentes x1 e x2. No problema proposto,

( ) ( )
f1 xe = x1e , f 2 xe = x2e , f3 xe = x1e x2e , f 4 xe = 1 ( ) ( )
Dessa forma,

 x1,1 e e
x1,2 e
x1,3  x1,e NE 
 e 
x e
x2,2 e
x2,3  x2,e NE 
G Y =  e 2,1e
 x1,1 x2,1 e
x1,2 e
x2,2 e
x1,3 e
x2,3  x1,e NE x2,e NE 
 
 1 1 1  1 

 NE e 2 NE NE NE

 ∑ x1,k ( ) ∑ x1,e k x2,e k ∑( ) ∑x
2
x1,e k x2,e k e
1, k 
 k =1 k =1 k =1 k =1

 NE e e NE NE NE

 ∑ x1,k x2,k ∑( ) ∑ x (x ) ∑
2 2
x2,e k e
1, k
e
2, k x2,e k 
M =  NE 
k =1 k =1 k =1 k =1

 NE NE NE 
( )
 ∑ x1,k x2,k ∑ x (x ) ∑ (x ) (x ) ∑
2 2 2 2
e e e e e e
1, k 2, k 1, k 2, k x1,e k x2,e k 
 k =1 k =1 k =1 k =1 
 NE NE NE NE 
 ∑ x1,k
 k =1
e
∑ x2,e k
k =1
∑x
k =1
e
1, k x2,e k ∑i =1
1 = NE 

e
onde xi , k representa a medida da variável independente xi no expe-
rimento k. Portanto, de acordo com a Equação (4.21), existe uma solu-
ção analítica explícita para o problema de estimação de parâmetros,
uma vez conhecidos os dados experimentais. Modelos como esse são
muito úteis para interpretação quantitativa de dados experimentais,
como será discutido no Volume II desta série de publicações.

Suponha que as variáveis independentes não contêm erros e que toda


a flutuação experimental é devida aos erros de medição das variáveis
dependentes Ye. Suponha ainda que dois conjuntos de dados obtidos em
condições análogas são comparados entre si. Nesse caso,

Estimação de Parâmetros 247


PERTENCE AO N O DE O I

(4.22)

Portanto, os valores dos parâmetros flutuam à medida que flutuam


os valores experimentais obtidos. Se a única fonte de flutuação é o erro
experimental
(4.23)

que relaciona os erros paramétricos com os erros experimentais.


Portanto, se os erros flutuam em torno dos valores verdadeiros com
média igual a zero,
(4.24)

os parâmetros também flutuam em torno dos valores verdadeiros, o que


mostra que o procedimento proposto para estimação de parâmetros é
consistente. Mais importante ainda é perceber que a matriz de covari-
âncias dos parâmetros pode ser calculada como

(aa,)' aa, aa, aa, aa,P


v. = E{A(l t\(1.,.} = E aa, Lla, (Lia,)' Lla, aaNP
-

!1a"" !1a1 lla,vr lla , (lla,vr )'

E{M-' G,. tt" G:; (tw'r}= lVt' G, E{u''} G~. {M-')"


1
V.,. = l\•1"' C r V,. G~ (~' r
(4.25)
Observe que a matriz M é simétrica, de maneira que ela é igual a sua
T
transposta (M = MT, M–1 = (M–1) ). Observe ainda que
 NE NE NE

 ∑ f1 (x ) f (x ) ∑ f (x ) f (x )
e
i 1
e
i 1
e
i 2
e
i  ∑ f (x ) f (x ) 
1
e
i NP
e
i
 i =1 i =1 i =1

 NE NE NE

∑f
G Y G TY =  i =1 2
(x ) f (x ) ∑ f (x ) f (x )
e e e e
 ∑ f (x ) f ( )e e
x 
=M
i 1 i 2 i 2 i 2 i NP i
i =1 i =1

     
 NE NE NE 
 f
 ∑ NP ( ) ( ) ∑
xie f1 xie ( ) ( )
f NP xie f 2 xie  ∑ f (x ) f ( )
NP
e
i NP
e 
xi

i =1 i =1 i =1

(4.26)

248 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Dessa forma, se as medidas experimentais são independentes e os


erros de medição são constantes e iguais em todas as condições experi-
mentais, então a matriz de erros experimentais pode ser escrita como
σ y2 0  0
 
 0 σ y2  0
Vy = = σ y2 I (4.27)
     
 
 0 0  σ y2 
onde I é a matriz identidade. Nesse caso, a matriz de covariâncias dos
parâmetros ganha a forma bastante simples
(4.28)

que é utilizada para a interpretação e solução de um grande número de


problemas práticos. A Equação (4.28) mostra que a incerteza dos parâme-
tros depende dos erros experimentais e das condições de experimentação;
portanto, é possível alterar os erros paramétricos através de manipulação
apropriadas das condições de experimentação. A Equação (4.28) constitui
a base fundamental sobre a qual foi erigida boa parte dos procedimentos
de planejamento estatístico de experimentos. É importante observar, no
entanto, que a Equação (4.28) é rigorosamente válida apenas quando uma
longa série de condições é satisfeita: o modelo é perfeito, os experimentos
são bem-feitos, a função objetivo é dada pela função de mínimos quadrados,
o modelo é linear nos parâmetros, os experimentos são independentes e
os erros experimentais são constantes na região de experimentação.
Finalmente, os parâmetros são usados para fazer previsões com o
modelo em qualquer condição x. Usando a notação matricial, o modelo
pode ser escrito na forma
(4.29)

onde
 f1 (x ) 
 
f (x )
B (x ) =  2  (4.30)
  
 
 f NP (x )

que também estabelece uma relação linear direta entre o valor dos parâ-
metros e a previsão da variável dependente em um ponto qualquer x da

Estimação de Parâmetros 249


PERTENCE AO N O DE O I

região experimental. A matriz B é chamada de matriz de sensibilidades


do modelo em relação aos parâmetros. De forma análoga à realizada
anteriormente,
a>E{(6y')'}=E{Br 4uAu' B}
(4.31)
a'y =BTE{Au AuT} B=BTv• B=(j')' BTM-1 8
que estabelece o vínculo entre os erros de predição, a qualidade dos da-
dos experimentais e o procedimento de estimação de parâmetros. Todas
essas expressões são fundamentais para a perfeita compreensão dos
procedimentos clássicos de planejamento experimental, como discutido
no Volume II desta série de publicações.

Exemplo 4.19 – No problema tratado no Exemplo 4.18, a matriz de


sensibilidades do modelo em relação aos parâmetros é dada por
 x1 
 x 
B (x ) =  2 
 x1 x2 
 
 1 
Repare que a matriz B depende da condição de experimentação
considerada durante os cálculos.

A Equação (4.31) é muito importante para considerações filosóficas


a respeito da propagação de erros e da caracterização da natureza dos
erros cometidos em trabalhos de engenharia. Observe que a Equação
(4.31) vincula os erros dos parâmetros, resultantes do procedimento
de estimação de parâmetros e dos erros experimentais cometidos no
passado, com os erros de predição ou de simulação, que dizem respeito
a experimentos ainda não realizados (ou a serem realizados no futuro).
Portanto, os erros experimentais cometidos nas medições experimentais
passadas se propagam para o futuro indefinidamente, uma vez que os
parâmetros são usados para o projeto de novas unidades e simulações
(extrapolações) de novas condições experimentais. Portanto, parece muito
claro que a correta caracterização dos erros experimentais é fundamental
para a interpretação do desempenho dos modelos de simulação e das
rotinas de projeto, que usarão os parâmetros estimados a partir desses
mesmos dados experimentais em outras situações.

250 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Exemplo 4.20 – Os problemas tratados nos Exemplos 4.15 e 4.16


podem ser analisados no contexto desenvolvido de forma gene-
ralizada para modelos lineares nos parâmetros. Por exemplo, a
reta pode ser escrita como
y m = α1 f1 (x ) + α 2 f 2 (x )

com f1(x) = x e f2(x) = 1. Nesse caso, conforme a Equação (4.17),


a matriz M pode ser escrita como:
 NE e
( ) ∑ (x )
NE

 ∑ xi
2
e
i

M =  NE 
i =1 i =1

 
 ∑ xi
e
( ) NE 
 i =1 

e a sua inversa é
 NE

1  NE −∑ xie  ( )
M =−1  i =1

 NE e 2   NE e 
2
 NE e NE 2
NE  ∑ xi  −  ∑ ( ) ( )xi   −∑ xi ( ) ∑ ( )
xie 
 i =1   i =1   i =1 i =1 

Logo, a variância do parâmetro α1 é dada por


NE
σ 112 = σ y2 2
 NE e 2   NE e 
( )
NE  ∑ xi  −  ∑ xi  ( )
 i =1   i =1 
enquanto a variância do parâmetro α2 é dada por

 NE e 2 
 ∑ xi  ( )
σ 2
=σy
2  i =1 
22 2
 NE e 2   NE e 
( )
NE  ∑ xi  −  ∑ xi  ( )
 i =1   i =1 
É muito curioso observar que os parâmetros α1 e α2 não são
necessariamente independentes, apresentando uma covariância
igual a

Estimação de Parâmetros 251


PERTENCE AO N O DE O I

 NE e 
−  ∑ xi  ( )
σ 12 = σ y
2 2  i =1 
2
 NE e 2   NE e 
( )
NE  ∑ xi  −  ∑ xi  ( )
 i =1   i =1 
e um coeficiente de correlação igual a

 NE e 
−  ∑ xi  ( )
ρ12 =  i =1 
 NE e 2 
NE  ∑ xi  ( )
 i =1 
Isso quer dizer que um parâmetro influencia o outro; ou seja, se
um dos parâmetros mudar um pouco, o outro também muda. Isso
em geral é ruim, pois mistura a importância dos diferentes efeitos
considerados por cada um dos parâmetros do modelo. O ideal
seria obter parâmetros independentes, embora isso raramente
seja possível. A necessidade de obter parâmetros independentes
durante a análise de modelos de simulação é um ponto central
dos procedimentos de planejamento experimental discutidos no
Volume II desta série de publicações.
Com relação ao erro de predição, definido pela Equação (4.31),
pode-se escrever:
σ 2 σ 122   x 
σˆ y2 (x ) = σ y2 B T M −1 B = σ y2 [x 1] 112 2   (
= σ y2 σ 112 x 2 + 2σ 122 x + σ 22
2
)
σ 12 σ 22    1
 NE   NE 2
( )
x 2 NE − 2 x  ∑ xie  +  ∑ xie  ( )
σˆ y2 (x ) = σ y2  i =1   i =1 
2
 NE 2  NE

( )
NE  ∑ xie  −  ∑ xie  ( )
 i =1   i =1 

onde pode ser observado que mesmo para um modelo linear, o


erro de predição é uma função quadrática com relação à condição
experimental x.
É interessante observar nas expressões dos erros apresentadas
acima que os erros paramétricos aumentam sempre com o au-
mento dos erros experimentais, o que já poderia ser esperado, e
diminuem sempre com o aumento do número de experimentos.
Portanto, à medida que o número de experimentos aumenta

252 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

indefinidamente, os erros paramétricos se aproximam continua-


mente de zero.

Exemplo 4.21 – Suponha que um conjunto de dados experimentais


y =  y1e y2e  y NE
e
 está disponível e que se deseja representar
o sistema pelo modelo constante ym = α . Nesse caso, segundo a
Equação (4.17), M = [NE]. Segundo a Equação (4.20), GY = [1 1
... 1]. Portanto, segundo a Equação (4.21)
NE

∑y e
k
α= k =1

NE
Logo, a média amostral pode ser interpretada como a melhor
inferência de um modelo constante para um conjunto de dados,
quando se supõe que o modelo constante é perfeito, os experi-
mentos são bem-feitos, a função objetivo é dada pela função de
mínimos quadrados, os experimentos são independentes e os
erros experimentais são constantes na região de experimentação.
Vê-se, portanto, que o contexto de validade da média amostral
proposta no Capítulo 3 pode ser bastante questionado, em bases
técnicas absolutamente legítimas.

Exemplo 4.22 – Uma pergunta pertinente diz respeito à variância


das diferenças entre os dados experimentais e as predições feitas
com o modelo. Suponha um modelo linear na forma
y = B (x)T α
como discutido nesta seção. Nesse caso, as respostas do modelo
são obtidas na forma
ym = B (x)T M–1 GY Ye
Em particular, a diferença entre os dados experimentais e calcu-
lados no ponto experimental k pode ser dada na forma:
yke − ykm = yke − BkT M -1 G Y Y e
Supondo que o modelo é perfeito e que os experimentos são bem-
feitos, é possível escrever

Estimação de Parâmetros 253


PERTENCE AO N O DE O I

onde µY representa os valores verdadeiros e desconhecidos


das medidas experimentais, por causa do erro experimental ε.
Portanto, µk representa o valor verdadeiro e desconhecido da
e
medida experimental yk . Portanto, a variância entre a medida
experimental e a previsão do modelo no ponto experimental k
pode ser dada por

Vat{J:-.lf} =E{[{>{ -p,)- Jl! )t• Gv <J}=


E{(>{-p.)' -2Jl! ~t·' G, <(J:-p,)+B! M4 G,. u ' G: (M•)' a_}
Se as medidas experimentais são independentes e os erros aos
quais as medidas estão sujeitas são os mesmos,
Var{J:- Jf} =
e{(>~-~. n - 20: M• C,. E{ <V,-p,)}+ U:: ~~· C, E{,.'} C~ (~t ')' u, •
a '-a' 0: M• B, =<r[t-8: ~I'' B,)<a' =E{{yf -p,)'}

onde σ2 é a variância dos erros experimentais. Conclui-se, portan-


to, que a variância das diferenças entre os dados experimentais e
as predições feitas com o modelo é menor que a variância dos erros
experimentais. Assim, se a variância dos erros experimentais for
inferida pela diferença existente entre os dados experimentais e
as predições do modelo, é necessário levar esse fato em conside-
ração, para que não se subestime a variância experimental (ver
Equações 3.7-3.9). De forma semelhante

Portanto, uma inferência consistente da variância experimental


pode ser dada pela equação
NE

∑ (y − ykm )
e 2
k
k =1
s2 =
NE − NP
de maneira que se diz que o sistema perde NP graus de liberdade
quando se estimam NP parâmetros de um modelo. No caso parti-
cular do modelo do Exemplo 4.21, obtém-se a mesma expressão

254 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

definida na Equação (3.7) para a variância amostral, mostrando


a consistência interna da análise efetuada.

4.6. O Método da Máxima Verossimilhança


Apesar de ser bastante útil e permitir a solução de uma série de problemas
práticos, como nos Exemplos 4.15 a 4.22, a função de mínimos quadrados
definida pela Equação (4.12) é bastante limitada porque admite implicita-
mente que todas as variáveis analisadas pertencem a um mesmo conjunto
amostral; ou seja, são medidas de uma mesma variável, obtidas com a
mesma precisão em qualquer condição experimental. Nem uma coisa nem
outra são necessariamente verdadeiras. Por exemplo, durante a análise
de dados de reação, podem ser medidas temperaturas e pressões como
variáveis dependentes. Obviamente, não faz qualquer sentido misturar
os dados de temperatura e pressão, como definido pelas Equações (4.11) e
(4.12). Além disso, os erros de medição de cada uma das variáveis podem
mudar de ponto para ponto em virtude de mudanças de desempenho
dos instrumentos de medida e das técnicas experimentais. É importante
observar que nem todo instrumento tem o desempenho de uma régua,
que fornece um erro de medida aproximadamente constante em toda a
faixa de utilização. Por exemplo, a incerteza de medição de termopares
usados para medir temperaturas costuma aumentar com o aumento da
temperatura. Dessa forma, também não faz sentido juntar as medidas
de temperatura obtidas em condições distintas nas Equações (4.11) e
(4.12). Finalmente, as medidas experimentais não são necessariamente
independentes. Uma medida pode influenciar a outra de maneira direta
(por exemplo, flutuações de temperatura influenciam o desempenho do
medidor de pressão) ou de maneira indireta (flutuações dos níveis de
impureza resultantes de certas corridas experimentais podem afetar os
resultados obtidos nas corridas seguintes). Portanto, é necessária uma
maneira alternativa de formular a função objetivo, que contemple a
possibilidade de levar todos esses fatos em consideração.
Uma maneira bastante comum de se efetuar a estimação de parâme-
tros é fazer uso do método da máxima verossimilhança. O método da
máxima verossimilhança está baseado em pressupostos relativamente
simples e permite a análise de virtualmente qualquer problema expe-
rimental de forma rigorosa, desde que se conheça de forma apropriada
como se comportam os erros de medição na região experimental. Os
pressupostos para construção do método da máxima verossimilhança
são apresentados a seguir.

Estimação de Parâmetros 255


PERTENCE AO N O DE O I

 Pressuposto 1 – Admite-se que as distribuições dos erros experimen-


tais na região de experimentação são conhecidas.
Nesse caso, suponha que a curva de densidade de probabilidades
℘(ze; z, VZ) descreve as probabilidades de se encontrarem as medidas
experimentais ze, dado os valores reais (e desconhecidos) z e uma medida
da variância dos erros experimentais VZ. O vetor z contém as variáveis
independentes e as dependentes; ou seja, zT = [xT yT]. Obviamente, os
desvios εz = (ze – z) são os erros experimentais. Por exemplo, no caso
dos desvios experimentais apresentarem uma distribuição de probabili-
dades normal, tem-se, de acordo com a Equação (2.72), a seguinte curva
de densidade de probabilidade:
 1 
( ) 1
( ) V (z )
T
−1
℘ z e ; z, VZ = exp  − z e − z e
−z 
2π det (VZ )
Z
 2 
(4.32a)
Deve ficar claro que diferentes experimentos podem apresentar dife-
rentes distribuições de erros experimentais, de maneira que a Equação
(4.32a) apenas ilustra um caso, em que as flutuações ocorrem de acordo
com o que prevê a curva de distribuição normal. Por exemplo, se a
distribuição de erros experimentais puder ser descrita por uma distri-
buição exponencial, a curva de densidade de probabilidade dos desvios
experimentais poderia ser descrita na forma:
 ze − z 
(
℘ z e ; z, VZ ) =
1
2α (VZ )
exp  − I I
 α (VZ ) 
(4.32b)

I e
I
onde z - z representa uma norma apropriada dos desvios experi-
mentais e α (VZ) representa um escalar que pondera a magnitude dos
desvios experimentais.
Não é possível escolher qual das duas equações (Equação 4.32a-b) é
melhor para representar os erros experimentais sem que se faça uma
correta caracterização dos erros de medição no laboratório, como discuti-
do no Capítulo 3 (e no Volume II desta série de publicações). Na verdade,
outras funções de distribuição, como aquelas apresentadas no Capítulo 2,
podem também ser usadas para descrever de forma apropriada os erros
experimentais. Assim, as Equações (4.32a-b) são apenas dois exemplos
possíveis de comportamento em um universo virtualmente infinito de
possibilidades.

256 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Freqüentemente os experimentos são realizados de forma indepen-


dente. Nesse caso, a curva de densidade de probabilidades que descreve
o conjunto de observações experimentais pode ser descrita na forma
NE

( )
℘ z ; z, VZ = ∏℘i z ie ; z i , VZi
e
( ) (4.33a)
i=1

que explicita o fato de que a probabilidade conjunta das observações é


resultado da composição das diferentes probabilidades de cada um dos
resultados obtidos. Dessa maneira, as Equações (4.32a-b) podem ser
rescritas na forma:
NE 
  1  
( )
℘ z e ; z, VZ = ∏ 
1
( ) ( )
T
exp  − z ie − z i VZ−i1 z ie − z i  
i =1  2π det (VZi )  2  

(4.33b)

NE   z ie − z i  
(
℘ z e ; z, VZ ) = ∏
1
exp  − I I  (4.33c)
i =1  2α i (VZi )  α i (VZi ) 

Muito freqüentemente, o experimentador consegue controlar com
bastante eficiência a precisão das medidas experimentais independen-
tes xe. Além disso, técnicas de planejamento experimental (ver Volume
II desta série de publicações) podem ser utilizadas para minimizar o
efeito dos erros experimentais das variáveis independentes xe sobre as
medidas das variáveis dependentes ye. Por isso, pode ser conveniente
tratar as variáveis dependentes e independentes de formas distintas.
Admitindo-se que as medições das variáveis independentes não estão
correlacionadas com as medições das variáveis dependentes, chega-se a
uma nova expressão para a curva de densidade de probabilidades:
NE

( ) ( )
℘ z ; z, VZ = ∏ ℘xi xie ; xi , VXi ℘yi y ie ; y i , VYi 
e
( ) (4.34a)
i=1

Estimação de Parâmetros 257


PERTENCE AO N O DE O I

NE 
  1 
( )
℘ z e ; z, VZ = ∏ 
1
( ) V (x )
T
−1
exp  − xie − xi e
− xi  ⋅
i =1  2π det (VXi )
Xi i
  2 

 1  
1
( )V ( )
T
−1
⋅ exp  − y ie − y i y − yi  
e

2π det (VYi )
Yi i
 2  
(4.34b)

NE   xie − xi   y ie − y i  
(
℘ z ; z, VZ
e
) = ∏
1
exp  − I I 
1
exp  − I I 
i =1  2α xi (VXi )  α xi (VXi ) 2α yi (VYi )  yi ( Yi ) 
α V

(4.34c)
Em experimentos realizados sob condições controladas, como geral-
mente acontece em laboratórios de pesquisa, os valores das variáveis
independentes são conhecidos com grande precisão. Nesse caso, parece
razoável considerar que (xe – x) ≈ 0. Admitindo-se como válida essa
hipótese, é possível reescrever as Equações (4.34a-c) na forma:
NE

( ) (
℘ z ; z, VZ = ∏ ℘yi y ie ; y i , VYi 
e
) (4.35a)
i=1

NE 
  1  
( )
℘ z e ; z, VZ = ∏ 
1
( ) ( )
T
exp  − y ie − y i VY−i1 y ie − y i  
i =1  2π det (VYi )  2  

(4.35b)
NE   y ie − y i  
(
℘ z e ; z, VZ ) = ∏
1
exp  − I I  (4.35c)
i =1  2α yi (VYi )  α yi (VYi ) 

Deve ficar claro que em muitos problemas o controle sobre as va-
riáveis independentes não é tão rígido, de maneira que nem sempre é
razoável representar os erros experimentais na forma proposta pelas
Equações (4.35a-c). Em experimentos realizados em unidades pilotos e
unidades industriais, os desvios experimentais nas variáveis indepen-
dentes não podem ser geralmente descartados, como será discutido nas
próximas seções deste capítulo.
Por fim, admitindo-se que todas as medições experimentais podem
ser realizadas de forma independente, a curva de densidade de proba-
bilidades pode ser expressa na forma:

258 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

NE  NX NY
2 

(
℘ z ; z, VZ
e
) (
= ∏ ∏℘xij xije ; xij , σ xij
2
) ∏ ℘yij y e
ij ; yij (
, σ yij  )
i =1  j =1 j =1 
(4.36a)
  ( )     ( )  
2 2
1 xij − xij 1 yij − yij
e e
NE NX
 NY

(
℘ z ; z, VZ
e
) = ∏∏ 
1
exp  −
 2 σ xij

 ∏ 
1
exp  −
 2 σ yij


~ ~
2 2
i =1 j =1  2π σ xij j =1  2π σ yij
2 2
     
(4.36b)
NE  NX  xije − xij   yije − yij  
 NY

( )
℘ z e ; z, VZ = ∏ ∏
1
− I I 1
exp  − I I 
( ) ∏ 2α (σ )
exp  
 ( )
i =1  j =1 2α xij σ xij
2
 α xij σ xij
2
 j =1 yij
2
yij ( )
 α yij σ yij  
2

(4.36c)
ou ainda
NE  NY 
(
℘ z ; z, VZ
e
) (
= ∏ ∏℘yij yije ; yij , σ yij
2
)  (4.36d)
i =1  j =1 
 
 ( )
2
 y e
− y
 
NE NY

(
℘ z e ; z, VZ = ∏∏  ) 1
exp  −
 2
1 ij

σ yij
2
ij


(4.36e)
i =1 j =1  2π σ yij
2
  
NE  NY  yije − yij  

(
℘ z e ; z, VZ = ∏ ∏ ) 1
exp  − I I 
( ) ( )
(4.36f)
i =1  j =1 2α yij σ yij  α yij σ yij  
2 2
 
se as medidas das variáveis independentes não estão sujeitas a erros
experimentais. Nas Equações (4.36a-f), σ xij 2
e σ yij
2
correspondem às
e e
variâncias de cada medição xij e yij .
É importante observar que as diferentes simplificações introduzidas
permitem que a densidade de probabilidades das flutuações experimentais
seja reescrita de formas distintas, como mostrado nas Equações (4.32-4.36),
a depender da natureza dos erros experimentais. A escolha de uma das
muitas formas propostas para a distribuição dos erros experimentais só
é possível depois da caracterização apropriada desses erros. Como visto a
seguir, essa caracterização dos erros é fundamental para a proposição da
técnica de máxima verossimilhança para estimação de parâmetros.

 Pressuposto 2 – Admite-se como válida a hipótese do modelo per-


feito.
Considerando que a natureza das flutuações experimentais é co-
nhecida e que existe um modelo eficiente para descrever as relações

Estimação de Parâmetros 259


PERTENCE AO N O DE O I

existentes entre as diferentes variáveis do problema, pode-se admitir que


os valores reais e desconhecidos de x e y (z) nas Equações (4.32-4.36) são
aqueles previstos pelo modelo. Em outras palavras, se o modelo é capaz
de representar os dados medidos, parece razoável admitir que x = xm e
y = ym (z = zm), onde m denota que o valor é calculado a partir de um
modelo. Fica implícito, assim, que as medidas experimentais flutuam em
torno dos valores previstos pelo modelo, já que se admite que o modelo é
perfeitamente capaz de descrever as relações existentes entre as diversas
variáveis do problema. Esta é certamente uma hipótese bastante forte,
já que nenhum modelo consegue capturar de fato todos os detalhes de
um problema real. Sob outro ponto de vista, no entanto, parece pouco
producente admitir que um usuário queira utilizar um modelo sabida-
mente ruim para representar um problema experimental qualquer.
O modelo pode ser definido genericamente na forma:
ym = f (xm, ) (4.37)
onde f indica as equações do modelo e 0 é o vetor dos parâmetros do
modelo. Como já discutido, admite-se que os valores das variáveis de-
pendentes ym podem ser calculados (de forma explicita ou numérica) a
partir dos valores das variáveis independentes xm e dos parâmetros .
Portanto, o vetor z que contém as variáveis independentes e dependentes
do problema pode ser dado na forma zmT = [xmT ymT] = [xmT fT (xm; 0 )].
Logo, a distribuição dos erros experimentais pode ser redefinida na for-
ma ℘(ze; zm, VZ), onde os valores reais desconhecidos da variável z foram
substituídos pelos valores zm calculados com o auxílio do modelo perfeito.
Dessa maneira, a curva de densidade de probabilidades pode ser escrita
de forma explicitar o fato de que existe um modelo que descreve como
as variáveis dependentes respondem a mudanças das condições experi-
mentais e dos parâmetros. Por exemplo, no problema particular definido
pela Equação (4.36e):

SO ( ze.,z m ,vz)=IJIJ
NE NY { 1 exp [ __!_ (Yye _ Yym ( x;,a))2]} (4.38)
i=l j=l ~21t 0' YIJ
2_ 2 0' yij
2

Portanto, a hipótese do modelo perfeito permite introduzir os parâ-


metros desconhecidos do modelo na função probabilística que descreve
as flutuações experimentais.

 Pressuposto 3 – Admite-se como válida a hipótese do experimento


bem-feito.
Quando os experimentos são conduzidos de forma apropriada, parece
razoável admitir que os valores experimentais obtidos representam ade-

260 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

quadamente a realidade experimental estudada, a despeito das pequenas


e inevitáveis flutuações experimentais. Logo, parece razoável também
admitir que os dados experimentais obtidos são altamente prováveis, uma
vez que não são obtidos de forma aleatória, mas como resultado de um pro-
cesso experimental cuidadoso e reprodutível. Sendo assim, parece também
razoável admitir que a repetição das medidas experimentais conduziria
a resultados experimentais semelhantes, tendo em vista a pertinência e
esmero das observações realizadas. Levada ao extremo, essa argumentação
permite considerar como válida a hipótese de que os dados experimentais
obtidos não apresentam apenas alta probabilidade de ocorrência – são
aqueles que apresentam máxima probabilidade de ocorrência. Portanto,
parece razoável admitir que os pontos experimentais obtidos devem estar
situados na região de máxima probabilidade de ℘(ze; zm, VZ).
A argumentação proposta deposita enorme confiança nas observa-
ções experimentais realizadas. Isso pode ser certamente questionado, já
que medidas experimentais são freqüentemente corrompidas por erros
grosseiros e sistemáticos que não se enquadram na argumentação desen-
volvida no parágrafo anterior. Sob outro ponto de vista, parece também
ser contra-producente acreditar que um experimentador use medidas
experimentais conhecidamente corrompidas para compreender um pro-
blema real. Se o experimento é de fato bem-feito, não parece haver razão
para acreditar que as observações experimentais sejam pouco prováveis
e não representem satisfatoriamente a realidade experimental.
A conseqüência fundamental da hipótese do experimento bem-feito
é a definição do problema de estimação de parâmetros como o problema
de maximização da função ℘(ze; zm, VZ); ou seja, de maximização da pro-
babilidade de encontrar os dados experimentais obtidos, que flutuam de
forma aleatória ao redor das previsões do modelo, segundo a distribuição
conhecida dos erros experimentais. Para que essa tarefa seja possível,
manipulam-se os valores desconhecidos xm e 0. (quase sempre através
de procedimentos numéricos, discutidos no Capítulo 5), que constituem
os parâmetros do problema. Esse problema de estimação de parâmetros
é conhecido como problema de estimação de parâmetros por máxima
verossimilhança.
No caso da distribuição normal definida na Equação (4.38), as variá-
veis independentes xe não estão sujeitas a erro, de maneira que o vetor
xm = xe é conhecido. Para maximizar a Equação (4.38), é conveniente
perceber que o ponto de máximo da distribuição também coincide com
o ponto de máximo do logaritmo dessa função, dado que o ln(℘)é uma
função monotônica crescente de ℘. Por isso, é conveniente escrever

Estimação de Parâmetros 261


PERTENCE AO N O DE O I

(4.39)
Repare que o primeiro termo do somatório do lado direito da equação
é constante e não depende do valor dos parâmetros. Logo, procurar o
ponto de máximo da função acima é o mesmo que procurar o ponto de
máximo da função
lNENY(e- m( ))2
F =-- LL y ij y ij xi' a (4.40)
2 1-
·-1 ]=!
. 02 yij
que equivale a procurar o ponto de mínimo da função
NENY( e_ m( ))2
FOb}= LL yij yij 2 X;,« (4.41)
i=I }=I 0 Y!l..
que é uma métrica para o problema de estimação de parâmetros. A
função acima é usualmente chamada de função de mínimos quadrados
ponderados. Repare que a Equação (4.41) tem um significado estatístico
preciso e profundo, sendo a métrica natural quando os erros experi-
mentais são distribuídos normalmente, não estão correlacionados e
quando as variáveis independentes não estão sujeitas a erro, desde que
as hipóteses de experimentos bem-feitos e modelo perfeito sejam acei-
táveis. Observe que o fator de ponderação é o inverso da variância do
erro de medida nesse caso; logo, quanto maiores os erros experimentais,
maiores também são os desvios aceitos entre as medidas experimentais
e os valores calculados com o modelo. Além disso, a função objetivo da
Equação (4.41) permite misturar diferentes conjuntos de dados, desde
que os erros de medida sejam conhecidos. É curioso observar que a
variância do erro experimental é o fator de normalização natural das
variáveis do problema. Observe ainda que a Equação (4.41) converge
naturalmente para a Equação (4.12), quando os erros de medição são
iguais e constantes em toda a região experimental. Portanto, a função de
mínimos quadrados é também uma função de máxima verossimilhança,
quando os erros são normalmente distribuídos, não estão relacionados,
são constantes e quando as variáveis independentes não estão sujeitas
a erro, desde que as hipóteses de experimentos bem-feitos e modelo
perfeito sejam aceitáveis.
Um dos grandes méritos do método da máxima verossimilhança é
permitir a extensão natural da função objetivo para distintas condições
de experimentação, de acordo com a estrutura da matriz de covariância.

262 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Por exemplo, admitindo agora que os erros são normalmente distribuídos


e independentes, mas que as variáveis independentes também estão
sujeitas a erro, a função objetivo toma a seguinte forma:
  xe − x( )   (
 ye − y )  
2 2
NE
  NX NY

(
℘ z e ; z, VZ ) = ∏ ∏

1 
exp −

ij ij

2σ xij
2
  ∏
1 
exp −

ij

2σ yik
2
ij

  
i =1  j =1 2π σ xij
2
j =1 2π σ yij
2

         
(4.42)
que corresponde à Equação (4.34) após ser introduzida a hipótese de
que todas as medições são feitas de forma independente, de maneira
que as matrizes de covariâncias dos erros experimentais são diagonais.
O ponto de máximo da Equação (4.42) corresponde ao ponto de mínimo
da seguinte expressão (similar à Equação (4.41)):

FObj = L ~(
NE ~
NY
Yye - Yym ( ,a)~ +L (x~ _ x'!!)
2
X;
m.
NX
y y
2

(4.43)
i=l j=l 0' yy.. .
J=l 0' xij
2

que é a métrica natural para o problema com erro também na variável


independente, quando as distribuições de erro são normais e os experi-
mentos não estão correlacionados. Observe que na Equação (4.43) só é
possível calcular o valor verdadeiro de xm se esses valores são incluídos
no conjunto de parâmetros a serem estimados pelo problema. Esse é o
problema normalmente designado de reconciliação de dados, ilustrado
no Exemplo 4.23 e apresentado com mais detalhes no Volume III desta
série de publicações.

Exemplo 4.23 – No problema linear do Exemplo 4.20, admite-se


que as variáveis independentes também estão sujeitas a erros de
medição. Nesse caso, ym = α xm + β
A função de máxima verossimilhança fica na forma

(
 ye − α xm − β ) +( ) 
2 2
NE xie − xim
= ∑
i i
FObj
i =1  σ yi2 σ xi2 
 m

Os valores de α e β e os valores desconhecidos de xi são então
obtidos minimizando-se o valor da função objetivo

Estimação de Parâmetros 263


PERTENCE AO N O DE O I

∂FObj NE
(y − α x
e m
−β ) −x =0
∂α
=∑ 2 i

σ yi2
i
( ) m
i
i =1

∂FObj NE
=∑ 2
(y − α x
e
i
m
i
−β )(−1) = 0
∂β i =1 σ yi2

∂FObj
=2
( e
yi − α xkm − β )(−α )+ 2 ( e
xk − xkm )(−1) = 0
∂xkm σ yk2 σ xk2
,
k = 1...NE
Dessa última equação, é possível concluir que

α yk − β( e
)+ xk
e

σ yk2 σ xk2
= xkm , k = 1...NE
α2 1
+
σ yk2 σ xk2
que pode ser substituído nas duas equações anteriores, permi-
tindo a solução do problema. No entanto, apenas uma solução
numérica é possível, já que não se consegue derivar uma solução
analítica para o problema. Dessa forma, o problema de reconcilia-
ção de dados, mesmo para o caso mais trivial da reta, requer o uso
de rotinas computacionais para resolução adequada do problema.
É conveniente observar na expressão acima que, se os erros de
medida da variável independente vão a zero,

(
α yk − β
e
)+ xk
e
xk
e

σ yk2 σ xk2 σ xk2


k = 1...NE
e
x = m
≈ = xk ,
α2
k
1 1
+
σ yk2 σ xk2 σ xk2
de maneira que o valor calculado coincide com o valor experi-
mental, como admitido anteriormente.

Como discutido na Seção 4.2.2, modelos matemáticos podem ser


classificados como lineares ou não-lineares, dependendo do conjunto de

264 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

variáveis consideradas. Mesmo para um modelo simples, como no caso


de uma reta, é importante avaliar a questão da linearidade. Durante a
estimação de parâmetros, quando as variáveis independentes não estão
sujeitas a erros, o modelo é linear nos parâmetros e a solução do pro-
blema pode ser facilmente obtida. Contudo, durante a reconciliação dos
dados, quando se consideram os erros inerentes às medidas das variáveis
independentes, mesmo uma reta deixa de ser um modelo linear. Nesse
caso, como as variáveis independentes devem ser estimadas em conjunto
com os demais parâmetros do modelo, o problema de estimação ganha
maior complexidade e a solução do problema passa a requerer ferra-
mentas numéricas mais sofisticadas, como observado no Exemplo 4.23.
Para tornar o problema ainda mais envolvente, a maioria absoluta dos
modelos fenomenológicos que representam processos reais é constituída
por modelos não-lineares nos parâmetros. Dessa forma, independente-
mente da natureza das medidas efetuadas nas variáveis independentes,
a solução do problema só pode ser obtida com o auxílio de ferramentas
numéricas, como as que serão discutidas no Capítulo 5.
A seguir (Seção 4.6.1) será discutida a aplicação do método da Máxima
Verossimilhança para a solução de problemas que usam modelos lineares
nos parâmetros e admitem a distribuição normal dos erros experimentais.
Nesses casos, algumas soluções analíticas podem ser derivadas para o
problema, de maneira que a análise estatística dos resultados pode ser
conduzida mais facilmente. Na seção seguinte (Seção 4.6.2) serão con-
siderados alguns modelos não-lineares nos parâmetros, mostrando-se
as dificuldades numéricas existentes para a solução do problema de
estimação, assim como as aproximações usualmente realizadas para
permitir a análise estatística dos resultados finais.

4.6.1 O Método da Máxima Verossimilhança Aplicado a Modelos


Lineares
O procedimento clássico de mínimos quadrados usado para estimação
de parâmetros de modelos lineares (Equações 4.13-31) é reavaliado agora
com o auxílio do procedimento mais geral de máxima verossimilhança,
proposto na seção anterior. Suponha que o modelo, contendo NY respos-
tas, seja definido pelo seguinte conjunto de equações:

Estimação de Parâmetros 265


PERTENCE AO N O DE O I

,VP
y;(u )= :La ,.r.,(x)
p=l
,Vp

y;(x,a) = :La,J!.,(x)
,., (4.44)

,,.
Y.~r(x.a) = :La ,Jvr.,(x)
p=l

O modelo proposto tem NP parâmetros, a T = [α1 α2 ... αNP], associados


a NP.NY funções fi,j(x) que transformam as NX variáveis independentes,
xT = [x1 x2 ... xNX], nas NY variáveis dependentes yT = [y1 y2 ... yNY]. Cada
uma das variáveis independentes e dependentes é medida em cada uma
das NE condições experimentais. A função de máxima verossimilhança,
admitindo-se flutuação normal, medidas independentes de cada variável
e ausência de erro significativo nas variáveis independentes, fica então na
forma da Equação (4.41). A inclusão das equações do modelo na função
objetivo definida na Equação (4.41) leva a:

(4.45)

Os valores de α são obtidos minimizando-se o valor da função objetivo


em relação a cada um de seus componentes, na forma

, k = 1...NP
(4.46)
que resulta no seguinte sistema de equações

""L. a [.\'""""
NP
P
1! j
L.L.
NY
J.p
(x' )f,.t (x')]

z ' ="""" (y'q J•£ (x'),
SB NY
L.L. , ,
- L.NP
k-
p-=l •=I ;=I (Jtj •=I ;=I CJif
(4.47)
Há, portanto, NP equações a resolver e NP incógnitas a determinar,
uma vez que os dados experimentais são conhecidos. A solução analítica
para esse problema pode ser facilmente derivada se a notação matricial
é utilizada. Sejam

266 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

 ∑∑
( ) ( )
 NE NY f j ,1 xie f j ,1 xie NE NY
( ) ( )
f j ,1 xie f j ,2 xie NE NY
( ) ( )
f j ,1 xie f j , NP xie 
 i =1 j =1 σ ij2
∑∑
i =1 j =1 σ 2
 ∑∑
i =1 j =1 σ ij2


ij
 
( ) ( )
e
 NE NY f j ,2 xi f j ,1 xi
e
NE NY
( ) ( )
f j ,2 xie f j ,2 xie NE NY f
( )
e
j ,2 x i ( )
f j , NP xie 
M =  ∑∑ ∑∑  ∑∑ 
 i =1 j =1 σ ij2 i =1 j =1 σ 2
ij i =1 j =1 σ ij2 
     
 
 ∑∑
( ) ( )
 NE NY f j , NP xie f j ,1 xie NE NY
( ) ( )
f j , NP xie f j ,2 xie NE NY f x( )
e
f ( )x e

∑∑  ∑∑
j , NP i j , NP i

 i =1 j =1 σ ij2 i =1 j =1 σ 2
ij i =1 j =1 σ ij
2

(4.48)
e
(
 NE NY yije f j ,1 xie
 ∑∑
( )) 
 i =1 j =1 σ ij2 
 
(
 NE NY yije f j ,2 xie ( )) 
Yf =  ∑∑
 
i =1 j =1 σ ij2  (4.49)
 
  
 NE NY y e f
 ( x( ))
e 

 ∑∑
ij j , NP i

σ ij2 
 i =1 j =1 

então, reescrevendo a Equação (4.47) com a notação matricial, chega-se a


M = Yf ⇒ = M–1 Yf (4.50)

que é uma solução de enorme importância prática para a teoria de es-


timação de parâmetros e planejamento de experimentos, muito similar
à solução obtida anteriormente com a técnica de mínimos quadrados.
Como feito antes, é muito conveniente ainda definir as matrizes

Estimação de Parâmetros 267


PERTENCE AO N O DE O I


( )
 f1,1 x1e  ( ) 
f1, NP x1e
    
 
( )
 f NY ,1 x1
e
( )
 f NY , NP x1e 
 
( )
 f1,1 x 2
e
 ( )
f1, NP xe2 
 
  
T
( )
GY x = 
e
 f

 (4.45)
( )
 NY ,1 2
xe ( )
 f NY , NP xe2

    
 

( )
 f1,1 xeNE ( )
 f1, NP xeNE 

    
 
( ) e
( )
 f NY ,1 x NE  f NY , NP x NE
e

σ 1,1
2
0 0 0 0 0 0 0 0 0 
 
 0  0 0 0 0 0 0 0 0 
 0 0 σ 1,2 NY 0 0 0 0 0 0 0 
 
 0 0 0 σ 2,1
2
0 0 0 0 0 0 
 0 0 0 0  0 0 0 0 0 
Vy =   (4.46)
 0 0 0 0 0 σ 2,2 NY 0 0 0 0 
 0 0 0 0 0 0  0 0 0 
 
 0 0 0 0 0 0 0 σ NE
2
,1 0 0 
 
 0 0 0 0 0 0 0 0  0 
 0 0 0 0 0 0 0 0 0 σ NE
2

, NY 

pois assim é possível escrever a solução diretamente em termos das


variáveis medidas na forma

(4.47)
que indica que existe uma relação linear direta entre a medida expe-
rimental da variável dependente e o valor estimado para o parâmetro
(ver Exemplo 4.22).
Como já dito, suponha que as variáveis independentes não contêm
erros e que toda a flutuação experimental é devida aos erros de medição
das variáveis dependentes Ye. Suponha ainda que dois conjuntos de dados
obtidos em condições análogas são comparados entre si. Nesse caso,

(4.48)

268 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Portanto, os valores dos parâmetros flutuam à medida que flutuam


os valores experimentais obtidos. Se a única fonte de flutuação é o erro
experimental

(4.49)
que relaciona os erros paramétricos com os erros experimentais. Por-
tanto, se os erros flutuam em torno dos valores verdadeiros com média
igual a zero,

(4.50)
os parâmetros também flutuam em torno dos valores verdadeiros, o que
mostra que o procedimento de estimação de parâmetros é consistente.
Isso é muito bom e confere um certo grau de robustez ao procedimento de
estimação de parâmetros proposto. Além disso, a matriz de covariâncias
dos parâmetros pode ser calculada como

·r ,.
V. =M"' G~ V;'E {csT}(v,-•) Gv(M"')
(4.51)
v =M-'GTv-•v (v-•)T G (M"')T
• Y y )y y

V.= M"'G~(v,')' G,(M 'f


Observe que as matrizes M e Vy são simétricas, de maneira que elas
são iguais às suas transpostas. Observe ainda que

(4.52)
Nesse caso, a matriz de covariâncias dos parâmetros ganha a forma
bastante simples
(4.53)
que é utilizada para a interpretação e solução de um grande número
de problemas práticos. Como na Equação (4.28), observe que os erros
paramétricos dependem tanto da estrutura do modelo quanto dos da-
dos experimentais disponíveis, já que tanto o modelo quanto os dados
experimentais precisam ser definidos para que seja possível calcular a
matriz M. Portanto, cada modelo e cada conjunto de dados experimen-
tais resulta em um conjunto distinto de incertezas paramétricas, logo,

Estimação de Parâmetros 269


PERTENCE AO N O DE O I

não é possível avaliar a estrutura das incertezas paramétricas de forma


arbitrária e isolada do contexto de estimação considerado.
Finalmente, os parâmetros são usados para fazer previsões com o
modelo em qualquer condição x. Usando a notação matricial, o modelo
pode ser escrito na forma
y" (x,a): B(x)a (4.54)

onde
J,,,(x) J,,(x) /,_,.~ (x)
,f, , (x) f :: (:r) /,,.,. (x)
B(x)= ... ... (4.55)

f vr.• (x} / ,.,.-' (x) / ,,,,,. {x)

que também estabelece uma relação linear direta entre o valor dos parâ-
metros e a previsão da variável dependente em um ponto qualquer x da
região experimental. De forma análoga à realizada anteriormente,
V, = E{AyAyT} = E{ BA<u\aTBT}
(4.56)
·,= BE{ aAaT}BT= BV. BT= BM-'BT

onde V ˆ e a matriz de covariância dos erros de predição, que estabelece


y
o vínculo entre os erros de predição, a qualidade dos dados experimentais
e o procedimento de estimação de parâmetros. Observe que a Equação
(4.56) leva em consideração somente o erro relacionado ao modelo, sendo
necessário somar à esta equação a matriz de covariância experimental.
Como acima, todas essas expressões são fundamentais para a perfeita
compreensão dos procedimentos clássicos de planejamento experimen-
tal, como será discutido no Volume II desta série de publicações.

4.6.2 O Método da Máxima Verossimilhança Aplicado a Modelos


Não-Lineares
Considerando um problema mais geral, suponha que o modelo não-linear
contendo NY respostas, seja definido pelo seguinte conjunto de equações:
>•(x,«)=j,(x. a)
y:' {x,u): /, (x.a)
(4.57)

270 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Este modelo tem NP parâmetros, (I T = [α1 α2 ... αNP], associados a NY


funções não-lineares fj(x) que transformam as NX variáveis independen-
tes, xT = [x1 x2 ... xNX], nas NY variáveis dependentes yT = [y1 y2 ... yNY]. Cada
uma das variáveis independentes e dependentes é medida em cada uma
das NE condições experimentais. A princípio, qualquer forma da função
de máxima verossimilhança pode ser usada para a análise proposta nas
seções subseqüentes, seja como uma maximização da função ℘ (ze; zm,
VZ) ou como uma minimização da função FObj.
Admitindo-se flutuação normal, medidas independentes de cada
variável e ausência de erro significativo nas variáveis independentes,
a função de máxima verossimilhança fica então na forma da Equação
(4.41) (embora pudesse ser qualquer outra). A inclusão das equações do
modelo na função objetivo da Equação (4.41) leva a:

(4.58)

Quando os erros nas variáveis independentes não podem ser despreza-


dos, a função objetivo deve levar em consideração estes desvios, podendo
ser então escrita na forma da Equação (4.43), como mostrado abaixo:

F.
Obj-
_ ~ ~ (y~ - ~ (x~, a)
£.J£.J
J+ LL (x~ _xm )
NE NX
ik ik
2

(4.59)
i=l j=l 0' !]~ i=l k=l 0' ik
2

Observe que na Equação (4.58) as funções fj são funções dos valores


experimentais das variáveis independentes xe e dos parâmetros α que estão
sendo estimados. Uma vez medidos, os dados experimentais são fixos e,
assim, a função objetivo (Equação 4.58) depende somente dos parâmetros
que estão sendo estimados. Como o número de variáveis experimentais
que estão sendo previstas pelo modelo é igual a NE.NY e o número de va-
riáveis que estão sendo calculadas para a minimização da função objetivo
é igual a NP (lembre que as variáveis independentes estão fixas nos valores
experimentais), o número de graus de liberdade é definido como:
GL = NE.NY − NP (4.60)

Já na Equação (4.59) as funções fj são funções dos valores estimados


das variáveis independentes xm e dos parâmetros α, que também estão
sendo estimados. Neste caso, a função objetivo (Equação 4.59) depende
das variáveis independentes e dos parâmetros que estão sendo estimados.
Com relação ao número de graus de liberdade, o número de variáveis
experimentais que estão sendo previstas pelo modelo é igual a NE.NY

Estimação de Parâmetros 271


PERTENCE AO N O DE O I

+ NE.NX e o número de variáveis que estão sendo calculadas para a


minimização da função objetivo é igual a NE.NX + NP, de forma que o
número de graus de liberdade é:
GL = NE.NY + NE.NX − NE.NX − NP
(4.61)
GL = NE.NY − NP
Assim, o número de graus de liberdade é o mesmo para os dois casos
(estimação e reconciliação), apesar do número de variáveis estimadas ser
maior no caso da reconciliação.
Considere a função objetivo definida na Equação (4.58). A minimização
da função objetivo, nesse caso, deve satisfazer as seguintes equações:

,
(4.62a)

 ∂FObj 
 
 ∂α1  0 
 ∂FObj   
  0
∇á FObj =  ∂α 2  =   = 0 (4.62b)
 
    
  0

 Obj 
F
 ∂α 
 NP 
ou seja, o vetor gradiente da função objetivo em relação aos parâmetros
do modelo deve ser nulo.
Quando as variáveis independentes estão também sujeitas a erros, a
função objetivo considerada é aquela definida na Equação (4.59). Nesse
caso, como as variáveis independentes devem ser estimadas simulta-
neamente com os demais parâmetros do modelo, o vetor gradiente da
função objetivo em relação às variáveis independentes também deve
ser nulo, isto é:
i =L..NE
,
k =I...NX
(4.63a)

272 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

 ∂FObj 
 
 ∂x11  0
 ∂FObj   
  0
∇ x FObj =  ∂x12  =   = 0 (4.63b)
       
  0 
 ∂FObj 
 ∂x 
 NE , NX 
Deve ser observado que o segundo termo do lado direito da Equação
(4.59) não depende dos parâmetros α, de forma que os vetores gradientes
em relação aos parâmetros α das funções objetivos definidas nas Equações
(4.58) e (4.59) são semelhantes. Apenas deve-se usar os valores de xm ao invés
de xe para o cálculo das funções fj, no caso em que as variáveis independentes
estão sujeitas a erros experimentais que não podem ser desprezados.

Exemplo 4.24 – Considere o modelo não-linear definido pelas


equações:

y1 = α1x12 + x2α2 y2 = α1α2x1x2


Utilizando-se a função de mínimos quadrados ponderados para
análise do problema, na forma definida pela Equação (4.41) para
o caso de estimação e pela Equação (4.43) para o caso de reconci-
liação, o gradiente da função objetivo com relação aos parâmetros
α1 e α1 pode ser definido pelas seguintes equações:
∂FObj (
NE  y e − α x 2 − x 2
α
) − x  +  (y e
− α1α 2 xi ,1 xi ,2 ) −α x 
∂α1
= 2∑ 
i ,1 1 i ,1

σ i2,1
i ,2
( )  2
i ,1
i ,2

σ i2,2
( x
2 i ,1 i ,2 )=0

i =1 
  
∂FObj (
NE  y e − α x 2 − x 2
α
) −x (
  yie,2 − α1α 2 xi ,1 xi ,2 ) 
∂α 2
= 2∑ 
i =1 
i ,1 1 i ,1

σ i2,1
i ,2
( α2
i ,2 )
ln (xi ,2 )  + 
  σ i2,2
(−α1 xi,1 xi,2 ) = 0


Observe que não é possível obter uma solução analítica para os


valores dos parâmetros a partir das duas equações acima, sendo
necessária a utilização de um método numérico específico para
esse fim. Quando são consideradas as variáveis independentes,
as seguintes equações devem ser adicionadas ao problema:

Estimação de Parâmetros 273


PERTENCE AO N O DE O I

∂FObj (
 yie,1 − α1 xi2,1 − xiα,22 ) −2α x (y
e
− α1α 2 xi ,1 xi ,2 ) −α α x (x
e
)
− xi ,1 
∂xi ,1
= 2
σ i2,1
( 1 i ,1 )+ i ,2

σ 2 ( 1 2 i ,2 )− i ,1

σ i2,1 
=0
 i ,2

∂FObj (
 yie,1 − α1 xi2,1 − xiα,22 ) −α x + (y e
− α1α 2 xi ,1 xi ,2 ) −α α x (x e
)
− xi ,2 
∂xi ,2
= 2
σ i2,1
( )
α 2 −1
1 i ,2
i ,2

σ 2 ( 1 2 i ,1 )−
i ,2

σ i2,2
=0
 i ,2


onde i = 1...NE.
Quando somente a estimação dos parâmetros α é considerada,
a solução do problema é equivalente à solução de um sistema
de duas equações algébricas com duas incógnitas. Quando o
problema de reconciliação é considerado, o sistema de equações
algébricas passa a ser constituído por 2.NE + 2 equações e 2.NE
+ 2 incógnitas (2.NE variáveis independentes e 2 parâmetros).
Assim, a dimensão do problema numérico que precisa ser resol-
vido aumenta consideravelmente no problema de reconciliação.
A depender do problema de estimação proposto, a dimensão do
sistema de equações que deve ser resolvido pode ser bastante
elevada.

Além da maior dificuldade computacional associada à obtenção de


uma solução para o problema não-linear de estimação de parâmetros,
uma outra questão relevante que se coloca diz respeito à obtenção das
matrizes de covariância dos parâmetros e dos erros de predição; ou seja,
a como caracterizar estatisticamente a qualidade da solução encontrada.
No caso de modelos não-lineares, não é possível derivar uma solução
analítica similar à Equação (4.47), usada para interpretar as incertezas
paramétricas de modelos lineares.
Para que se compreendam as soluções apresentadas a seguir, é neces-
sário lembrar que a matriz de covariâncias pode ser definida na forma:
  ∆x1∆x1 ∆x1∆x2  ∆x1∆xN  
 
  ∆x2 ∆x1 ∆x2 ∆x2  ∆x2 ∆xN  
V = E ∆x∆xT { } = E 
     
  ∆xN ∆x1 ∆xN ∆x2

 ∆xN ∆xN  

(4.64)
Considerando que os desvios experimentais e paramétricos não são
muito grandes (o que pode não ser uma hipótese muito boa em alguns
problemas!), a matriz de covariância pode ser aproximada com auxílio
da seguinte forma diferencial da equação (4.64):

274 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

{
V = E ∆x ∆xT ≅ E dx dxT } { } (4.65)

Considerando que o modelo é perfeito, como já discutido nas seções


anteriores, o único motivo de não serem observados experimentalmente
os valores preditos pelo modelo é o erro experimental. Assim, dependendo
da existência ou não de desvios experimentais significativos nas variáveis
independentes, podem-se escrever as seguintes equações:
ye =ym {xe ,a )+Ey =f {xe ,a )+Ey (4.66a)
ye = ym {xm +Ex, a )+Ey = f {xm +Ex,a )+Ey (4.66b)

onde ε representa os desvios observados entre os valores experimentais


e os valores preditos pelo modelo, confundidos com os próprios erros
experimentais (uma vez que o modelo é perfeito). Considerando que
as variáveis independentes não estão sujeitas a erros, a aproximação
linear das equações do modelo, válida quando os desvios experimentais
e paramétricos são pequenos, leva a:

(4.67a)

sendo possível escrever:

(4.68a)

De forma similar, se as variáveis independentes estão sujeitas a erros


experimentais

ar (xm' ao ) .da + ar (xm' ao ) E


Y =f
e ( Xm a
•O
) +
da dX X
+E
y
(4.67b)

sendo possível escrever:

(4.68b)

A Equação (4.68) mostra, de forma aproximada, como os desvios entre


os dados experimentais e os preditos pelo modelo variam em função dos
desvios paramétricos e dos erros experimentais.
Por outro lado, o vetor gradiente da função objetivo em relação aos
parâmetros do modelo é nulo quando a função objetivo está no ponto

Estimação de Parâmetros 275


PERTENCE AO N O DE O I

mínimo, como imposto pelo procedimento de minimização executado


durante a estimação de parâmetros. Logo,
(4.69)

Considerando que as variáveis independentes não estão sujeitas


a desvios experimentais significativos, a aproximação linear do vetor
gradiente apresentado na Equação (4.69) pode ser escrita na forma:

VaFObj (y
e
+Ey,X
e -
,a+~a )= VaFObj (y ,x ,a)+
e e a[VaFObjay•(y•,x•,a )] Ey +

+
a[VaFObj (y•,x•,a )] ~a=O
aa
(4.70a)
que descreve como as incertezas experimentais e paramétricas afetam
o cálculo do vetor gradiente da função objetivo nas proximidades dos
valores estimados para os parâmetros do modelo. De forma similar, se
as variáveis independentes estão sujeitas a erros:
e e - e e
VaFObj(y +Ey,X +Ex,a+~a)=VaFObj(y ,x ,a)+
a[VaFObjay•(y•,x•,a )] Ey+
a[VaFObj (y•,x•,a )] a[VaFObj (y• ,x• ,a)]
ax• Ex + aa .6.a = 0
(4.70b)
O zero do lado direito da Equação (4.70a-b) é imposto pelo procedimento
de estimação de parâmetros; ou seja, independentemente de como os dados
experimentais mudem, os novos parâmetros estimados (α + ∆α) sempre
fazem com que o vetor gradiente da função objetivo seja igual a zero. A
Equação (4.70a-b) indica, portanto, como as incertezas experimentais (εX,
εY) provocam mudanças nos valores dos parâmetros (∆α). O primeiro termo
do lado direito da Equação (4.70a-b) é o próprio vetor gradiente da função
objetivo em relação aos parâmetros no ponto considerado. Por definição,
esse gradiente também é nulo, já que os parâmetros são sempre estimados
através da minimização da função objetivo.
A Equação (4.70a-b) sugere a definição das seguintes matrizes:

276 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

()' F;.,
aa,ay;"·"'
()' }•""
G , --
()[V,/·;., (y'. x', u)] -
()y' -

()'J·. ., ifF
()or .,.ay;,
(4.71a)

()'!·;,., ()'F,.., ()'F..,


()a,()x' ila,ih;., aa,cv "'
() I if1- iH ....
G, =
()[V,l-v (y'. •'.u)J- i)a a~.
' aor,a~~ "" aa,ax': . "
ih'
i)'F~ ()' F (j' ,.,..,
<lor .,().r', aa ,.,.o"''x:: aa.,.,ax:'l!"n'"
(4.71b)

;)' /· ()',..
... ;n·,.,
aor aa, aa,<>a,,. aa,aa,
() V, J·;.., {y',x'.u} iJ'F ()'F.01'1
... a'F Oly

H• = ""' i)a,i)a,
- aa.aa, aa.aa,.,.
au
i)'l i)' F. i)' F.
"'l.
<>a,.aa, <>a,,.,.aa, ""
aa,.,.aa,.,.
(4.71c)
de maneira que a Equação (4.70) pode ser escrita na forma
G, t, + H, t::..o = 0 (4.72a)

G, t, + G ~ c, + H, t::..o =o (4.72b)
a depender da existência ou não de erros de medida nas variáveis inde-
pendentes. Observe que a matriz Hα, chamada de matriz Hessiana ou

Estimação de Parâmetros 277


PERTENCE AO N O DE O I

matriz de derivadas segundas, é simétrica (Hα = HαT). Assim, a partir


da Equação (4.72) é possível obter uma expressão que mostra como os
desvios experimentais se propagam até os parâmetros, na forma:
(4.73a)

(4.73b)
Inserindo a Equação (4.73) na Equação (4.65), chega-se finalmente a:

V,. =E{6a6aT}=E{(-H:' G1 e,)(-A~' G1 eJ }


V,. =E{H:' G, t 1, t~ G~ H~' }= H~' G,. E{ t,. t~} G~ a:
v. = H: ' Gv Vv G ~ H:'
(4.74a)
ou, de forma análoga

V, =E{11o Act" }= E{(- H;' [G,. t, +G, txJ}(- H;' [Gv t, + G, t,J}'}
v. =": [c, v,. c:. +2 c, v" c; + G, v, cU H;'
v, = u:' [c v. I.u:' en
(4.74b)
onde VX, VY e VXY são as matrizes de covariâncias dos desvios experi-
mentais nas variáveis independentes, dependentes e das covariâncias
entre elas. Se as medidas experimentais das variáveis independentes e
dependentes não estão correlacionadas entre si, a Equação (4.74b) ganha
a forma particular

(4.74c)
As Equações (4.74a-c) mostram de forma explícita como a incerteza
experimental se transforma em incerteza nos parâmetros, através da
função objetivo e do modelo utilizados (cujas derivadas estão em Hα, GY
e GX), durante o procedimento de estimação de parâmetros. A validade
das Equações (4.70-74) pressupõe que os erros experimentais e paramé-
tricos são pequenos.

Exemplo 4.25 – No problema linear do Exemplo 4.23, admite-se


que as variáveis independentes estão sujeitas a erros de medição e
que as medidas são obtidas de forma independente. Nesse caso,

278 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

ym = α xm + β
A função de máxima verossimilhança fica na forma

(
 ye − α xm − β ) +( ) 
2 2
NE xie − xim
= ∑
i i
FObj
i =1  σ yi2 σ xi2 
 
O vetor gradiente da função objetivo fica então na forma

 (
NE  y − α x − β
2∑ 
e m
− xim   )( )
 ∂FObj   
i i

   i =1  σ 2
 
∂ α   yi
 
 
 ∂FObj  
 2∑ 
(
NE  y − α x − β (−1)
e
i
m
i



)
 ∂β 
   i =1  σ 2
 
  yi

∇FObj =  ∂FObj  = 
 m 
∂x  2
(
y1 − α x1 − β (−α )
e m
)
+2
x1 − x1 (−1) 
e m


( )
 1  σ σ
 
2 2
   y1 x1

   

 ∂FObj   
 xNE − xNE (−1)
 ∂x m 
 NE   2 (
y NE − α xNE − β (−α )
e m
)
+2
e m
 ( )
 σ yNE
2
σ xNE
2 
 
As matrizes Hα, GX e GY podem então ser calculadas como
a~ Fof.J oll~litJ a~ F,!h., a~ F,lty
d(X;: aa dj} aa: ri.r~ flo: dY~F
a~ Froy (),! Fr~~tJ ifF.t.tfy ?i-F.Oly
d(X dji' arf r>(J a:r;.. ap ar.~·.r;
8
•=
a'F;~) J=
[ aa, r>·F,!hf d1F;-/{IJ ifJF0~y a~F
()Ty

iJa Jx1"' iJ{J Jxt a(x )= dX L"' JX .'.'K


..,
1" '

(};:R:J...
I
~ l FCJioJ
11 ciF.~ cf·FOfy
aa dJ':::n d{J dx; . i1xt i.ax"'r; a(-~.~ t

Estimação de Parâmetros 279


PERTENCE AO N O DE O I

't")']
~r. -
c:. :f[1D]
·~ cr,.
z-lJ~ -ax,· -/3)+ett;" .. ..1 -(.1~, -c.tt:. -~)+u<.
"~·
11J ,..

z![(•.: ]]
I 6 ,.
-~ [ I-t ]
-~L
"...
..
1' (1

01,,
l.E._
rrJ
.
n.= '] - (1~ -«~.. - ~)+ll'~, ul I
1~ ,_+"'-
- <i a-, -cr - - 0
" a;, ..
fJ~r - rn:.... fJ) 1 ar;~
p O: ;a
,~
• cr; ~ D
.... IZ ~
---.:;-.-
a~. "':
., I

 ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 


  
 ∂α ∂x1 ∂α ∂x2e ∂α ∂xNE
e e

 ∂2 F ∂ 2 FObj ∂ FObj 
2
 Obj
 
 ∂β ∂x1e ∂β ∂x2e ∂β ∂xNEe

 ∂ FObj  
2

GX =  e 
=  ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 
 ∂α i ∂x j   m e  
∂x ∂x1 ∂x1m ∂x2e ∂x1m ∂xNE e
 1 
     
 2 
 ∂ FObj ∂ 2 FObj

∂ 2 FObj 
 ∂x m ∂x e ∂xNE
m
∂x2e ∂xNE
m
∂xNEe 
 NE 1 

 0 0   0
 0 0   0
 
 2 
− 0  0 
G X =  σ x21 
     
 
 0 2 
0  − 2
 σ xNE 

280 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

 ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 


  
 ∂α ∂y1 ∂α ∂y2e ∂α ∂y NE
e e

 ∂2 F ∂ 2 FObj ∂ FObj 
2
 Obj
 
 ∂β ∂y1e ∂β ∂y2e ∂β ∂y NE 
e
 ∂ FObj  
2

GY =  e 
=  ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 
 ∂α i ∂y j   m e  
∂x ∂y1 ∂x1m ∂y2e ∂x1m ∂y NEe
 1 
     
 2 
 ∂ FObj ∂ 2 FObj

∂ 2 FObj 
 ∂x m ∂y e ∂xNE
m
∂y2e ∂xNE
m e 
∂y NE
 NE 1 

 − x1m
2
( ) 2 (− x ) m
2
 2
(− x )

m
NE

 σ y1 σ y22 σ yNE
2 2

 
 2 (− 1) 2
(− 1) 
(
2 2
− 1) 
 σ2 σ 2
σ yNE 
 y1 y2

G Y =  (− α ) 
2 2 0  0 
 σ y1 
     
 


(− α ) 
 0 0 2 2 
 σ yNE 

Considerando que não há erro nas variáveis independentes x, a


função objetivo fica na forma:

(
 y e − α xe − β ) 
2
NE
= ∑
i i
FObj
i =1  σ yi2 
 
O vetor gradiente da função objetivo fica então na forma

Estimação de Parâmetros 281


PERTENCE AO N O DE O I

(
 NE  yie − α xie − β − xie  
 ∂FObj   2∑  
)( )
   i =1  σ yi2
 
∂α 
∇FObj = = 

 ∂β   2∑  i
e
(
 Obj   NE  y − α x − β (−1) 
F e
i
 
)
   i =1  σ yi2
 
  
de maneira que as matrizes Hα e GY podem ser calculadas como

a2Fobj a2Fobj
aa a~ a~
2

2~
i=l
(x:j
a 2~[~?]
yi
H0 =

2~[ ~~)] 2~[ 01~]


 ∂ 2 FObj ∂ 2 FObj ∂ 2 FObj 
  e 
 ∂ 2 FObj   ∂α ∂y1e ∂α ∂y2e ∂α ∂y NE 
GY =  e 
=
∂α ∂  2 ∂ FObj 
 i j   ∂ FObj ∂ 2 FObj 2
y
 
 ∂β ∂y1e ∂β ∂y2e ∂β ∂y NE 
e

 − x1e
2 2
( ) 2 (− x ) e
2
 2
(− x )

e
NE

 σ y1 σ y22 σ yNE
2

GY =  
 2 (− 1) 2
(− 1) 
(− 1) 
2 2
 σ2 σ 2
σ yNE 
 y1 y2

282 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Nesse caso, de acordo com a Equação (4.74), é possível escrever


- NE -
NE X2

4 L ----T 4L X~
G V GT = ai
i=t i=t ai = 2H
Y Y Y NEX NE 1 a

4L~ 4 L-2
- i=t a i i=t a i
-

va = H-a1 G v Y Y
G TY H-a1 = 2 H-a1 =
- NE NE -

1
L~
a
i=I i
-LX~
i=t ai

[(~ x: r~-1 J-l~ 3_J J _~X~a


2 NE x2
£.J 2 £.J 2 £.J 2 i=l i
L----T
a
i=t i
i=l a i i=l a i i=l a; - -

No caso particular em que os erros experimentais são constantes,


a expressão pode ser reduzida a
r

i=l -

já apresentada anteriormente no Exemplo 4.20 e obtida através


de outro tipo de argumentação. Isso mostra claramente a consis-
tência da discussão e das equações apresentadas.

Uma aproximação muito usada para a estimação de parâmetros de


modelos não-lineares é a aproximação de Gauss. Quando a função objetivo
é definida na seguinte forma:

( ) V (y )
T
−1
FObj = y e − y m y
e
− ym (4.75)

os elementos [hr,s]da matriz Hessiana (definida na Equação (4.72)) podem


ser escritos como:

Estimação de Parâmetros 283


PERTENCE AO N O DE O I

T T
∂ 2 FObj  ∂y m  −1  ∂y m   ∂ 2 y m  −1 e
hr , s =
∂α r ∂α s
= 2
∂α
 Vy   − 2  Vy y − y
m
( )
 r  ∂α s   ∂α r ∂α s 
(4.76)
Admitindo-se que a diferença entre os valores experimentais e os cal-
culados pelo modelo são pequenos e flutuam aleatoriamente ao redor do
valor zero, conforme as hipóteses do modelo perfeito e do experimento
bem-feito, o segundo termo do lado direito da Equação (4.76) pode ser
desprezado. Nesse caso, a matriz Hessiana pode ser aproximada por:

(4.77)

onde B é a matriz de sensitividades, definida como:

B=[~:]= (4.78)

ay~ ay~ ay~


aal aa2 aaNP
De acordo com a Equação (4.71), GY pode ser calculado como:

(4.79)

de maneira que o termo G Y Vy G TY que aparece na Equação (4.74) fica


reduzido a:
(4.80)

Assim, a matriz de covariâncias dos parâmetros pode ser reescrita


como
(4.81)
A Equação (4.81) é freqüentemente usada para interpretar as incerte-
zas paramétricas, embora só seja rigorosamente válida quando a função
objetivo tem a forma da Equação (4.75). Usando finalmente a Equação
(4.77), que define a matriz Hessiana após a aproximação de Gauss, a
matriz de covariâncias dos parâmetros fica na forma

284 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

(4.82)

A Equação (4.82) é usada com muita freqüência para a interpretação


de incertezas paramétricas, mas deve ficar claro que ela representa um
conjunto muito restrito de condições. Por outro lado, esta forma da matriz
de covariâncias dos parâmetros é muito útil, já que para seu cálculo são
necessárias somente as derivadas primeiras das respostas do modelo
com relação aos parâmetros. Além disso, deve ser observado que para
modelos lineares nos parâmetros, o termo desprezado da Equação (4.76)
é nulo, de modo que a Equação (4.82) se torna exata.

Exemplo 4.26 – Considerando o modelo definido como: ym = eαx e


considerando que não há erros nas variáveis independentes x, a
função de máxima verossimilhança pode ser definida na forma

(y )
2
α xie
NE
e
−e
FObj = ∑
i

i =1 σ yi2
O gradiente da função objetivo fica então na forma

∂FObj
( )( )
NE
2  e α xie
=∑ − xie eα xi 
e
yi − e
∂α i =1 σ yi
2
 
A matriz Hessiana Hα (que neste caso especifico tem dimensão
1x1) pode então ser calculada como

A matriz de covariâncias dos parâmetros é definida na Equação


(4.81):

Utilizando agora a aproximação de Gauss, a matriz de covariân-


cias dos parâmetros pode ser representada como mostrado na
Equação (4.82):

Estimação de Parâmetros 285


PERTENCE AO N O DE O I

_, ily,
a;. 0 0 ila
a_v:
il;~· ]
0
v =[o'v-'o]""' = [!!!:..
• 1 ()(t 0
C1.:.:
ila

0 0 a~E dy,. .,.,.


ila
_, s e ("'t) -1
a;.- 0 0
0 a;~

0
'
. . .,J~·~)
v• = (x.(•~~• .Y iull
1 .'(w/(U.·..,)J

0 0 a;",.s XwrtC(~I

Pode ser observado que a diferença entre as matrizes de covariân-


cias das incertezas paramétricas obtidas com as Equações (4.81)
e (4.82) é justamente o termo que contém a soma dos resíduos
( )
yie − eα x . Segundo a aproximação de Gauss, baseada nas hipó-
e
i

teses do experimento bem-feito e do modelo perfeito, esse termo


tende a zero e pode, assim, ser desprezado.

É interessante observar como os desvios paramétricos estão corre-


lacionados com os desvios experimentais, na forma:

Covar(L\a ,€v) = E{L\a €n = E {(-H:' (G v€v + Gx€x l)(s;,)}


Covar(t.a,ev) = E{ - R;' [ G veve·~ + G xexen }

Covar(L\a,ev) = -H:'[ GvE{even+ Jc,E{e,en


Covar (L\a, Ey) =- a : 'G v v, - a :'G Xv,,
(4.83a)

286 Análise de Dados Experimentais - Volume I


PERTENCE AO N O DE O I

Covar{Ao,ex) =E {Aoen = E {(-n:' [G,.e,. +Gxe,:]}(e~)}


Covar(Aa, c, ) = E{ - H;' [ Gvc, c~ + Gx&xcn }
Covar(Aa, e,.) = - H:' [ G ,.E{e,.e~ }+ ]GxE{ &x&~ }
Covar(Ao,e,.) = - H: 'Gv V"- n : 'GxV,

(4.83b)
Quando os erros nas variáveis independentes são pequenos e podem
ser desprezados, a Equação (4.83a) fica:

covar(Aa, c,,) =E{Aa2n =E{(- a :'G,.c,.)(en}


Covar(Aa,£,,) = E{-H;' G ,.e,.t·~}
(4.83c)
Covar( Aa,&,.) =-,W.'G,.E {&v&~}
Covar(Aa,&,.) =-W.'G,. V,.

De forma semelhante, é possível mostrar que:

Covar ( c,.,Ao ) = Covar ( Aa,&,. ) 1. = ( -H.-1 GY_, )T = -V,G TU:I


(4.84)
Estes resultados mostram que os erros paramétricos e os erros
experimentais não são independentes. Essa noção de dependência
é fundamental para a correta compreensão dos procedimentos de
planejamento experimental e interpretação de resultados. As dis-
tribuições de erros paramétricos dependem de forma complexa das
distribuições dos erros experimentais, de maneira que diferentes
incertezas paramétricas são obtidas para cada conjunto característico
de dados experimentais.

Exemplo 4.27 – Na segunda parte do Exemplo 4.25 foram cal-


culadas as matrizes Hα e GY, admitindo-se que as variáveis inde-
pendentes não estão sujeitas a erros de medição. Nesse caso, a
covariância entre os erros paramétricos e os erros experimentais
podem ser calculadas como:

Estimação de Parâmetros