Вы находитесь на странице: 1из 14

Mentiras, Mentiras do Caraas, e Estatstica

Dinis Pestana

Universidade de Lisboa, Departamento Estatstica e Investigao Operacional
CEAUL Centro de Estatstica e Aplicaes da Universidade de Lisboa
1

CFCUL Centro de Filosofia das Cincias da Universidade de Lisboa
Instituto de Investigao Cientfica Bento da Rocha Cabral





"Dantes no havia Estatstica, tinham que se contentar
com mentiras."
Stephen Leacock

"!" $%& '()'*)+ ,--,- .+.(-& /*, ,0,- 1(23,--+4#"
$# %&'()





Pode um livro sobre Estatstica tornar-se um best-seller? Sem dvida,
Como Mentir com Estatstica tornou-se quase de imediato um xito de
vendas (sendo, porventura, a excepo que confirma a regra). Muitos
factores explicam esse fenmeno: um ttulo apelativo, ilustraes
humorsticas muito bem escolhidas (e estrategicamente mais abundantes nos
primeiros captulos), exemplos quase sempre referindo questes amplamente
divulgadas nos meios de comunicao social, um perfume a escndalo
uma disciplina considerada cientfica afinal constantemente usada para
enganar o pblico , pouco volume, e escrita quase terra-a-terra, de uma
simplicidade e clareza notveis. E, por outro lado, as instituies cientficas

*
A investigao do autor financiada por fundos nacionais atravs da FCT Fundao
para a Cincia e a Tecnologia, projecto PEst-OE/MAT/UI0006/2011.

de Estatstica elogiaram a obra, sendo assim respeitvel e sria, mesmo
quando faz sorrir (frequentemente!).
Mais de meio sculo volvido sobre a data de publicao, continua a
ser um livro cheio de ensinamentos teis, numa roupagem divertida. No
admira por isso que a prestigiada revista Statistical Science tenha dedicado
um fascculo do volume de 2005 a comemorar o cinquentenrio da primeira
edio, com uma coleo de artigos
2
cuja leitura ser menos amena do que a
de Como Mentir com Estatstic, mas que vale a pena serem lidos, pois
claramente demonstram que usar Estatstica continua a ser, frequentemente,
abusar da Estatstica.
Uma parte substancial do livro denuncia que muita divulgao de
factos e concluses, envolvendo-se em roupagem respeitvel de cincia (e
em particular usando a Estatstica para conferir uma aparncia de rigor) usa
maus dados.
O primeiro captulo que continua actual, e porventura o mais til,
por ir ao cerne de muita fraude feita com uma aparente
respeitabilidadeestatstica discute detalhadamente as implicaes de
erros de amostragem, nomeadamente os que se devem a amostras que no
so representativas comentando tambm que mesmo operaes de
amostragem planeadas com rigor facilmente se afastam do padro de
excelncia que pretendem, indo as causas de tal acontecer de simples
interveno do acaso a m prtica de agentes amostrais ou a tendncia de os
entrevistados fornecerem respostas corretas em vez de verdadeiras.
3


+
Darrell Huff e Cinquenta Anos de Como Mentir com Estatstica (J. M. Steele).
Mentiras, Clculos e Construes: Para Alm de Como Mentir com Estatstica (J. Best).
Mentir com Mapas (M. Monmonier).
Como Confundir com Estatstica, ou: O Uso e Abuso de Probabilidades Concicionais (W.
Krmer and G. Gigerenzer).
Como Mentir com Maus Dados (R. D. De Veaux and D. J. Hand).
Como Acusar Outro Tipo de Mentir com Estatstica (C. Murray).
Efedra (S. C. Morton).
Em Busca do Lao Mgico: A Verdade sobre o Detetor de Mentiras (S. E. Fienberg and P.
C. Stern).
,
Huff usa, entre outros, um exemplo que na altura era um caso clebre, comentando a
recolha de dados dos dois volumes sobre comportamento sexual masculino e feminino
elaborado pela equipa liderada por Kinsey

(Kinsey, A. C., Pomeroy, W. B., and Martin, C.
E. (1948). Sexual Behavior in the Human Male, Saunders, Philadelphia; e Kinsey, A. A.,
Pomeroy, W. B., Martin, C. E, and Gebhard, P. (1953) Sexual Behavior in the Human
Female, Philadelphia: Saunders.), que tambm, contra todas as expectativas, foi um
escandaloso xito de vendas (o recente filme sobre o Relatrio Kinsey ecoa parte da
polmica que esses livros geraram). Penso que interessante comentar dois factos:
O segundo captulo (Interviewing) do volume sobre comportamento sexual
masculino (que foi o primeiro publicado) discute amplamente questes de amostragem e de
conduo de entrevistas, e contm muitas observaes judiciosas e teis; os captulos 3
(Statistical Problems) e 4 (Validity of the Data) so tambm uma interessante documental,
leitura recomendvel para quem queira investigar questes sociais.
Devido polmica que esta investigao gerou, foi solicitado um parecer sobre a
propriedade de uso de metodologias estatsticas American Statistical Association, que
entregou esse trabalho a trs dos mais proeminentes estatsticos de sempre, Cochran,
Mosteller e Tukey. O relatrio que prepararam

(Cochran, W. G., Mosteller, F., and Tukey, J.
W. (1954). Statistical Problems of the Kinsey Report, American Statistical Association,
Washington actualmente difcil de obter na ntegra, sendo no entanto facilmente acessvel
o texto de concluses e um dos apndices tcnicos, sobre princpios de amostragem que
foram ambos publicados no Journal of the American Statistical Association,
Por outro lado, muitas vezes as informaes destinam-se a proteger
interesses de quem as d, em vez de pretenderem agradar a quem as ouve.
H muitos anos (andava eu nos meus 18 anos, e estava longe de pensar em
Estatstica) li no Dirio de Notcias a deliciosa histria de uma prostituta de
Viena que aceitou uma bem intencionada boleia, mas quando se dirigiam ao
local onde recompensaria o motorista de to gentil comportamento, tiveram
um acidente, que levaram a senhora ao internamento hospitalar durante
alguns dias. E no que a ingrata levou o solcito condutor a tribunal,
exigindo desmedida indemnizao por perdas no exerccio da actividade,
estimada a valores de artigo de luxo! E ganhou, e ficou a rir-se, mas no
muito tempo, porque as autoridades fiscais austracas depressa lhe enviaram
uma intimao para pagar impostos, com multas e coimas devidas ao no ter
declarado o incio de actividade e pago os correspondentes impostos,
baseando-se na estimativa que ela tinha apresentado a tribunal. Esta
historieta ilustra bem que numa questo aparentemente trivial o interessado
muda de interesses conforme as circunstncias, e se num casos exagera os
seu proventos, noutros (e especialmente nos contactos com o fisco) h uma
enorme tentao de os depreciar.
Amostragem inadequada frtil hmus para o crescimento de cincia
da treta. Se eu disser que pedi a dois colaboradores que entrevistassem 200
cidados interrogando-os sobre como iriam votar no referendo sobre
liberalizao da lei sobre interrupo voluntria da gravidez que na altura ia
ocorrer, e que um deles reportou que 99.5% eram favorveis alterao
legislativa, e o outro que apenas 11% tinham declarado ser favorveis a essa
alterao, a Estatstica parece muito pouco fivel; mas se juntar que os
primeiros foram entrevistados num jantar de homenagem Dr Odete Santos
(uma deputada que se envolveu fortemente na campanha a favor da
liberalizao da lei), e que a segunda "amostra" foi recolhida sada da
missa no Mosteiro dos Jernimos, facilmente se percebe que no a
Estatstica que pouco fivel, quem tomou a deciso de recolher essas
amostras enviesadas, em sentidos opostos, que est a usar mal Estatstica.
H muitos anos dei-me ao trabalho de coleccionar pequenas notcias
na revista Expresso, sobre "progressos " na Cincia, numa seco intitulada
"Antes do Tempo", se no me falha a memria. A maior parte dessas
notcias seguia o tipo de matriz
Uma equipa da universidade de ... pediu a 46
voluntrios que usassem a mesma roupa durante 24
horas, e que ao tir-la a colocassem num saco de
plstico hermeticamente fechado. O saco era depois
dado a cheirar a cada um dos outros 45 indivduos,
pedindo-se que cada um deles classificasse o cheiro
de 0 (abominvel) a 10 (agradvel, inebriante,
despertando todos os desejos, masmo os mais
secretos e inconfessveis), concluindo-se que ...
Este tipo de estudos (cincia da treta, como muito bem so cada vez mais
frequentemente qualificados) enferma de vrios males, nomeadamente o

respectivamente nos volumes 48 (1953), p. 673-715, e 49 (1954), p. 13-35.) uma
primorosa introduo ao bom uso da Estatstica na indagao cientfica, e consequentemente
metodologia da investigao cientfica, cuja leitura recomendo a todos os profissionais de
reas cientficas.
facto de o uso de voluntrios muito provavelmente recrutar indivduos que
tm um comportamento ou opes diversas dos da populao (por exemplo,
em muitas situaes so os "exibicionistas" que se oferecem), e o facto de a
dimenso da amostra no ter sido cientificamente determinada
4
para os fins
em vista (e infelizmente nem sempre h fins em vista a orientar um
planeamento experimental, h muita cincia da treta que resulta de um
"andar pesca" do que possa parecer interessante). Este tipo de colees de
dados quase nunca pode ser considerado representativo, e por isso no serve
para estabelecer progressos no conhecimento. E, por outro lado, a graduao
usando aquela escala ordinal, muito subjectiva, no tendo cada nmero o
mesmo sentido para todos os respondentes.
O uso de amostras de voluntrios (amostras de convenincia que
muitas vezes so muito inconvenientes para a seriedade do estudo que se
est a realizar) comum, mas tirar dessas coleces de dados (repugna-me
chamar-lhes amostras) concluses para uma populao ilegtimo, e s por
mera sorte essas concluses so acertadas.
Alguns anos atrs, um dos telejornais nacionais noticiou a introduo
de uma cirurgia em Portugal destinada a aumentar, por recolocao, o
"micropnis", causa de infertilidade indesejada em muitos casais. A equipa
mdica que tinha introduzido essa tcnica cirrgica afirmava que 18% dos
portugueses (de sexo masculino, suponho, embora isso no estivesse
especificado) tm micropnis uma estimativa cuja validade parece
fortemente contestvel, pois no temos conhecimento de nenhum estudo
srio sobre o assunto na populao portuguesa, e aquela percentagem tanto
mais estranho quanto a estimativca internacionalmente aceite 0.6%.
Provavelmente este erro era muito vantajoso para justificar pedidos de
subsdios, mas era to grosseiro percentagem 30 vezes maior do que a
estimada internacionalmente! que no duvidamos que nenhuma agncia

-
A flutuao amostral um factor a ter em conta, e o captulo 3 de Como Mentir com
Estatstica aborda com exemplos expressivos as concluses disparatadas ou mesmo
fraudulentas que so produzidas por amostras de dimenso insuficiente. Um dos pontos
fortes da teoria da amostragem ensinar-nos como usar uma estimativa da variabilidade do
estimador que se vai usar para estimar os parmetros que nos interessam para determinar
quantas obsevaes devem ser recolhidas de tal forma que, com uma probabilidade elevada
pr-estabelecida, se tenha o grau de aproximao pretendido em relao ao verdadeiro valor
do parmetro. Se no se fizer o trabalho prvio de determinar que dimenso deve ter a
amostra, as concluses no sero porventura legtimas.
Mas por outro lado e um assunto pouco esclarecido em muitas referncias apostar
em amostras de grande dimenso para ter a certeza que o nmero de observaes
necessrias foi excedido, tambm no recomendvel, porque se cai numa orgia de
concluses sem sentido baseadas em pequenas diferenas, que so significativas de acordo
com a teoria estatstica, mas de facto totalmente irrelevantes.
O clebre escritor de fico cientfica Isac Asimov (que tinha um doutoramento em
Bioqumica, boa formao cientfica, e naturalmente um apreo por Probabilidade bem
patente na famosa srie Fundao, que explora a ideia de ser inventado um ramo da
Probabilidade, a que Asimov chama Psico-Histria, capaz de prever matematicamente
evolues sociais e at certo ponto de control-las), escreveu um conto irnico, que de
memria penso que se chama Election Day, em que o super-computador Multivac precisa
de entrevistar um nico indivduo, que escolheu usando um complexo cruzamento de
critrios, para determinar, sem eleio, quem seria eleito presidente mundial. fico
cientfica, e daquela que creio que nunca se realizar: quanto maior a variabilidade, maior
tem que ser a amostra capaz de a representar. S num fenmeno constante uma amostra de
tamanho 1 serviria.
de financiamnto se compadeceu dos cerca de mais de meio milho de
diminudos. Decerto a estimativa baseou-se numa amostra de indivduos
observados em consultas de infertilidade, e no numa amostra aleatria de
portugueses adultos, o que leva a que a induo dessa amostra no
representativa para a populao em geral no tenha qualquer significado. E,
para os leitores que acharam descabido o meu comentrio acima "(de sexo
masculino, suponho, embora isso no estivesse especificado)", repare que se
a amostra fosse contituda por infantes poderia obter-se aquele nmero.
por estas e por outras que numa investigao cientfica sria se comea por,
face ao enunciado dos propsitos, estabelecer detalhadamente um protocolo
de como os dados vo ser recolhidos.
O tamanho do pnis uma fonte abundante de estudos tolos. Uma
das histrias mais saborosas sobre a questo tem que ver com um estudo de
antropologia biolgica que provava que os bosqumanes do sul de Angola
tinham sido mais bem apetrechados pela natureza do que os bosqumanas sul
africanos. Mas a diferena estimada era to elevada que ocasionou dvidas,
e quando a chefe da equipa exibiu a anotao dos dados que tinha recolhido,
um conhecedor da geografoa humana de Angola disse estufacto: A colega
recolheu uma amostra maior do que a populao! Quando se foi aclarar o
assunto, percebeu-se que
a amostra recolhida era de convenincia, e ainda por cima
comprada, no sentido em que tinham andado veculos do exrcito
portugus equipados com autofalantes a berrar pelo deserto de Momedes
que os membros da populao que fossem cidade seriam recompensados
dom uma galinha;
para que a senhora no entrasse em contacto visual com uma parte
to resguardada da anatomia masculina, foi decidido que dois pobres
magalas estariam de planto com um lenol entre a observadora e o que ela
ia medir, pelo que com uma mo segura essa parte da anatomia, com a outra
o instrumento de medio (os erros de aproximao assim cometidos eram
irrelevantes face ao erro sistemtico que adiante se descobre, nesta ehistria
to escondida);
alguns bosqumanes tiveram a excelente ideia de ir esconder a
galinha, e voltar para receber segunda galinha, terceira galinha, etc. Com
certeza esse exemplo foi seguido por todos os que se aperceberam que
podiam assim alegremente enriquecer o seu patrimnio. Mas quando
voltavam j sabiam ao que vinham, e para muitos deles estas medies
ulteriores no eram em repouso, se me entendem, no era s o patrimnio
galinceo que aumentava.
No admira que um membro da audincia tenha exclamado num tom
convicto A colega manipulou os dados. E com alguma desfaatez, algum
comentou o comentrio exclamando com voz expressiva Os dados?!
E j que usmos este exemplo, a talhe de foice chamamos a ateno
que muitas vezes factos verdadeiros so seguidos de concluses erradas.
Sabemos que a maior prosperidade e capacidade de alimentar melhor as
crianas, a altura mdia das populaes tem estado a aumentar;
possivelmente foi isso que esteve na base da notcia de que os fabricantes
europeu de preservativos tinham decidido fabric-los com mais um
centmetro de comprimento de que anteriormente, reconhecendo que
tambm o comprimento do pnis est a aumentar. uma interpretao
abusiva, pois o que aconteceu foi que os industriais se aperceberam de que
h actualmente muito mais emigrantes africanos, e que devido a campanhas
de preveno de doenas sexualmente transmissveis, muitos tinham passado
a usar preservativo. Note-se, porm, que segundo alguns especialistas, a
convico de que tamanho do pnis e raa esto associados apenas um
preconceito, mas a questo controversa.
Se Huff fosse vivo, e actualizasse o seu livro, provavelmente teria
que incluir muitos novos disparates, infelizmente cada vez mais vulgarizados
na prtica de m Estatstica, mesmo pela comunidade acadmica, que
deveria ter mais preparao e esprito crtico. Refiro-me em particular aos
inquritos que circulam na net, com um apelo a que "responda e divulgue",
pois com base nas respostas que o autor vai escrever a sua tese de mestrado
ou de doutoramento.
Ora a "no-resposta" um factor que pode contribuir decisivamente
para enviesar resultados. Com este tipo de inquritos, nem a percentagem de
no-resposta conhecida, e no h qualquer possibilidade de se usar tcnicas
que possam mitigar esse enviesamento. Um dos mais curiosos no mandava
um inqurito, mandava dois, devendo cada qual decidir se respondia ao
inqurito para heterossexuais ou ao inqurito para homossexuais, garantido a
quase confidencialidade, creio que s o investigador e os seus orientadores
teriam conhecimento da escolha de cada respondente. Auguro muito xito a
este trabalho, que decerto vai basear-se em amostras representativas ...
Por outro lado, de notar que quando os dados so obtidos em
entrevistas, h em situaes triviais uma tendncia reconhecida (que Huff
refere) para o respondente dar a resposta que julga que agrada ao
entrevistador. Mas em situaes menos triviais, em que factores como a
interesse, medo, privacidade, embarao, vergonha, ou mero
desconhecimento, levam a erros, mesmo que a amostra seja enorme (ou
mesmo que seja um censo da populao). Por exemplo, no censo de 2001
um grupo de presso queria que se perguntasse ao chefe de famlia "quantos
homossexuais e lsbicas h neste agregado familiar?" Se a questo tivesse
sido includa, decerto a percentagem obtida subestimaria fortemente a
percentagem real.
E se julga que inquritos annimos garantem a veracidade das
respostas obtidas, est a avaliar mal a desconfiana de quem no se sente
confortvel com as questes que so feitas. E h algumas razes para isso
h alguns anos houve no EUA um escndalo que levou a que o responsvel
pelo organismo nacional de estatstica se demitisse: descobriu-se que uma
agncia governamental de investigao tinha usado marcas de gua no papel
de respostas que pemitiam identificar quem tinha respondido o qu.
Anote-se, no entanto, que h formas sofisticadas de elaborar
inquitos de forma a levar os respondentes a confiar que no h de facto
forma de saber o que responderam. Uma tcnica interessante e simples a da
resposta aleatorizada: entrega-se a cada entrevistado um baralho de cartas, e
pede-se que proceda a duas extraes sequencias e independentes (isto ,
com reposio da primeira carta extrada no baralho), sendo a instrues do
tipo:
"Se a primeira carta que observou era preta, responda
pergunta A, se era vermelha responda pergunta B.
A. J realizou aborto em condies ilegais?
B. A segunda carta que observou era vermelha?
Sim ____
No ____ "
Qualquer pessoa que no seja completamente obtusa percebe que nestas
circunstncias quer responda sim quer no ningum saber se a resposta
foi pergunta A ou pergunta B, eliminando-se assim o temor e embarao
como causas de mentira.
Suponha-se que em 400 entrevistas feitas desta forma se obtm 113
sins, o que nos leva a estimar (admitindo que a amostra representativa) que
a percentagem de sins na populao 113/400. Por outro lado, denotando p
a percentagem desconhecida de mulheres que realizou aborto em condies
ilegais, a probabilidade de resposta Sim ! x ! + ! x p. Equacionando as
duas expresses, obtm-se a estimativa p=6.5%. uma forma imaginativa
mas simples de obter informao mais fidedigna sobre questes polmicas
ou embaraosas.
Uma questo tambm muito relevante, em inquritos, formular as
perguntas de forma clara, para evitar que o respondente as interprete
erradamente, e esteja a responder a qualquer completamente diferente do que
lhe foi perguntado. E mesmo que nos parea que no h qualquer
ambiguidade na forma como a questo foi colocada, h surpresas, como a
daquele senhor a quem perguntaram Ento, prefere sexo oral ou sexo anal?
ao que, aps alguma hesitao, ele respondeu De ano a ano pouco, mas
de hora a hora no consigo!.
caro e atrasa, mas um estudo piloto, em que vrias destas
dificuldades podem ser reconhecidas e corrigidas, compensa, e alm disso
pode servir para fazer uma estimativa preliminar da variabilidade, que serve
para calcular que tamanho deve a amostra ter.
No que se refere a amostragem, h um interessante ponto a sublinhar
no que respeita os comentrios de Huff: quando analisa os inquritos sobre
comportamento sexual feitos por Kinsey, tem a argcia de explicitar que
nessa investigao a amostragem tem trs nveis: na seleo da amostra de
inquiridos, na seleo das perguntas a fazer, e na seleo que cada inquirido
faz do seu rol de comportamentos, para responder a cada uma das questes.
H uns anos, perguntei por brincadeira na primeira aula de um curso de
amostragem se os alunos aceitavem ser classificados por amostragem. A
resposta foi unanimemente "no". Depois de folhear as respostas, anunciei
esse resultado, e perguntei-lhes se alguma vez tinham tomado conscincia de
que as questes do exame focavam uma parte (no aleatoriamente escolhida)
da matria do curso, e que dada a limitao de tempo (e recursos, para
aqueles que tm tanta confiana no prximo como neles prprios, e nem
sempre est prximo quem convem) levava a que cada resposta tambm
fosse em geral uma amostra no aleatria do que sobre cada assunto
poderiam responder. Foi uma pergunta retrica, no fiquei espera de
resposta o que no quer dizer que no tenha as minhas convices, e
como dizia o outro "Tenho as minhas convices, no venha perturbar-me
com dados".
Huff naturalmente exemplifica largamente com questes que tm que
ver com inquritos de opinio, porque um campo em que abundam
exemplos ridculos e maliciosos. Mas muitos dos problemas, particulamente
os de qualidade, representatividade, tamanho da amostra, colocam-se quer
para estudos de opinio quer para qualquer outro tipo de investigao, e para
dados quer qualitativos quer quantitativos. E o mesmo se pode dizer da
qualidade dos dados. O captulo 7 de Como Mentir com Estatstica comea
com uma citao:
Quando for um pouco mais velho disse um dia um
juiz na ndia a um jovem funcionrio britnico - no
citar as estatsticas indianas com um to grande grau
de confiana. O governo est muito interessado em
amontoar estatsticas ele recolhe-as, acrescenta-as,
aumenta-as ensima potncia, tira-lhe a raiz cbica e
prepara diagramas maravilhosos. Mas o que nunca deve
esquecer que cada um desses nmeros comeou por
ser escrito pelo vigia da aldeia (o chowty dar), que
regista o que lhe d na gana.
Por vezes isso toca as raias do absurdo, o que fcil de detectar. H anos um
amigo meu estava interessado no estudo de riscos em operaes por
laparascopia ao tero. As paredes do tero comeam por ser afastadas
enchendo-o de uma soluo salina, e por isso d-se osmose de ies Na
+
, que
migram para o sistema circulatrio e podem causar picos de hipertenso
(devo estar a dizer uma carrada de asneiras, mas isso no estraga a histria).
Por isso ele usou como variveis resposta a natrmia concentrao de ies
na+ no sangue no fim da operao, uma hora depois, duas horas depois,
trs horas depois, 8 horas depois, 24 horas depois e 48 horas depois, para ver
se o tempo que a operao tinha durado (e consequentemente as
biomembranas uterinas tinham estado sujeitas ao contacto com a soluo
salina) influenciavam as variveis resposta. Para ter dados suficientes,
encarregou-se de toda a parte trabalhosa (anlises do sangue), mas recorreu
aos colegas da maternidade pedindo-lhe que fornecessem o tempo de
durao da operao. Alguns apontaram minutos e segundos, outros minutos
apenas, e um apontou constantemenete 15 minutos ou 20 minutos. Este
padro salienta-se imediatamente, e percebe-se logo que as medies foram
imprecisas. Mas se algum falsear todos os dados com cuidado, difcil
perceber (apesar de haver uma lei de Benford que estabelece que em
muitos fenmenos quantitativos reais os nmeros contm mais algarismo 1
do que 2, e mais 2 que 3, etc., numa escala aproximadamente logartmica,
enquanto os aldrabes para fingir que os dados so reais tm tendncia a dar
a todos os algarismos a mesma frequncia).
Mas mesmo sem aldrabice, h enganos de registo e de transcrio,
que podem ser muito difceis de detectar. Quando o Reitor da UL recebeu
um ofcio do Presidente do Conselho Cientfico da FCUL em que se dizia
Junto tenho a honra de enviar cpia de um peido do Professor Doutor N,
que mereceu aprovao unnime da comisso coordenadora do Conselho
Cientfico, no ficou decerto a pensar se o que merecia essa aprovao era o
original ou a cpia, nem ficou deslumbrado com o avano tecnolgico que
tinha permitido copiar algo to etreo. Provavelmente percebeu logo que era
um pedido que tinha perdido o d. E no preciso explicar a ningum a
histria do prior da ordem que, quando um novio lhe disse que estava a
copiar a regra da ordem de uma cpia, e que no copiando do original
qualquer erro se ia perpetuar; percebendo que o comentrio tinha razo de
ser foi verificar a cpia do novio pelo original, e no havia meio de voltar
dos subterrneos. Quando os outros monges comearam a ficar aflitos e
foram procur.lo, estava com a nuca toda ensanguentada por ter arrancado
punhados de cabelo, e ainda estava a dar bofetadas a si mesmo, e a gemer
Era regra de caridade, no era regra de castidade! era regra de caridade,
no era regra de castidade! Omisso de letras, duplicao de letras, troca
de letras todas essas gralhas so em geral fceis de corrigir, porque h um
contexto que permite em geral uma descodificao rpida.
Se tiver um registo do tipo 37, 65, 49, 53, 71, 42, 466, 39, 45,, sei
que o valor 466 est errado, e at suponho que o erro foi uma duplicao do
algarismo 6; com a srie 795, 810, 730, 735, 830, 756, 910,, parece
descortinar-se um padro que leva a pensar que 756 deve ser corrigido para
765; com 475, 424, 437, 409, 68,, eu corrigiria 68 para 468 mas sempre
com o cuidado de ir verificar se h registos em apontamentos que apoiem
essas corees. Mas ler nmeros (e a Estatstica , tambm, a cincia que
ensina a ler nmeros) uma cincia e arte mais complexa e ambgua, em
que nem sempre fcil descortinar padres. A operao inicial de limpeza
dos dados demorada e cara, De Veaux and Hand
5
afirmam que pode se
pode estimar que os recursos gastos num projecto com a limpeza dos dados
so 60% a 95% do total! E citam trabalhos de outros autores, indicando que
mesmo com todos os cuidados 1% a 10% dos dados em bases de dados de
grandes organizaes esto errados.
Creio que j estamos todos cansados de chover no molhado dos erros
de amostragem, um tema que abordado de diversos ngulos em diferentes
captulos deste livro. Passando a outro tema, convm anotar que no captulo
2 Huff aborda a questo de como resumir os dados com um nico nmero.
Em ingls fcil transmitir a ideia, porque o termo average tem um
sentido vago, e tanto pode ser mdia como mediana, ou mesmo moda. Em
portugus, o termo mdia quase exclusivamente interpretado como mdia
aritmtica. O leitor deve abordar esse captulo tomando um conceito
abrangente do que mdia (por exemplo, o de que mdia um valor
intermdio da amostra, entre mnimo e mximo, podendo mesmo coincidir
com qualquer deles
6
). Se o leitor aceitar que mdia=average um valor
intermdio, o texto torna-se mais claro.
Qualquer valor intermdio uma indicao da localizao dos dados,
mas evidente que a indicao de um valor intermdio uma informao
muito escassa; Huff discute muito bem como um indicador da escala
essencial para perceber corretamente a informao que qualquer mdia
transmite. De qualquer forma, a estafada ideia de que a mdia pode ser
completamente inadequada est bem expressa no esmalte de uma caixa que
um amigo me ofereceu quando me aposentei, e que reproduzo para os olhos
do leitor.

.
Em How to Lie with Bad Data, Statistical Science 20 (2005), p. 231-238.
/
Espero que esta ideia, que creio que se pode reportar ao grande matemtico francs
Cauchy, no choque o leitor. De facto, em estatstica usamos mdias aritmticas, mdias
geomtricas, mdias harmnicas que qualquer delas so casos especiais 1, 0 e -1 do que
se chama mdia de ordem p mdias ponderadas, mdias aparadas a !x100%, de que um
caso especial a mediana, etc.


Huff discute tambm muito bem o mau uso de grficos, sejam eles
pictogramas ou mapas. Os grficos so muito sugestivos, e por isso podem
ser facilmente usados para sugerir trapalhices. Veja-se por exemplo o mapa
explodido de Portugal, em que cada distrito foi reescalado para indicar o
nmero de doentes mentais desse distrito. Beja um distrito to pequeno,
que quase apetece dizer: se quer evitar ter uma doena mental, v viver para
Beja. Claro que o que est em causa o distrito de Beja ter uma densidade
populacional inferior de outros distritos, se se usasse como escala o
nmero de doentes mentais por cada 1000 habitantes provavelmente o mapa
seria muito mais parecido com aquilo a que estamos habituados.

Se o leitor estiver interessado em informao mais detalhada sobre
bons e maus grficos, recomendo a leitura do interessante livro de Tufte
7
.
Outra questo que Huff explora magnificamente o das correlaes
esprias, a mania de relacionar tudo com tudo. Apesar de apreciar
devidamente a proposta de Karl Pearson, no seu notvel livro The Grammar
of Science, de 1896, de que que o paradigma de Cincia devia mudar,
completando a busca de causalidade com a deteo de associaes
estatsticas, isso levado ao exagero levou um grupo de brincalhes de Lisboa
a h algumas dcadas fingir que Portugal estava a ser visitado por um gnio
da Cincia, e numa conferncia de imprensa foi muito gabada a sua teoria
que conseguia exactamente correlacionar qualquer varivel com qualquer
outra, apenas com uma excepo: aproximar o baixo contnuo do Peixinho
(o compositor Peixinho, obviamente, pois baixo contnuo uma expresso
musical). Ah, mas durante esta visita essa aproximao tinha sido feita e
ento exibiam um aqurio com um peixinho, e chamavam um senhor
baixinho, vestido de contnuo, e incitavam-no: V, aproxime-se do
peixinho.
A correlao mais disparatada foi-me inspirada por um conto de
Graham Greene, no delicioso livro Empresta-nos o seu Marido, e Outras
Comdias da Vida Sexual. Nesse conto, escrito na primeira pessoa, o
narrador confessa que nunca conheceu os prazeres do amor, porque nunca
tinha conseguido vencer o medo que o mdico do colgio em que estudara
lhe transmitira, com a teoria de que as relaes sexuais causam cancro, pois
100% das pessoas que morrem de cancro ou particaram relaes sexuais ou
so filhas de pessoas que praticaram relaes sexuais. Graham Greene alis
um Mestre, e faz em Viagens com a Minha Tia uma descrio que se pode
aplicar Estatstica que ecoa as palavras de Laplace, de que a Probabilidade
era o bom senso transcrito em linguagem matemtica (uma personagem, que
escreve sucesses de nmeros do tipo


acaba por confidenciar que aponta as horas a que mija, e a durao, e depois
junta:
s multiplicar por sete. D meia hora por
semana. Vinte e seis horas por ano. Claro que a

0
Tufte, E. R. (1983). The Visual Display of Quantitative Information, Graphics Press,
Cheshire, Conn#

vida a bordo no serve de bitola. Bebe-se muito
entre as refeies. E est-se sempre a beber cerveja
Veja este tempo aqui: 1 minuto e 55 segundos.
mais do que a mdia, mas eu ao lado tinha anotado
dois gins. H tambm uma data de variaes com
que eu no tinha contado e, daqui em diante, vou
passar a tomar tambm nota da temperatura. Veja
aqui, 25 de Julho: 6 minutos e 9 segundos inc., quer
dizer, incompleto... Fui jantar fora em Buenos Aires
e deixei o livro de apontamentos em casa. E aqui, no
dia 27 de Julho: s 3 m e 12 s ao todo, mas se se
lembrar soprava um vento forte e frio no dia 25 e eu
sa para jantar sem sobretudo

Os abusos da Estatstica, quer os denunciados por Huff quer os
gozados pelo grupo de folies de Harvard que atribui anualmente prmios
IgNobel (e se o leitor se quer divertir procure a informao que
disponibilizam na internet) acabam por dar mau nome Estatstica, e a
profisso de estatstico muitas vezes atacada. Por exemplo (no sei quem
o autor, mas a frase interessante)
Os estatsticos so os nicos profissionais que exigem
que lhes seja reconhecido o direito de mentir em 5%
dos casos.
Mas possivelmente Stephen Fry tem toda a razo quando faz o elogio da
mentira
1Padres e psicoterapeutas podem julgar que a verdade
revelada nos confessionrios ou nas sesses de
psicanlise, mas voc sabe, e eu sei, e todos os homens
sabem que mentimos constantemenet a toda a gente.
Mentir to costumeiramente humano quanto usar
roupas. [] Mentir parte essencial da condio
humana. Eliminar a mentira no faria de ns mais
humanos; pelo contrrio, amputaria parte da nossa
huma-nidade.
Stephen Fry, The Liar, 1991, Mandarin, p. 306.
E denuncia que afinal os humanos esto sempre a mentir, e no apenas em
5% dos casos. Por outro lado, amplamente reconhecido que as decises
quer institucionais quer pessoais so feitas sob incerteza, como
judiciosamente se comenta num editorial da prestigiada revista Science:
embaraoso constatar que uma elevada proporo
das decises fulcrais do Governo, de negociao de
tratados gesto dos recursos, so tomadas com base
em informao insuficiente e hipteses no
comprovadas. E isto no assim to diferente da
forma como conduzimos os nossos assuntos privados.
(Editorial de Science)
Ora so Probabilidade e Estatstica as cincias que nos ensinam a disciplinar
a incerteza. E fazemos isso com maus dados, h uma rea recente da
Estatstica denominada Analysis of Messy Data, que se preocupa
especialmente com os dados que no se conformam com o padro de ouro
clssico, de que a amostra aleatria de que a amostra observada uma mera
observao um vector de margens independentes e identicamente
distribudas, e adoptando um modelo simples e matematicamente tratvel,
pois mesmo quando adoptamos esse modelo (sabendo que os modelos so
para ser teis, no para acreditarmos neles) sabemos que os dados so mal
comportados, como algum no sei quem, e lamento descreveu
jocosamente:
O Teorema ds Dados Estuporados diz que na vida real
os dados tendem a provir de distribuies bizarras e
mal especificadas de variveis aleatrias fortemente
correlacionadas, obtendo-se em geral amostras de
dimenses diversas, com dados em falta, observaes
dependentes, e um nmero indeterminado de valores
mal registados.

O livro de Huff perfeito? No, a meu ver tem muita infromao
sobre amostragem, no abordando da mesma forma a outra disciplina de
aquisio de dados, o planeamento experimental. E actualmente seria bom
que houvesse se multiplicassem as denncias da muita cincia da treta que se
produz, tambm por culpa dos acadmicos e do falso ideal publish or
perish, que tem posto em causa a integridade da produo cientfica
8
, e
mesmo a forma desprestigiante como a cincia se arrisca a ser vista pelo
pblico
9
. O j referido grupo de humoristas de Harvard edita tambm um
jornal que um mimo, em que aparecem caricaturas que infelizmente so
um espelho de alguma cincia que se faz abusando da Estatstica. Por
exemplo, o que surgiu primeiro, o ovo ou a galinha?


Este mistrio foi finalmente resolvido: escolheram-se 100 avirios ao acaso,
e dois dos experimentadores fizeram telefonemas simultneos, enco-
mendando por via postal um deles uma galinha, devidamente assassinada,

2
Recomendo a leitura de Integrity Under Attack:The State of Scholarly Publishing (D. N.
Arnold) http://www.ima.umn.edu/ arnold//siam-columns/ integrity-under-attack.pdf
3
No decerto por acaso que muito citado o artigo 1Why Most Published Research
Findings Are False (John P. A. Ioannidis) que pode consultar-se em
http://www.plosmedicine.org/article/info:doi/10.1371/ journal.pmed.0020124
depenada, esventrada, e outro encomendando uma dzia de ovos, a serem
enviados por correio para uma dada morada. E a Estatstica no deixa
qualquer dvida: em 97% dos casos a dzia de ovos surgiu primeiro!

Вам также может понравиться