Вы находитесь на странице: 1из 23

Bias and precision of

some classical ANOVA


effect sizes when
assumptions are
violated
Susan Troncoso Skidmore & Bruce Thompson

2013 Behav Res, 45, 536546


The authors

Susan Troncoso Skidmore


Associate Professor, Department of Educational Leadership, Sam Houston State University,
Huntsville, TX, USA.
Statistical assumptions violations; effect sizes; evidence-based practices; cultures of
assessment; quantitative literacy; professional commitment; recruitment, development, and
retention of underrepresented groups in secondary and post-secondary institutions

Bruce Thompson
Distinguished Professor of Library Science, Texas A&M University, Texas A&M
University.
Especially known for (a) his work on effect sizes, and (b) his contributions to creating
the LibQUAL+(R) protocol, completed in ~20 language variations by more than 1,200,000
academic research library users at more than 1,100 institutions from around the
2
world.
Introduo

The ANOVA is the most popular inferential analysis


technique for between-subjects univariate designs
and was used in 93.3 % of the between-subjects
univariate articles reviewed by Keselman et al.
(1998).
The integrity of ANOVA results is contingent upon
the extent to which the assumptions of the ANOVA
are met
The outcome variable scores exhibit independence,
normality, and homogeneity of variance across groups,
the ANOVA assumptions are satisfied.
3
Introduction

Researchers rarely verify that validity assumptions are


satisfied ... and ... typically use analyses that are
nonrobust to assumption violations (Keselman et al.,
1998, p. 350).

In practice, the question is not whether ANOVA


assumptions are perfectly met but, rather, whether
assumptions are sufficiently well met that reasonable
confidence can be vested in the ANOVA statistics.

4
Introduction

While an ANOVA can be used to test the statistical


significance of group mean differences, a second and at least
equally important use of the ANOVA is to estimate the
practical significance, or the magnitude of effect, of group
mean differences.

Previous researchers have focused primarily on


understanding the impact of violation assumptions on both
power and the p values for null hypothesis statistical
significance testing.
5
Objetivo

The purpose of the present article is to move


beyond, by evaluating the robustness of
estimates of practical significance (i.e., effect
sizes 2, 2, and 2) in a one-way between-subjects
univariate ANOVA.
Understand the utility of these effect sizes in the
presence of assumption violations.

6
Mtodo

Investigao de Monte Carlo - conjunto de algortimos computacionais


que se baseiam em amostragens randomicamente repetidas.

As condies modeladas neste estudo foram baseadas no que as


pesquisas anteriores indicaram que teriam um impacto na integridade
dos resultados.

Mantm a validade ecolgica ao basear as simulaes no arcabouo de


prticas tpicas de pesquisa.
7
Mtodo

Eta squared (2) dado por 2 =SSMODEL/SSTOTAL., ou [(k


1) (F)]/{[(k 1) * (F)] + n k}, (Wilcox, 1987).

Eta squared positivamente enviesado (Yin & Fan,


2001).

Para corrigir esse vis: Kelley (1935) e Hays (1981)


desenvolveram 2 e 2, respectivamente.
8
Mtodo

Neste estudo, todas as distribuies tiveram mdias


iguais a 100,0 para a condio nula (i.e., Cohen d da
populao = 0.0).

Cohen f -> para quando k >2.

Condies para o d de Cohen = 0,20, 0,50, 0,80, e


1,00.
9
Mtodo

d de Cohen igual a 0,20, 0,50, 0,80, e 1,00.


Quantidade de grupos k = 2, k = 3, k = 4.
Total amostral (ns): 24 e 48.
Tamanhos dos grupos:
Para k = 2, 12:12, 8:16, e 6:18 (n = 24); 24:24, 16:32, e
12:36 (n =48).
Para k = 3, 8:8:8, 6:6:12, e 5:5:14 (n = 24); 16:16:16,
12:12:24, e 10:10:28 (n = 48).
Para k = 6:6:6:6, 5:5:5:9, e 4:4:4:12 (n = 24); 12:12:12:12,
10:10:10:18, e 8:8:8:24 (n = 48). 10
Mtodo

Condies de varincia igual, 2 = 225,0, k = 2, 3, e 4.

Varincias da varivel de resultado com condies de


pareamento negativo, 2 = 360,0 e 90.0; 385,7, 192,8, e 96,4;
e 400,0, 200,0, 200,0, e 100,0, for k = 2, 3, and 4, respectively.

Varincias da varivel de resultado com condies de


pareamento positivo 2 = 90,0 e 360,0; 96,4, 192,8, e 385,7; e
100,0, 200,0, 200,0, e 400,0, para k = 2, 3, e 4,
respectivamente.
11
Mtodo

Distribuies:
Normal (i.e., coefficient of skewness =
coefficient of kurtosis = 0,0),
Levemente (i.e., coefficient of
skewness = coefficient of kurtosis = 0,5),
Moderadamente (coefficient of
skewness = 1,0, coefficient of kurtosis =
3,75).
12
Mtodo

Para minimizar o erro padro da simulao em condies de violao


dos pressupostos, 5.000 amostras foram desenhadas para cada uma das
270 condies (5 parameter d values x 3 group size ratios x 3 population
distribution shapes x 3 variance ratios x 2 total ns).

Poder e os valores do erro Tipo I para cada um das 4.050.000 (5.000 x


270 x 3) amostras.

ndices de significncia prtica 2, 2, and 2,


13
Resultados

Preciso:

A preciso foi pequena em todas as condies e


similar para os trs tamanhos de efeito 2 , 2 e 2

14
Discusso

Resultados sugerem que a preciso no uma


considerao relevante no que diz respeito s
preferncias diferenciais entre os trs tamanhos de
efeito estudados.

15
16
17
18
Resultados

Sampling error bias

Primeiro, com as cinco condies do d De Cohen, com desenhos


balanceados e no balanceados, com homogeneidade da varincia
b2 teve consideravalmente positive sampling error bias,
especialmente para k = 3 e 4.

Segundo, quando a homogeneidade da varincia foi atingida tanto 2


quanto 2 apresentaram pouco vis, especialmente para k = 3 e 4.
19
Resultados

Terceiro, com as condies de k = 2, 3, e 4, e varincias heterogneas,


envolvendo desenho no balanceados com pareamento negativo, os trs
testes tenderam a ter positive sampling error biases.

Quarto, com k = 2, 3, e 4, varincias heterogneas, envolvendo desenho


no balanceados com pareamento positivo, at 2 e 2 tenderam a ter
negative sampling error bias e a no funcionar to bem quanto eles
funcionaram nas outras condies.

20
Discusso

Resultados corroboram com as poucas


pesquisas anteriores (Carroll & Nordholm,
1975; Keselman, 1975) e sugerem que eta
squared no deve ser usado como um
estimador de tamanho de efeito da ANOVA,
porque, dentro das diversas condies
investigadas, ele teve considerveis vises
de erro de amostragem.
21
Discusso

Sugesto: estudar com um delineamento


multiway.

Espera pelo dia em que os pesquisadores


sejam menos dependentes do apertar um
boto dos softwares e passem a utilizar testes
mais robustos.

22

Obrigada!
23

Вам также может понравиться