Вы находитесь на странице: 1из 12

Goodness of fit

From Wikipedia, the free encyclopedia

Regression analysis

Models

Linear regression
Simple regression
Ordinary least squares
Polynomial regression
General linear model

Multilevel model
Fixed effects
Random effects
Mixed model

Nonlinear regression
Nonparametric
Semiparametric
Robust
Quantile
Isotonic
Principal components
Least angle
Local
Segmented
Errors-in-variables

Generalized linear model


Discrete choice
Logistic regression
Multinomial logit
Mixed logit
Probit
Multinomial probit
Ordered logit
Ordered probit
Poisson

Estimation
Least squares
Ordinary least squares
Linear (math)
Partial
Total

Generalized
Weighted
Non-linear
Iteratively reweighted
Ridge regression
LASSO

Least absolute deviations


Bayesian
Bayesian multivariate
Background
Regression model validation
Mean and predicted response
Errors and residuals
Goodness of fit
Studentized residual
GaussMarkov theorem

Statistics portal

V
T
E

The goodness of fit of a statistical model describes how well it fits a set of observations.
Measures of goodness of fit typically summarize the discrepancy between observed values and
the values expected under the model in question. Such measures can be used in statistical
hypothesis testing, e.g. to test for normality of residuals, to test whether two samples are drawn
from identical distributions (see KolmogorovSmirnov test), or whether outcome frequencies
follow a specified distribution (see Pearson's chi-squared test). In the analysis of variance, one of
the components into which the variance is partitioned may be a lack-of-fit sum of squares.
Contents
[hide]

1 Fit of distributions

2 Regression analysis

2.1 Example
3 Categorical data
3.1 Pearson's chi-squared test
3.1.1 Example: equal frequencies of men and women

3.2 Binomial case

4 Other measures of fit

5 See also

6 References

Fit of distributions[edit]

In assessing whether a given distribution is suited to a data-set, the following tests and their
underlying measures of fit can be used:

KolmogorovSmirnov test;

Cramrvon Mises criterion;

AndersonDarling test;

ShapiroWilk test;

Chi Square test;

Akaike information criterion;

HosmerLemeshow test;

Regression analysis[edit]
In regression analysis, the following topics relate to goodness of fit:

Coefficient of determination (The R squared measure of goodness of fit);

Lack-of-fit sum of squares.

Example[edit]
One way in which a measure of goodness of fit statistic can be constructed, in the case where
the variance of the measurement error is known, is to construct a weighted sum of squared
errors:

where
is the known variance of the observation, O is the observed data and E is the
theoretical data.[1] This definition is only useful when one has estimates for the error on the
measurements, but it leads to a situation where a chi-squared distribution can be used to test
goodness of fit, provided that the errors can be assumed to have a normal distribution.
The reduced chi-squared statistic is simply the chi-squared divided by the number of degrees of
freedom:[1][2][3][4]

where is the number of degrees of freedom, usually given by


, where
is the
number of observations, and is the number of fitted parameters, assuming that the mean value
is an additional fitted parameter. The advantage of the reduced chi-squared is that it already
normalizes for the number of data points and model complexity. This is also known as the mean
square weighted deviation.
As a rule of thumb (again valid only when the variance of the measurement error is known a
priori rather than estimated from the data), a
indicates a poor model fit. A
indicates that the fit has not fully captured the data (or that the error variance has been
underestimated). In principle, a value of

indicates that the extent of the match

between observations and estimates is in accord with the error variance. A


indicates
that the model is 'over-fitting' the data: either the model is improperly fitting noise, or the error
variance has been overestimated.

Categorical data[edit]
The following are examples that arise in the context of categorical data.

Pearson's chi-squared test[edit]


Pearson's chi-squared test uses a measure of goodness of fit which is the sum of differences
between observed and expected outcome frequencies (that is, counts of observations), each
squared and divided by the expectation:

where:
Oi = an observed frequency (i.e. count) for bin i
Ei = an expected (theoretical) frequency for bin i, asserted by the null hypothesis.
The expected frequency is calculated by:

where:
F = the cumulative Distribution function for the distribution being tested.
Yu = the upper limit for class i,
Yl = the lower limit for class i, and
N = the sample size
The resulting value can be compared to the chi-squared distribution to determine the goodness
of fit. In order to determine the degrees of freedom of the chi-squared distribution, one takes the
total number of observed frequencies and subtracts the number of estimated parameters. The
test statistic follows, approximately, a chi-square distribution with (k c) degrees of freedom
where k is the number of non-empty cells and c is the number of estimated parameters (including
location and scale parameters and shape parameters) for the distribution.
Example: equal frequencies of men and women[edit]
For example, to test the hypothesis that a random sample of 100 people has been drawn from a
population in which men and women are equal in frequency, the observed number of men and
women would be compared to the theoretical frequencies of 50 men and 50 women. If there
were 44 men in the sample and 56 women, then

If the null hypothesis is true (i.e., men and women are chosen with equal probability in the
sample), the test statistic will be drawn from a chi-squared distribution with one degree of
freedom. Though one might expect two degrees of freedom (one each for the men and women),
we must take into account that the total number of men and women is constrained (100), and
thus there is only one degree of freedom (2 1). Alternatively, if the male count is known the
female count is determined, and vice-versa.
Consultation of the chi-squared distribution for 1 degree of freedom shows that the probability of
observing this difference (or a more extreme difference than this) if men and women are equally
numerous in the population is approximately 0.23. This probability is higher than conventional

criteria for statistical significance (.001-.05), so normally we would not reject the null hypothesis
that the number of men in the population is the same as the number of women (i.e. we would
consider our sample within the range of what we'd expect for a 50/50 male/female ratio.)

Binomial case[edit]
A binomial experiment is a sequence of independent trials in which the trials can result in one of
two outcomes, success or failure. There are n trials each with probability of success, denoted
by p. Provided that npi 1 for every i (where i = 1, 2, ..., k), then

This has approximately a chi-squared distribution with k 1 df. The fact that df = k 1 is a
consequence of the restriction
. We know there are k observed cell counts,
however, once any k 1 are known, the remaining one is uniquely determined. Basically, one
can say, there are only k 1 freely determined cell counts, thus df = k 1.

Other measures of fit[edit]


The likelihood ratio test statistic is a measure of the goodness of fit of a model, judged by
whether an expanded form of the model provides a substantially improved fit.

See also[edit]

Deviance (statistics) (related to GLM)

Overfitting

References[edit]
1.

^ Jump up to:a b Charlie Laub and Tonya L. Kuhl: Chi-Squared Data Fitting. University
California, Davis.

2.

Jump up^ John Robert Taylor: An introduction to error analysis, page 268. University Science
Books, 1997.

3.
4.

Jump up^ Kirkman, T.W.: Chi-Squared Curve Fitting.


Jump up^ David M. Glover, William J. Jenkins, and Scott C. Doney: Least Squares and
regression techniques, goodness of fit and tests, non-linear least squares techniques . Woods Hole
Oceanographic Institute, 2008.

Goodness of fit
Dari Wikipedia, ensiklopedia bebas
analisis regresi

model
regresi linier
regresi sederhana
kuadrat Biasa
regresi polinomial
model linier umum
Model linear Generalized
Pilihan Diskrit
regresi logistik
logit multinomial
logit Mixed
Probit
probit Multinomial
logit Memerintahkan
Memerintahkan probit
Poisson
Model Multilevel
Efek Tetap
Efek Acak
Model Campuran

regresi nonlinear
Nonparametrik
semiparametrik
Kuat
Kuantil
isotonik
Komponen Utama
sudut Least
lokal
Segmented
Kesalahan-in-variabel
estimasi
kotak Least
kuadrat Biasa
Linear (matematika)
Partial
Total
Generalized
Tertimbang
Non-linear
iteratif reweighted
regresi Ridge
LASSO
penyimpangan mutlak Least
Bayesian
multivariat Bayesian
latar Belakang
validasi model regresi
Rata-rata dan diprediksi respon
Kesalahan dan residu
Goodness of fit
studentized residual

Gauss-Markov teorema
Portal Statistik
V
T
E
Goodness of fit dari model statistik menggambarkan seberapa baik cocok
serangkaian pengamatan. Ukuran goodness of fit biasanya merangkum
perbedaan antara nilai-nilai yang diamati dan nilai-nilai yang diharapkan di
bawah model yang bersangkutan. Tindakan tersebut dapat digunakan dalam
pengujian hipotesis statistik, misalnya untuk menguji normalitas residual, untuk
menguji apakah dua sampel diambil dari distribusi yang identik (lihat uji
Kolmogorov-Smirnov), atau apakah frekuensi hasil mengikuti distribusi tertentu
(lihat uji chi-squared Pearson). Dalam analisis varians, salah satu komponen
mana varians dipartisi mungkin jumlah kekurangan-of-fit dari kotak.
isi
[hide]
1 Fit distribusi
Analisis 2 Regresi
o 2,1 Contoh
3 Data kategoris
o 3.1 uji chi-kuadrat Pearson
3.1.1 Contoh: frekuensi yang sama laki-laki dan perempuan
o 3,2 kasus Binomial
4 Langkah-langkah lain dari fit
5 Lihat juga
6 Referensi
Fit distribusi [sunting]
Dalam menilai apakah distribusi yang diberikan cocok untuk data-set, tes berikut
dan langkah-langkah yang mendasari mereka fit dapat digunakan:
Tes Kolmogorov-Smirnov;
Kriteria Cramr-von Mises;
Tes Anderson-Darling;
Tes Shapiro Wilk-;

Tes Chi Square,;


kriteria informasi Akaike;
Tes Hosmer-Lemeshow;
Analisis regresi [sunting]
Dalam analisis regresi, topik-topik berikut berhubungan dengan goodness of fit:
Koefisien determinasi (R squared ukuran goodness of fit);
Kurangnya-of-fit jumlah kuadrat.
Contoh [sunting]
Salah satu cara di mana ukuran goodness of fit statistik dapat dibangun, dalam
kasus di mana varians dari kesalahan pengukuran diketahui, adalah untuk
membangun sebuah jumlah tertimbang kesalahan kuadrat:
mana varians diketahui pengamatan, O adalah data yang diamati dan E adalah
data teoritis. [1] Definisi ini hanya berguna ketika seseorang memiliki perkiraan
untuk kesalahan pada pengukuran, tetapi mengarah pada situasi di mana chi
kuadrat distribusi dapat digunakan untuk menguji goodness of fit, asalkan
kesalahan dapat diasumsikan memiliki distribusi normal.
Mengurangi statistik chi-squared hanya chi-squared yang dibagi dengan jumlah
derajat kebebasan: [1] [2] [3] [4]
di mana adalah jumlah derajat kebebasan, biasanya diberikan oleh, di mana
jumlah observasi, dan jumlah parameter dipasang, dengan asumsi bahwa nilai
rata-rata adalah parameter dipasang tambahan. Keuntungan dari mengurangi
kuadrat chi-adalah bahwa hal itu sudah menormalkan untuk jumlah titik data dan
kompleksitas Model. Hal ini juga dikenal sebagai deviasi tertimbang rata-rata
persegi.
Sebagai aturan praktis (lagi berlaku hanya jika varians dari kesalahan
pengukuran diketahui apriori daripada diperkirakan dari data), mengindikasikan
model fit miskin. A menunjukkan bahwa fit belum sepenuhnya menangkap data
(atau bahwa varians error telah diremehkan). Pada prinsipnya, nilai menunjukkan
bahwa tingkat pertandingan antara pengamatan dan perkiraan ini sesuai dengan
varians error. A menunjukkan bahwa model tersebut adalah 'over-pas' data: baik
model adalah tidak benar suara pas, atau varians kesalahan telah dibesarbesarkan.
Data kategori [sunting]
Berikut ini adalah contoh yang muncul dalam konteks data kategorikal.

Chi-squared uji Pearson [sunting]


Uji chi-squared Pearson menggunakan ukuran goodness of fit yang merupakan
jumlah dari perbedaan antara diamati dan diharapkan frekuensi hasil (yaitu,
jumlah pengamatan), masing-masing kuadrat dan dibagi dengan harapan:
di mana:
Oi = frekuensi yang diamati (yaitu count) untuk bin i
Ei = yang diharapkan (teoritis) frekuensi untuk bin i, ditegaskan oleh hipotesis
nol.
Frekuensi yang diharapkan dihitung dengan:
di mana:
F = fungsi distribusi kumulatif untuk distribusi yang diuji.
Yu = batas atas untuk kelas i,
Yl = batas bawah untuk kelas i, dan
N = ukuran sampel
Nilai yang dihasilkan dapat dibandingkan dengan distribusi chi-kuadrat untuk
menentukan goodness of fit. Dalam rangka untuk menentukan derajat
kebebasan dari distribusi chi-squared, seseorang mengambil jumlah frekuensi
yang diamati dan mengurangi jumlah estimasi parameter. Statistik uji berikut,
kira-kira, distribusi chi-kuadrat dengan (k c) derajat kebebasan di mana k adalah
jumlah sel yang tidak kosong dan c adalah jumlah perkiraan parameter
(termasuk lokasi dan skala parameter dan parameter bentuk) untuk distribusi.
Contoh: frekuensi yang sama laki-laki dan perempuan [sunting]
Misalnya, untuk menguji hipotesis bahwa sampel acak dari 100 orang telah
ditarik dari populasi di mana pria dan wanita adalah sama dalam frekuensi,
jumlah diamati dari laki-laki dan perempuan akan dibandingkan dengan
frekuensi teoritis 50 pria dan 50 wanita . Jika ada 44 orang dalam sampel dan 56
perempuan, maka
Jika hipotesis nol benar (yaitu, laki-laki dan perempuan yang dipilih dengan
probabilitas yang sama dalam sampel), uji statistik akan diambil dari distribusi
chi-kuadrat dengan satu derajat kebebasan. Meskipun satu mungkin berharap
dua derajat kebebasan (masing-masing untuk pria dan wanita), kita harus
memperhitungkan bahwa jumlah laki-laki dan perempuan dibatasi (100), dan
dengan demikian hanya ada satu derajat kebebasan (2 - 1 ). Atau, jika jumlah

laki-laki diketahui jumlah perempuan ditentukan, dan sebaliknya.


Konsultasi distribusi chi-kuadrat untuk 1 derajat kebebasan menunjukkan bahwa
probabilitas mengamati perbedaan ini (atau perbedaan yang lebih ekstrim dari
ini) jika laki-laki dan perempuan sama-sama banyak dalam populasi adalah
sekitar 0.23. Probabilitas ini lebih tinggi dari kriteria konvensional untuk
signifikansi statistik (0,001-0,05), sehingga biasanya kita tidak akan menolak
hipotesis nol bahwa jumlah laki-laki dalam populasi adalah sama dengan jumlah
perempuan (yaitu kami akan mempertimbangkan sampel kami dalam kisaran
apa yang kita harapkan untuk 50/50 laki-laki / perempuan rasio.)
Kasus Binomial [sunting]
Sebuah percobaan binomial merupakan urutan percobaan independen di mana
pengadilan dapat menghasilkan salah satu dari dua hasil, keberhasilan atau
kegagalan. Ada n uji coba masing-masing dengan probabilitas keberhasilan,
dilambangkan dengan p. Asalkan NPI 1 untuk setiap i (dimana i = 1, 2, ..., k),
maka
Ini memiliki sekitar distribusi chi-kuadrat dengan k - 1 df. Fakta bahwa df = k - 1
adalah konsekuensi dari pembatasan. Kami tahu ada k jumlah diamati sel,
namun, setelah setiap k - 1 diketahui, satu yang tersisa ditentukan unik. Pada
dasarnya, kita dapat mengatakan, hanya ada k - 1 jumlah sel bebas ditentukan,
sehingga df = k - 1.
Langkah-langkah lain dari fit [sunting]
Rasio kemungkinan uji statistik adalah ukuran goodness of fit dari model, dinilai
oleh apakah bentuk diperluas dari model memberikan cocok substansial
ditingkatkan.
Lihat juga [sunting]
PD (statistik) (terkait dengan GLM)
Overfitting
Referensi [sunting]
1 ^ Langsung ke: ab Charlie Laub dan Tonya L. Kuhl: Chi-Squared data Fitting.
Universitas California, Davis.
2 Melompat ^ John Robert Taylor: Pengantar kesalahan analisis, halaman 268.
Universitas Sains Books, 1997.
3 Melompat ^ Kirkman, TW: Chi-Squared Curve Fitting.
4. Melompat ^ David M. Glover, William J. Jenkins, dan Scott C. Doney: Least

Squares dan teknik regresi, goodness of fit dan tes, non-linear teknik kuadrat
terkecil. Woods Hole Oceanographic Institute, 2008.

Вам также может понравиться