Вы находитесь на странице: 1из 34

SSPSS Data Analysis Examples

Poisson Regression
Poisson regression is used to model count variables.
Please note: The purpose of this page is to show how to use various data analysis commands. It does not
cover all aspects of the research process which researchers are expected to do. In particular, it does not
cover data cleaning and checking, verification of assumptions, model diagnostics or potential follow-up
analyses.
This page is done using SPSS 19.

Examples of Poisson regression


Example 1. The number of persons killed by mule or horse kicks in the Prussian army per year. Ladislaus
Bortkiewicz collected data from 20 volumes ofPreussischen Statistik. These data were collected on 10
corps of the Prussian army in the late 1800s over the course of 20 years.
Example 2. The number of people in line in front of you at the grocery store. Predictors may include the
number of items currently offered at a special discounted price and whether a special event (e.g., a holiday,
a big sporting event) is three or fewer days away.
Example 3. The number of awards earned by students at one high school. Predictors of the number of
awards earned include the type of program in which the student was enrolled (e.g., vocational, general or
academic) and the score on their final exam in math.

Description of the Data


For the purpose of illustration, we have simulated a data set for Example 3 above: poisson_sim.sav. In this
example, num_awards is the outcome variable and indicates the number of awards earned by students at
a high school in a year, math is a continuous predictor variable and represents students' scores on their
math final exam, and prog is a categorical predictor variable with three levels indicating the type of
program in which the students were enrolled.
Let's start with loading the data and looking at some descriptive statistics.

GET
FILE='poisson_sim.sav'.
DESCRIPTIVES
VARIABLES=math num_awards
/STATISTICS=MEAN STDDEV VAR MIN MAX .

Each variable has 200 valid observations and their distributions seem quite reasonable.
The unconditional mean and variance of our outcome variable are not extremely different. Our model
assumes that these values, conditioned on the predictor variables, will be equal (or at least roughly so).
Let's continue with our description of the variables in this dataset. The table below shows the average
numbers of awards by program type and seems to suggest that program type is a good candidate for
predicting the number of awards, our outcome variable, because the mean value of the outcome appears
to vary by prog. Additionally, the means and variances within each level of prog--the conditional means
and variances--are similar.

MEANS tables = num_awards by prog.

GRAPH
/HISTOGRAM=num_awards.

Analysis methods you might consider


Below is a list of some analysis methods you may have encountered. Some of the methods listed are quite
reasonable, while others have either fallen out of favor or have limitations.

Poisson regression - Poisson regression is often used for modeling


count data. It has a number of extensions useful for count models.

Negative binomial regression - Negative binomial regression can be


used for over-dispersed count data, that is when the conditional
variance exceeds the conditional mean. It can be considered as a
generalization of Poisson regression since it has the same mean
structure as Poisson regression and it has an extra parameter to model
the over-dispersion. If the conditional distribution of the outcome
variable is over-dispersed, the confidence intervals for Negative
binomial regression are likely to be narrower as compared to those
from a Poisson regession.

Zero-inflated regression model - Zero-inflated models attempt to


account for excess zeros. In other words, two kinds of zeros are
thought to exist in the data, "true zeros" and "excess zeros". Zeroinflated models estimate two equations simultaneously, one for the
count model and one for the excess zeros.

OLS regression - Count outcome variables are sometimes logtransformed and analyzed using OLS regression. Many issues arise
with this approach, including loss of data due to undefined values
generated by taking the log of zero (which is undefined) and biased
estimates.

Poisson regression
Below we use the genlin command to estimate a Poisson regression model. We have one continuous
predictor and one categorical predictor. In the genlinline, we list our categorical predictor prog after "by"
and our continuous predictor math after "with". Both appear in the model line. We use
thecovb=robust option in the criteria line to obtain robust standard errors for the parameter estimates as
recommended by Cameron and Trivedi (2009) to control for mild violation of the distribution assumption
that the variance equals the mean. Finally, we ask SPSS to print out the model fit statistics, the summary of
the model effects, and the parameter estimates.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/CRITERIA COVB=ROBUST
/PRINT FIT SUMMARY SOLUTION.

The output begins with the Goodness of Fit table. This lists various
statistics indicating model fit. To assess the fit of the model, the
goodness-of-fit chi-squared test is provided in the first line of this table.
We evaluate the deviance (189.45) as Chi-square distributed with the
model degrees of freedom (196). This is not a test of the model
coefficients (which we saw in the header information), but a test of the
model form: Does the poisson model form fit our data? We conclude
that the model fits reasonably well because the goodness-of-fit chisquared test is not statistically significant (with 196 degrees of freedom,
p = 0.204). If the test had been statistically significant, it would indicate
that the data do not fit the model well. In that situation, we may try to
determine if there are omitted predictor variables, if our linearity
assumption holds and/or if there is an issue of over-dispersion.

Next we see the Omnibus Test. This is a test that all of the estimated
coefficients are equal to zero--a test of the model as a whole. From the
p-value, we can see that the model is statistically significant.

Next is the Tests of Model Effects. This evaluates each of the model
variables with the appropriate degrees of freedom. The prog variable is
categorical with three levels. Thus, it will appear in the model as two
one degree-of-freedom indicator variables. To assess the significance
of prog as a variable, we need to test these two dummy variables
together in a two degree-of-freedom chi-square test. This indicates
that prog is a statistically significant predictor of num_awards. The
continuous predictor variable math requires one degree-of-freedom in

the model, and so the test presented here is equivalent to that in the
Parameter Estimates output.

Next, we see the Parameter Estimates. This includes the regression


coefficients for each of the variables along with robust standard errors,
p-values and 95% confidence intervals for the coefficients. The
coefficient for math is 0.07. This means that the expected increase in
log count for a one-unit increase in math is .07. The indicator
variable [prog=1] is the expected difference in log count between group
1 and the reference group [prog=3]. Compared to level 3 of prog, the
expected log count for level 1 of prog decreases by about 0.37. The
indicator variable [prog=2] is the expected difference in log count
between group 2 and the reference group. Compared to level 3
of prog, the expected log count for level 2 of prog increases by about .
71. We saw from the Tests of Model Effects output that prog, overall, is
statistically significant.

Sometimes, we might want to present the regression results as incident rate ratios. These IRR values are
equal to our coefficients from the output above exponentiated and we can ask SPSS
to print solution(exponentiated).

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/CRITERIA METHOD=FISHER(1) SCALE=1
COVB=ROBUST
/PRINT SOLUTION (EXPONENTIATED).

The output above indicates that the incident rate for [prog=2] is 2.042
times the incident rate for the reference group,[prog=3]. Likewise, the
incident rate for [prog=1] is 0.691 times the incident rate for the reference
group holding the other variables at constant. The percent change in the
incident rate of num_awards is an increase of 7% for every unit increase
inmath.
Recall the form of our model equation:

log(num_awards)=Intercept+b1(prog=1)+b2(prog=2)+
b3math.
This implies:

num_awards=exp(Intercept+b1(prog=1)+b2(prog=2)+
b3math)=exp(Intercept)*exp(b1(prog=1))*
exp(b2(prog=2))*exp(b3math)
The coefficients have an additive effect in the log(y) scale and the IRR have a multiplicative effect in the y
scale.
For additional information on the various metrics in which the results can be presented, and the
interpretation of such, please see Regression Models for Categorical Dependent Variables Using Stata,
Second Edition by J. Scott Long and Jeremy Freese (2006).
To understand the model better, we can use the emmeans command to calculate the predicted counts at
each level of prog, holding all other variables (in this example, math) in the model at their means.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/CRITERIA METHOD=FISHER(1) SCALE=1
COVB=ROBUST
/PRINT NONE
/EMMEANS TABLES=prog SCALE=ORIGINAL.

In the output above, we see that the predicted number of events for level 1 of prog is about .21,
holding math at its mean. The predicted number of events for level 2 of prog is higher at .62, and the
predicted number of events for level 3 of prog is about .31. Note that the predicted count of level 2
of prog is (.62/.31) = 2.0 times higher than the predicted count for level 3 of prog. This matches what we
saw in the IRR output table.

Below we will obtain the predicted counts for each value of prog at two set values of math: 35 and 75.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/PRINT NONE
/EMMEANS TABLES=prog CONTROL =math(35)
SCALE=ORIGINAL.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/PRINT NONE
/EMMEANS TABLES=prog CONTROL =math(75)
SCALE=ORIGINAL.

The table above shows that with prog=1 and math held at 35, the average predicted count (or average
number of awards) is about .06; when math = 75, the average predicted count for prog=1 is about 1.01. If
we look at these predicted counts at math = 35 and math = 75, we can see that the ratio is (1.01/0.06) =
16.8. This matches (within rounding error) the IRR of 1.0727 for a 40 unit change: 1.0727^40 = 16.1.

Things to consider

When there seems to be an issue of dispersion, we should first check


if our model is appropriately specified, such as omitted variables and
functional forms. For example, if we omitted the predictor

variable prog in the example above, our model would seem to have a
problem with over-dispersion. In other words, a mis-specified model
could present a symptom like an over-dispersion problem.

Assuming that the model is correctly specified, you may want to


check for overdispersion. There are several tests including the
likelihood ratio test of over-dispersion parameter alpha by running the
same regression model using negative binomial distribution
(distribution = negbin).

One common cause of over-dispersion is excess zeros, which in turn


are generated by an additional data generating process. In this
situation, zero-inflated model should be considered.

If the data generating process does not allow for any 0s (such as the
number of days spent in the hospital), then a zero-truncated model may
be more appropriate.

The outcome variable in a Poisson regression cannot have negative


numbers.

Poisson regression is estimated via maximum likelihood estimation. It


usually requires a large sample size.

See also

SPSS Annotated Output: Poisson Regression

References
Long, J. S. 1997. Regression Models for Categorical and Limited
Dependent Variables. Thousand Oaks, CA: Sage Publications.

References

Cameron, A. C. and Trivedi, P. K. 2009. Microeconometrics Using


Stata. College Station, TX: Stata Press.

Cameron, A. C. and Trivedi, P. K. 1998. Regression Analysis of


Count Data. New York: Cambridge Press.

Cameron, A. C. Advances in Count Data Regression Talk for the


Applied Statistics Workshop, March 28,
2009.http://cameron.econ.ucdavis.edu/racd/count.html .

Dupont, W. D. 2002. Statistical Modeling for Biomedical


Researchers: A Simple Introduction to the Analysis of Complex Data.
New York: Cambridge Press.

Long, J. S. 1997. Regression Models for Categorical and Limited


Dependent Variables. Thousand Oaks, CA: Sage Publications.

Long, J. S. and Freese, J. 2006. Regression Models for Categorical


Dependent Variables Using Stata, Second Edition. College Station,
TX: Stata Press.

PSS Data Analysis Examples


Poisson Regression
Poisson regression is used to model count variables.
Please note: The purpose of this page is to show how to use various data analysis commands. It does not
cover all aspects of the research process which researchers are expected to do. In particular, it does not
cover data cleaning and checking, verification of assumptions, model diagnostics or potential follow-up
analyses.
This page is done using SPSS 19.

Examples of Poisson regression


Example 1. The number of persons killed by mule or horse kicks in the Prussian army per year. Ladislaus
Bortkiewicz collected data from 20 volumes ofPreussischen Statistik. These data were collected on 10
corps of the Prussian army in the late 1800s over the course of 20 years.
Example 2. The number of people in line in front of you at the grocery store. Predictors may include the
number of items currently offered at a special discounted price and whether a special event (e.g., a holiday,
a big sporting event) is three or fewer days away.
Example 3. The number of awards earned by students at one high school. Predictors of the number of
awards earned include the type of program in which the student was enrolled (e.g., vocational, general or
academic) and the score on their final exam in math.

Description of the Data


For the purpose of illustration, we have simulated a data set for Example 3 above: poisson_sim.sav. In this
example, num_awards is the outcome variable and indicates the number of awards earned by students at
a high school in a year, math is a continuous predictor variable and represents students' scores on their
math final exam, and prog is a categorical predictor variable with three levels indicating the type of
program in which the students were enrolled.

Let's start with loading the data and looking at some descriptive statistics.

GET
FILE='poisson_sim.sav'.
DESCRIPTIVES
VARIABLES=math num_awards
/STATISTICS=MEAN STDDEV VAR MIN MAX .

Each variable has 200 valid observations and their distributions seem quite reasonable.
The unconditional mean and variance of our outcome variable are not extremely different. Our model
assumes that these values, conditioned on the predictor variables, will be equal (or at least roughly so).
Let's continue with our description of the variables in this dataset. The table below shows the average
numbers of awards by program type and seems to suggest that program type is a good candidate for
predicting the number of awards, our outcome variable, because the mean value of the outcome appears
to vary by prog. Additionally, the means and variances within each level of prog--the conditional means
and variances--are similar.

MEANS tables = num_awards by prog.

GRAPH
/HISTOGRAM=num_awards.

Analysis methods you might consider


Below is a list of some analysis methods you may have encountered. Some of the methods listed are quite
reasonable, while others have either fallen out of favor or have limitations.

Poisson regression - Poisson regression is often used for modeling


count data. It has a number of extensions useful for count models.

Negative binomial regression - Negative binomial regression can be


used for over-dispersed count data, that is when the conditional
variance exceeds the conditional mean. It can be considered as a
generalization of Poisson regression since it has the same mean
structure as Poisson regression and it has an extra parameter to model
the over-dispersion. If the conditional distribution of the outcome
variable is over-dispersed, the confidence intervals for Negative
binomial regression are likely to be narrower as compared to those
from a Poisson regession.

Zero-inflated regression model - Zero-inflated models attempt to


account for excess zeros. In other words, two kinds of zeros are
thought to exist in the data, "true zeros" and "excess zeros". Zeroinflated models estimate two equations simultaneously, one for the
count model and one for the excess zeros.

OLS regression - Count outcome variables are sometimes logtransformed and analyzed using OLS regression. Many issues arise
with this approach, including loss of data due to undefined values
generated by taking the log of zero (which is undefined) and biased
estimates.

Poisson regression
Below we use the genlin command to estimate a Poisson regression model. We have one continuous
predictor and one categorical predictor. In the genlinline, we list our categorical predictor prog after "by"
and our continuous predictor math after "with". Both appear in the model line. We use
thecovb=robust option in the criteria line to obtain robust standard errors for the parameter estimates as
recommended by Cameron and Trivedi (2009) to control for mild violation of the distribution assumption
that the variance equals the mean. Finally, we ask SPSS to print out the model fit statistics, the summary of
the model effects, and the parameter estimates.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/CRITERIA COVB=ROBUST
/PRINT FIT SUMMARY SOLUTION.

The output begins with the Goodness of Fit table. This lists various
statistics indicating model fit. To assess the fit of the model, the
goodness-of-fit chi-squared test is provided in the first line of this table.
We evaluate the deviance (189.45) as Chi-square distributed with the
model degrees of freedom (196). This is not a test of the model
coefficients (which we saw in the header information), but a test of the
model form: Does the poisson model form fit our data? We conclude
that the model fits reasonably well because the goodness-of-fit chisquared test is not statistically significant (with 196 degrees of freedom,
p = 0.204). If the test had been statistically significant, it would indicate
that the data do not fit the model well. In that situation, we may try to
determine if there are omitted predictor variables, if our linearity
assumption holds and/or if there is an issue of over-dispersion.

Next we see the Omnibus Test. This is a test that all of the estimated
coefficients are equal to zero--a test of the model as a whole. From the
p-value, we can see that the model is statistically significant.

Next is the Tests of Model Effects. This evaluates each of the model
variables with the appropriate degrees of freedom. The prog variable is
categorical with three levels. Thus, it will appear in the model as two
one degree-of-freedom indicator variables. To assess the significance
of prog as a variable, we need to test these two dummy variables
together in a two degree-of-freedom chi-square test. This indicates
that prog is a statistically significant predictor of num_awards. The
continuous predictor variable math requires one degree-of-freedom in

the model, and so the test presented here is equivalent to that in the
Parameter Estimates output.

Next, we see the Parameter Estimates. This includes the regression


coefficients for each of the variables along with robust standard errors,
p-values and 95% confidence intervals for the coefficients. The
coefficient for math is 0.07. This means that the expected increase in
log count for a one-unit increase in math is .07. The indicator
variable [prog=1] is the expected difference in log count between group
1 and the reference group [prog=3]. Compared to level 3 of prog, the
expected log count for level 1 of prog decreases by about 0.37. The
indicator variable [prog=2] is the expected difference in log count
between group 2 and the reference group. Compared to level 3
of prog, the expected log count for level 2 of prog increases by about .
71. We saw from the Tests of Model Effects output that prog, overall, is
statistically significant.

Sometimes, we might want to present the regression results as incident rate ratios. These IRR values are
equal to our coefficients from the output above exponentiated and we can ask SPSS
to print solution(exponentiated).

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/CRITERIA METHOD=FISHER(1) SCALE=1
COVB=ROBUST
/PRINT SOLUTION (EXPONENTIATED).

The output above indicates that the incident rate for [prog=2] is 2.042
times the incident rate for the reference group,[prog=3]. Likewise, the
incident rate for [prog=1] is 0.691 times the incident rate for the reference
group holding the other variables at constant. The percent change in the
incident rate of num_awards is an increase of 7% for every unit increase
inmath.
Recall the form of our model equation:

log(num_awards)=Intercept+b1(prog=1)+b2(prog=2)+
b3math.
This implies:

num_awards=exp(Intercept+b1(prog=1)+b2(prog=2)+
b3math)=exp(Intercept)*exp(b1(prog=1))*
exp(b2(prog=2))*exp(b3math)
The coefficients have an additive effect in the log(y) scale and the IRR have a multiplicative effect in the y
scale.
For additional information on the various metrics in which the results can be presented, and the
interpretation of such, please see Regression Models for Categorical Dependent Variables Using Stata,
Second Edition by J. Scott Long and Jeremy Freese (2006).
To understand the model better, we can use the emmeans command to calculate the predicted counts at
each level of prog, holding all other variables (in this example, math) in the model at their means.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/CRITERIA METHOD=FISHER(1) SCALE=1
COVB=ROBUST
/PRINT NONE
/EMMEANS TABLES=prog SCALE=ORIGINAL.

In the output above, we see that the predicted number of events for level 1 of prog is about .21,
holding math at its mean. The predicted number of events for level 2 of prog is higher at .62, and the
predicted number of events for level 3 of prog is about .31. Note that the predicted count of level 2
of prog is (.62/.31) = 2.0 times higher than the predicted count for level 3 of prog. This matches what we
saw in the IRR output table.

Below we will obtain the predicted counts for each value of prog at two set values of math: 35 and 75.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/PRINT NONE
/EMMEANS TABLES=prog CONTROL =math(35)
SCALE=ORIGINAL.

GENLIN num_awards BY prog WITH math


/MODEL prog math INTERCEPT=YES
DISTRIBUTION=POISSON LINK=LOG
/PRINT NONE
/EMMEANS TABLES=prog CONTROL =math(75)
SCALE=ORIGINAL.

The table above shows that with prog=1 and math held at 35, the average predicted count (or average
number of awards) is about .06; when math = 75, the average predicted count for prog=1 is about 1.01. If
we look at these predicted counts at math = 35 and math = 75, we can see that the ratio is (1.01/0.06) =
16.8. This matches (within rounding error) the IRR of 1.0727 for a 40 unit change: 1.0727^40 = 16.1.

Things to consider

When there seems to be an issue of dispersion, we should first check


if our model is appropriately specified, such as omitted variables and
functional forms. For example, if we omitted the predictor

variable prog in the example above, our model would seem to have a
problem with over-dispersion. In other words, a mis-specified model
could present a symptom like an over-dispersion problem.

Assuming that the model is correctly specified, you may want to


check for overdispersion. There are several tests including the
likelihood ratio test of over-dispersion parameter alpha by running the
same regression model using negative binomial distribution
(distribution = negbin).

One common cause of over-dispersion is excess zeros, which in turn


are generated by an additional data generating process. In this
situation, zero-inflated model should be considered.

If the data generating process does not allow for any 0s (such as the
number of days spent in the hospital), then a zero-truncated model may
be more appropriate.

The outcome variable in a Poisson regression cannot have negative


numbers.

Poisson regression is estimated via maximum likelihood estimation. It


usually requires a large sample size.

See also

SPSS Annotated Output: Poisson Regression

References
Long, J. S. 1997. Regression Models for Categorical and Limited
Dependent Variables. Thousand Oaks, CA: Sage Publications.

References

Cameron, A. C. and Trivedi, P. K. 2009. Microeconometrics Using


Stata. College Station, TX: Stata Press.

Cameron, A. C. and Trivedi, P. K. 1998. Regression Analysis of


Count Data. New York: Cambridge Press.

Cameron, A. C. Advances in Count Data Regression Talk for the


Applied Statistics Workshop, March 28,
2009.http://cameron.econ.ucdavis.edu/racd/count.html .

Dupont, W. D. 2002. Statistical Modeling for Biomedical


Researchers: A Simple Introduction to the Analysis of Complex Data.
New York: Cambridge Press.

Long, J. S. 1997. Regression Models for Categorical and Limited


Dependent Variables. Thousand Oaks, CA: Sage Publications.

Long, J. S. and Freese, J. 2006. Regression Models for Categorical


Dependent Variables Using Stata, Second Edition. College Station,
TX: Stata Press.

Analisis S SPSS data Contoh


Poisson Regression
Regresi Poisson digunakan untuk memodelkan variabel count.
Harap dicatat: Tujuan dari halaman ini adalah untuk menunjukkan bagaimana menggunakan berbagai perintah
analisis data. Ini tidak mencakup semua aspek dari proses penelitian peneliti yang diharapkan untuk
melakukan. Secara khusus, itu tidak mencakup pembersihan data dan pengecekan, verifikasi asumsi, diagnostik
model atau analisis tindak lanjut potensial.
Halaman ini dilakukan dengan menggunakan SPSS 19.

Contoh regresi Poisson


Contoh 1. Jumlah orang dibunuh oleh keledai atau kuda tendangan tentara Prusia per tahun. Ladislaus
Bortkiewicz mengumpulkan data dari 20 jilid Preussischen Statistik. Data ini dikumpulkan pada 10 korps tentara
Prusia di akhir 1800-an selama 20 tahun.
Contoh 2. Jumlah orang di garis depan dari Anda di toko kelontong. Prediktor mungkin termasuk jumlah item
saat ini ditawarkan dengan harga diskon khusus dan apakah acara khusus (misalnya, liburan, acara olahraga
besar) adalah tiga atau lebih sedikit hari lagi.
Contoh 3. Jumlah penghargaan yang diterima oleh siswa di salah satu sekolah tinggi. Prediktor jumlah
penghargaan yang diterima termasuk jenis program di mana mahasiswa terdaftar (misalnya, kejuruan, umum
atau akademik) dan skor pada ujian akhir mereka dalam matematika.

Deskripsi Data
Untuk tujuan ilustrasi, kami telah disimulasikan satu set data untuk Contoh 3 di atas: poisson_sim.sav . Dalam
contoh ini, num_awards adalah variabel hasil dan menunjukkan jumlah penghargaan yang diterima oleh siswa
di sebuah sekolah tinggi dalam setahun, matematika merupakan variabel prediktor terus menerus dan

merupakan nilai siswa pada matematika ujian akhir mereka, dan prog adalah variabel prediktor kategoris
dengan tiga tingkat yang menunjukkan jenis program di mana siswa yang terdaftar.
Mari kita mulai dengan memuat data dan melihat beberapa statistik deskriptif.

GET
FILE = 'poisson_sim.sav'.
Descriptives
VARIABEL = num_awards matematika
/ STATISTIK = MEAN stddev VAR MIN MAX.
Setiap variabel memiliki 200 observasi yang valid dan distribusi mereka tampaknya cukup masuk
akal. Mean bersyarat dan varians dari variabel hasil kami tidak sangat berbeda. Model kami mengasumsikan
bahwa nilai-nilai, AC pada variabel prediktor, akan sama (atau setidaknya sekitar begitu).
Mari kita lanjutkan dengan deskripsi kita tentang variabel dalam dataset ini. Tabel di bawah ini menunjukkan
angka rata-rata penghargaan oleh jenis program dan tampaknya menunjukkan bahwa jenis program adalah
calon yang baik untuk memprediksi jumlah penghargaan, variabel hasil kami, karena nilai rata-rata hasil
tampaknya bervariasi oleh prog. Selain itu, sarana dan variasi dalam setiap tingkat prog --the
berartikondisional dan varians - mirip.

BERARTI tabel = num_awards oleh prog.


GAMBAR
/ HISTOGRAM = num_awards.
Metode analisis Anda mungkin mempertimbangkan
Berikut adalah daftar dari beberapa metode analisis Anda mungkin mengalami. Beberapa metode yang terdaftar
cukup masuk akal, sementara yang lain telah baik jatuh dari nikmat atau memiliki keterbatasan.

Regresi Poisson - Poisson regresi sering digunakan untuk data


modeling hitungan. Ini memiliki sejumlah ekstensi yang berguna untuk model
penghitungan.

Regresi binomial negatif - regresi binomial negatif dapat digunakan


untuk lebih tersebar Data count, yaitu ketika varians bersyarat melebihi ratarata bersyarat. Hal ini dapat dianggap sebagai generalisasi dari regresi
Poisson karena memiliki struktur rata-rata sama dengan regresi Poisson dan
memiliki parameter tambahan untuk model over-dispersi. Jika distribusi
bersyarat dari variabel hasil lebih tersebar, interval kepercayaan untuk regresi
binomial negatif cenderung sempit dibandingkan dengan orang-orang dari
regession Poisson.

Zero-meningkat model regresi -.. Model Zero-meningkat mencoba untuk


memperhitungkan kelebihan nol Dengan kata lain, dua jenis
noldiperkirakan ada di data, "nol benar" dan "kelebihan nol" model Zeromeningkat memperkirakan dua persamaan secara bersamaan, satu untuk
model hitungan dan satu untuk nol berlebih.

OLS regression - Hitung variabel hasil kadang-kadang log-berubah dan


dianalisis menggunakan regresi OLS Banyak masalah timbul dengan
pendekatan ini, termasuk kehilangan data karena nilai-nilai yang dihasilkan
tidak terdefinisi dengan mengambil log dari nol (yang tidak terdefinisi) dan
perkiraan bias..

Regresi Poisson
Di bawah ini kita menggunakan perintah genlin untuk memperkirakan model regresi Poisson. Kami memiliki satu
prediktor terus menerus dan satu prediktor kategoris. Pada baris genlin, kita daftar prediktor progkategoris kami
setelah "oleh" dan prediktor matematika terus menerus kami setelah "dengan". Kedua muncul dalam garis
model. Kami menggunakan covb = pilihan yang kuat di garis kriteria untuk mendapatkan kesalahan standar
yang kuat untuk estimasi parameter seperti yang direkomendasikan oleh Cameron dan Trivedi (2009) untuk
mengendalikan pelanggaran ringan asumsi distribusi yang varians sama mean.Akhirnya, kami meminta SPSS
untuk mencetak model fit statistik, ringkasan dari efek model, dan perkiraan parameter.

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ KRITERIA COVB = KOKOH
/ PRINT FIT RINGKASAN SOLUTION.

Output dimulai dengan Goodness of Fit meja. Ini berisi daftar berbagai
statistik yang menunjukkan model fit. Untuk menilai fit dari model, uji chisquared kebaikan-of-fit disediakan di baris pertama tabel ini. Kami
mengevaluasi penyimpangan (189,45) sebagai Chi-kuadrat dengan derajat
kebebasan model (196). Ini bukan tes koefisien Model (yang kita lihat dalam
informasi header), tetapi tes bentuk Model: Apakah bentuk Model poisson
sesuai data kami? Kami menyimpulkan bahwa model cocok cukup baik
karena tes chi-kuadrat kebaikan-of-fit tidak signifikan secara statistik (dengan
196 derajat kebebasan, p = 0,204). Jika tes telah signifikan secara statistik, itu
akan menunjukkan bahwa data dilakukan tidak cocok model juga. Dalam
situasi itu, kita dapat mencoba untuk menentukan apakah ada dihilangkan

variabel prediktor, jika asumsi linearitas kami memegang dan / atau jika ada
masalah over-dispersi.

Berikutnya kita melihat Uji Omnibus. Ini adalah tes


yang semua koefisien diperkirakan sama dengan nol - tes dari model secara
keseluruhan. Dari p-nilai, kita dapat melihat bahwa model tersebut signifikan
secara statistik.

Berikutnya adalah Pengujian Model Efek. Ini mengevaluasi setiap


variabel model dengan derajat kebebasan yang tepat. Variabel prog adalah
kategoris dengan tiga tingkat. Dengan demikian, akan muncul dalam model
sebagai dua satu derajat-of-kebebasan variabel indikator. Untuk menilai
pentingnya prog sebagai variabel, kita perlu menguji kedua variabel boneka
bersama dalam dua derajat-of-kebebasan uji chi-square. Hal ini menunjukkan
bahwa prog adalah prediktor signifikan secara statistik
dari num_awards. Prediktor terus menerus
variabel matematikamembutuhkan satu derajat-of-kebebasan dalam model,
dan tes yang disajikan di sini adalah setara dengan yang di output Perkiraan
Parameter.

Berikutnya, kita melihat Perkiraan Parameter. Ini termasuk koefisien


regresi untuk masing-masing variabel bersama dengan kesalahan yang kuat
standar, p-nilai dan interval kepercayaan 95% untuk koefisien. Koefisien
untuk matematika adalah 0,07. Ini berarti bahwa peningkatan yang
diharapkan dalam log hitungan untuk peningkatan satu unit
dalam matematika adalah 07. Indikator variabel [prog = 1] adalah perbedaan
diharapkan log hitungan antara kelompok 1 dan kelompok referensi [prog
= 3]. Dibandingkan dengan tingkat 3 dari prog, jumlah log diharapkan untuk
level 1 dari penurunan prog sekitar 0,37. Indikator variabel [prog = 2] adalah
perbedaan diharapkan log hitungan antara kelompok 2 dan kelompok
referensi. Dibandingkan dengan tingkat 3 dari prog, jumlah log yang
diharapkan untuk tingkat 2 dari prog meningkat sekitar 0,71. Kami melihat
dari Tes Model Efek output yang prog, secara keseluruhan, adalah signifikan
secara statistik.
Kadang-kadang, kita mungkin ingin menyajikan hasil regresi sebagai rasio tingkat insiden. Nilai-nilai IRR sama
dengan koefisien kami dari output atas exponentiated dan kita dapat meminta SPSS untuk mencetak solusi
(exponentiated).

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ KRITERIA METODE = FISHER (1) SKALA = 1 COVB =
KOKOH

/ PRINT SOLUTION (EXPONENTIATED).


Output di atas menunjukkan bahwa tingkat insiden untuk [prog = 2] adalah
2,042 kali tingkat insiden untuk kelompok referensi, [prog = 3]. Demikian juga,
tingkat insiden untuk [prog = 1] adalah 0.691 kali tingkat insiden untuk
kelompok referensi memegang variabel lain di konstan. Perubahan persen
dalam tingkat insiden num_awards merupakan peningkatan 7% untuk setiap
kenaikan unit matematika.
Ingat bentuk persamaan model kita:

log(num_awards)=Intercept+b1(prog=1)+b2(prog
=2)+b3matematika.
Ini berarti:

num_awards=exp(Intercept+b1(prog=1)+b2(prog=
2)+b3matematika)=exp(Intercept)*exp(b1(prog=
1))*exp(b2(prog=2))*exp(b3matematika)
Koefisien memiliki efek aditif dalam log (y) skala dan IRR memiliki efek perkalian dalam skala y.
Untuk informasi tambahan mengenai berbagai metrik yang hasilnya dapat disajikan, dan penafsiran seperti itu,
silakan lihat Regression Model untuk Variabel Dependent kategoris Menggunakan Stata, Edisi Keduaoleh J.
Scott panjang dan Jeremy Freese (2006).
Untuk memahami model yang lebih baik, kita dapat menggunakan perintah emmeans untuk menghitung jumlah
diprediksi pada setiap tingkat prog, memegang semua variabel lain (dalam contoh ini, matematika)dalam model
di kemampuan mereka.

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ KRITERIA METODE = FISHER (1) SKALA = 1 COVB =
KOKOH
/ PRINT NONE
/ EMMEANS TABLES = prog SKALA = ORIGINAL.
Pada contoh di atas, kita melihat bahwa jumlah diprediksi acara untuk level 1 dari prog adalah sekitar 0,21,
memegang matematika di mean. Jumlah itu diprediksi acara untuk level 2 dari prog lebih tinggi di 0,62, dan
jumlah diprediksi acara untuk tingkat 3 dari prog adalah sekitar 0,31. Perhatikan bahwa jumlah prediksi tingkat 2
dari prog adalah (0,62 / 0,31) = 2,0 kali lebih tinggi dari jumlah yang diperkirakan untuk tingkat 3 dari prog. Ini
sesuai dengan apa yang kita lihat di tabel output IRR.
Di bawah ini kita akan mendapatkan jumlah yang diperkirakan untuk setiap nilai prog di dua nilai
set matematika: 35 dan 75.

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES

DISTRIBUSI POISSON = LINK = LOG


/ PRINT NONE
/ EMMEANS TABLES = prog KONTROL = matematika
(35) SKALA = ORIGINAL.
GENLIN num_awards BY prog DENGAN matematika
/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ PRINT NONE
/ EMMEANS TABLES = prog KONTROL = matematika
(75) SKALA = ORIGINAL.
Tabel di atas menunjukkan bahwa dengan prog = 1 dan matematika diadakan di 35, jumlah diperkirakan ratarata (atau rata-rata jumlah penghargaan) adalah sekitar 0,06; ketika matematika = 75, jumlah diprediksi ratarata untuk prog = 1 adalah tentang 1,01. Jika kita melihat ini jumlah diprediksi matematika = 35 dan matematika
= 75, kita dapat melihat bahwa rasio (1,01 / 0,06) = 16,8. Ini cocok (dalam pembulatan error) IRR 1,0727 untuk
perubahan 40 Unit: 1,0727 ^ 40 = 16.1.

Hal yang perlu dipertimbangkan


Ketika tampaknya menjadi masalah dispersi, kita harus terlebih dahulu
memeriksa apakah model kita dengan tepat ditentukan, seperti variabel
dihilangkan dan bentuk fungsional. Sebagai contoh, jika kita menghilangkan
prediktor variabel prog dalam contoh di atas, model kami tampaknya memiliki
masalah dengan over-dispersi. Dengan kata lain, model mis-ditentukan bisa
menyajikan gejala seperti masalah over-dispersi.

Dengan asumsi bahwa model tersebut ditentukan dengan benar, Anda


mungkin ingin memeriksa overdispersion. Ada beberapa tes termasuk tes
rasio kemungkinan over-dispersi parameter alpha dengan menjalankan model
regresi yang sama menggunakan distribusi binomial
negatif(distribusi = negbin).

Salah satu penyebab umum dari over-dispersi nol berlebih, yang pada
gilirannya dihasilkan oleh proses menghasilkan data tambahan. Dalam situasi
ini, Model nol-meningkat harus dipertimbangkan.

Jika proses menghasilkan data yang tidak memungkinkan untuk 0s


(seperti jumlah hari yang dihabiskan di rumah sakit), maka model nol-dipotong
mungkin lebih tepat.

Variabel hasil dalam regresi Poisson tidak dapat memiliki angka negatif.

Regresi Poisson diperkirakan melalui estimasi kemungkinan


maksimum. Ini biasanya membutuhkan ukuran sampel yang besar.

Lihat juga

SPSS Beranotasi Output: Poisson Regression


Referensi
Panjang, JS 1997. Regression Model untuk Variabel Dependent kategoris
dan Terbatas Thousand Oaks, CA:. Sage Publications.

Referensi
Cameron, AC dan Trivedi, PK 2009. Microeconometrics
Menggunakan College Station Stata, TX:. Stata Press.

Cameron, AC dan Trivedi, PK 1998. Regresi Analisis Count data New


York:. Cambridge Press.

Cameron, AC Kemajuan Hitungan data Regresi Bicara untuk Statistik


Terapan Workshop, 28 Maret
2009.http://cameron.econ.ucdavis.edu/racd/count.html .

Dupont, WD 2002. statistik Modeling Biomedis Peneliti: Sebuah


Pengantar Sederhana untuk Analisis Data Complex New York:. Cambridge
Press.

Panjang, JS 1997. Regression Model untuk Variabel Dependent


kategoris dan Terbatas Thousand Oaks, CA:. Sage Publications.

Panjang, JS dan Freese, J. 2006. Regression Model untuk Variabel


Dependent kategoris Menggunakan Stata, Second Edition College Station,
TX:. Stata Press.

PSS Analisis Data Contoh


Poisson Regression
Regresi Poisson digunakan untuk memodelkan variabel count.
Harap dicatat: Tujuan dari halaman ini adalah untuk menunjukkan bagaimana menggunakan berbagai perintah
analisis data. Ini tidak mencakup semua aspek dari proses penelitian peneliti yang diharapkan untuk
melakukan. Secara khusus, itu tidak mencakup pembersihan data dan pengecekan, verifikasi asumsi, diagnostik
model atau analisis tindak lanjut potensial.
Halaman ini dilakukan dengan menggunakan SPSS 19.

Contoh regresi Poisson


Contoh 1. Jumlah orang dibunuh oleh keledai atau kuda tendangan tentara Prusia per tahun. Ladislaus
Bortkiewicz mengumpulkan data dari 20 jilid Preussischen Statistik. Data ini dikumpulkan pada 10 korps tentara
Prusia di akhir 1800-an selama 20 tahun.

Contoh 2. Jumlah orang di garis depan dari Anda di toko kelontong. Prediktor mungkin termasuk jumlah item
saat ini ditawarkan dengan harga diskon khusus dan apakah acara khusus (misalnya, liburan, acara olahraga
besar) adalah tiga atau lebih sedikit hari lagi.
Contoh 3. Jumlah penghargaan yang diterima oleh siswa di salah satu sekolah tinggi. Prediktor jumlah
penghargaan yang diterima termasuk jenis program di mana mahasiswa terdaftar (misalnya, kejuruan, umum
atau akademik) dan skor pada ujian akhir mereka dalam matematika.

Deskripsi Data
Untuk tujuan ilustrasi, kami telah disimulasikan satu set data untuk Contoh 3 di atas: poisson_sim.sav . Dalam
contoh ini, num_awards adalah variabel hasil dan menunjukkan jumlah penghargaan yang diterima oleh siswa
di sebuah sekolah tinggi dalam setahun, matematika merupakan variabel prediktor terus menerus dan
merupakan nilai siswa pada matematika ujian akhir mereka, dan prog adalah variabel prediktor kategoris
dengan tiga tingkat yang menunjukkan jenis program di mana siswa yang terdaftar.
Mari kita mulai dengan memuat data dan melihat beberapa statistik deskriptif.

GET
FILE = 'poisson_sim.sav'.
Descriptives
VARIABEL = num_awards matematika
/ STATISTIK = MEAN stddev VAR MIN MAX.
Setiap variabel memiliki 200 observasi yang valid dan distribusi mereka tampaknya cukup masuk
akal. Mean bersyarat dan varians dari variabel hasil kami tidak sangat berbeda. Model kami mengasumsikan
bahwa nilai-nilai, AC pada variabel prediktor, akan sama (atau setidaknya sekitar begitu).
Mari kita lanjutkan dengan deskripsi kita tentang variabel dalam dataset ini. Tabel di bawah ini menunjukkan
angka rata-rata penghargaan oleh jenis program dan tampaknya menunjukkan bahwa jenis program adalah
calon yang baik untuk memprediksi jumlah penghargaan, variabel hasil kami, karena nilai rata-rata hasil
tampaknya bervariasi oleh prog. Selain itu, sarana dan variasi dalam setiap tingkat prog --the
berartikondisional dan varians - mirip.

BERARTI tabel = num_awards oleh prog.


GAMBAR
/ HISTOGRAM = num_awards.
Metode analisis Anda mungkin mempertimbangkan
Berikut adalah daftar dari beberapa metode analisis Anda mungkin mengalami. Beberapa metode yang terdaftar
cukup masuk akal, sementara yang lain telah baik jatuh dari nikmat atau memiliki keterbatasan.

Regresi Poisson - Poisson regresi sering digunakan untuk data


modeling hitungan. Ini memiliki sejumlah ekstensi yang berguna untuk model
penghitungan.

Regresi binomial negatif - regresi binomial negatif dapat digunakan


untuk lebih tersebar Data count, yaitu ketika varians bersyarat melebihi ratarata bersyarat. Hal ini dapat dianggap sebagai generalisasi dari regresi
Poisson karena memiliki struktur rata-rata sama dengan regresi Poisson dan
memiliki parameter tambahan untuk model over-dispersi. Jika distribusi
bersyarat dari variabel hasil lebih tersebar, interval kepercayaan untuk regresi
binomial negatif cenderung sempit dibandingkan dengan orang-orang dari
regession Poisson.

Zero-meningkat model regresi -.. Model Zero-meningkat mencoba untuk


memperhitungkan kelebihan nol Dengan kata lain, dua jenis nol diperkirakan
ada di data, "nol benar" dan "kelebihan nol" model Zero-meningkat
memperkirakan dua persamaan secara bersamaan, satu untuk model
hitungan dan satu untuk nol berlebih.

OLS regression - Hitung variabel hasil kadang-kadang log-berubah dan


dianalisis menggunakan regresi OLS Banyak masalah timbul dengan
pendekatan ini, termasuk kehilangan data karena nilai-nilai yang dihasilkan
tidak terdefinisi dengan mengambil log dari nol (yang tidak terdefinisi) dan
perkiraan bias..

Regresi Poisson
Di bawah ini kita menggunakan perintah genlin untuk memperkirakan model regresi Poisson. Kami memiliki satu
prediktor terus menerus dan satu prediktor kategoris. Pada baris genlin, kita daftar prediktor progkategoris kami
setelah "oleh" dan prediktor matematika terus menerus kami setelah "dengan". Kedua muncul dalam garis
model. Kami menggunakan covb = pilihan yang kuat di garis kriteria untuk mendapatkan kesalahan standar
yang kuat untuk estimasi parameter seperti yang direkomendasikan oleh Cameron dan Trivedi (2009) untuk
mengendalikan pelanggaran ringan asumsi distribusi yang varians sama mean.Akhirnya, kami meminta SPSS
untuk mencetak model fit statistik, ringkasan dari efek model, dan perkiraan parameter.

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ KRITERIA COVB = KOKOH
/ PRINT FIT RINGKASAN SOLUTION.

Output dimulai dengan Goodness of Fit meja. Ini berisi daftar berbagai
statistik yang menunjukkan model fit. Untuk menilai fit dari model, uji chisquared kebaikan-of-fit disediakan di baris pertama tabel ini. Kami
mengevaluasi penyimpangan (189,45) sebagai Chi-kuadrat dengan derajat
kebebasan model (196). Ini bukan tes koefisien Model (yang kita lihat dalam
informasi header), tetapi tes bentuk Model: Apakah bentuk Model poisson
sesuai data kami? Kami menyimpulkan bahwa model cocok cukup baik
karena tes chi-kuadrat kebaikan-of-fit tidak signifikan secara statistik (dengan
196 derajat kebebasan, p = 0,204). Jika tes telah signifikan secara statistik, itu
akan menunjukkan bahwa data dilakukan tidak cocok model juga. Dalam
situasi itu, kita dapat mencoba untuk menentukan apakah ada dihilangkan
variabel prediktor, jika asumsi linearitas kami memegang dan / atau jika ada
masalah over-dispersi.

Berikutnya kita melihat Uji Omnibus. Ini adalah tes


yang semua koefisien diperkirakan sama dengan nol - tes dari model secara
keseluruhan. Dari p-nilai, kita dapat melihat bahwa model tersebut signifikan
secara statistik.

Berikutnya adalah Pengujian Model Efek. Ini mengevaluasi setiap


variabel model dengan derajat kebebasan yang tepat. Variabel prog adalah
kategoris dengan tiga tingkat. Dengan demikian, akan muncul dalam model
sebagai dua satu derajat-of-kebebasan variabel indikator. Untuk menilai
pentingnya prog sebagai variabel, kita perlu menguji kedua variabel boneka
bersama dalam dua derajat-of-kebebasan uji chi-square. Hal ini menunjukkan
bahwa prog adalah prediktor signifikan secara statistik
dari num_awards. Prediktor terus menerus
variabel matematikamembutuhkan satu derajat-of-kebebasan dalam model,
dan tes yang disajikan di sini adalah setara dengan yang di output Perkiraan
Parameter.

Berikutnya, kita melihat Perkiraan Parameter. Ini termasuk koefisien


regresi untuk masing-masing variabel bersama dengan kesalahan yang kuat
standar, p-nilai dan interval kepercayaan 95% untuk koefisien. Koefisien
untuk matematika adalah 0,07. Ini berarti bahwa peningkatan yang
diharapkan dalam log hitungan untuk peningkatan satu unit
dalam matematika adalah 07. Indikator variabel [prog = 1] adalah perbedaan
diharapkan log hitungan antara kelompok 1 dan kelompok referensi [prog
= 3]. Dibandingkan dengan tingkat 3 dari prog, jumlah log diharapkan untuk
level 1 dari penurunan prog sekitar 0,37. Indikator variabel [prog = 2] adalah
perbedaan diharapkan log hitungan antara kelompok 2 dan kelompok

referensi. Dibandingkan dengan tingkat 3 dari prog, jumlah log yang


diharapkan untuk tingkat 2 dari prog meningkat sekitar 0,71. Kami melihat
dari Tes Model Efek output yang prog, secara keseluruhan, adalah signifikan
secara statistik.
Kadang-kadang, kita mungkin ingin menyajikan hasil regresi sebagai rasio tingkat insiden. Nilai-nilai IRR sama
dengan koefisien kami dari output atas exponentiated dan kita dapat meminta SPSS untuk mencetak solusi
(exponentiated).

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ KRITERIA METODE = FISHER (1) SKALA = 1 COVB =
KOKOH
/ PRINT SOLUTION (EXPONENTIATED).
Output di atas menunjukkan bahwa tingkat insiden untuk [prog = 2] adalah
2,042 kali tingkat insiden untuk kelompok referensi, [prog = 3]. Demikian juga,
tingkat insiden untuk [prog = 1] adalah 0.691 kali tingkat insiden untuk
kelompok referensi memegang variabel lain di konstan. Perubahan persen
dalam tingkat insiden num_awards merupakan peningkatan 7% untuk setiap
kenaikan unit matematika.
Ingat bentuk persamaan model kita:

log(num_awards)=Intercept+b1(prog=1)+b2(prog
=2)+b3matematika.
Ini berarti:

num_awards=exp(Intercept+b1(prog=1)+b2(prog=
2)+b3matematika)=exp(Intercept)*exp(b1(prog=
1))*exp(b2(prog=2))*exp(b3matematika)
Koefisien memiliki efek aditif dalam log (y) skala dan IRR memiliki efek perkalian dalam skala y.
Untuk informasi tambahan mengenai berbagai metrik yang hasilnya dapat disajikan, dan penafsiran seperti itu,
silakan lihat Regression Model untuk Variabel Dependent kategoris Menggunakan Stata, Edisi Keduaoleh J.
Scott panjang dan Jeremy Freese (2006).
Untuk memahami model yang lebih baik, kita dapat menggunakan perintah emmeans untuk menghitung jumlah
diprediksi pada setiap tingkat prog, memegang semua variabel lain (dalam contoh ini, matematika)dalam model
di kemampuan mereka.

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ KRITERIA METODE = FISHER (1) SKALA = 1 COVB =
KOKOH

/ PRINT NONE
/ EMMEANS TABLES = prog SKALA = ORIGINAL.
Pada contoh di atas, kita melihat bahwa jumlah diprediksi acara untuk level 1 dari prog adalah sekitar 0,21,
memegang matematika di mean. Jumlah itu diprediksi acara untuk level 2 dari prog lebih tinggi di 0,62, dan
jumlah diprediksi acara untuk tingkat 3 dari prog adalah sekitar 0,31. Perhatikan bahwa jumlah prediksi tingkat 2
dari prog adalah (0,62 / 0,31) = 2,0 kali lebih tinggi dari jumlah yang diperkirakan untuk tingkat 3 dari prog. Ini
sesuai dengan apa yang kita lihat di tabel output IRR.
Di bawah ini kita akan mendapatkan jumlah yang diperkirakan untuk setiap nilai prog di dua nilai
set matematika: 35 dan 75.

GENLIN num_awards BY prog DENGAN matematika


/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ PRINT NONE
/ EMMEANS TABLES = prog KONTROL = matematika
(35) SKALA = ORIGINAL.
GENLIN num_awards BY prog DENGAN matematika
/ MODEL prog matematika PENCEGATAN = YES
DISTRIBUSI POISSON = LINK = LOG
/ PRINT NONE
/ EMMEANS TABLES = prog KONTROL = matematika
(75) SKALA = ORIGINAL.
Tabel di atas menunjukkan bahwa dengan prog = 1 dan matematika diadakan di 35, jumlah diperkirakan ratarata (atau rata-rata jumlah penghargaan) adalah sekitar 0,06; ketika matematika = 75, jumlah diprediksi ratarata untuk prog = 1 adalah tentang 1,01. Jika kita melihat ini jumlah diprediksi matematika = 35 dan matematika
= 75, kita dapat melihat bahwa rasio (1,01 / 0,06) = 16,8. Ini cocok (dalam pembulatan error) IRR 1,0727 untuk
perubahan 40 Unit: 1,0727 ^ 40 = 16.1.

Hal yang perlu dipertimbangkan


Ketika tampaknya menjadi masalah dispersi, kita harus terlebih dahulu
memeriksa apakah model kita dengan tepat ditentukan, seperti variabel
dihilangkan dan bentuk fungsional. Sebagai contoh, jika kita menghilangkan
prediktor variabel prog dalam contoh di atas, model kami tampaknya memiliki
masalah dengan over-dispersi. Dengan kata lain, model mis-ditentukan bisa
menyajikan gejala seperti masalah over-dispersi.

Dengan asumsi bahwa model tersebut ditentukan dengan benar, Anda


mungkin ingin memeriksa overdispersion. Ada beberapa tes termasuk tes

rasio kemungkinan over-dispersi parameter alpha dengan menjalankan model


regresi yang sama menggunakan distribusi binomial
negatif(distribusi = negbin).

Salah satu penyebab umum dari over-dispersi nol berlebih, yang pada
gilirannya dihasilkan oleh proses menghasilkan data tambahan. Dalam situasi
ini, Model nol-meningkat harus dipertimbangkan.

Jika proses menghasilkan data yang tidak memungkinkan untuk 0s


(seperti jumlah hari yang dihabiskan di rumah sakit), maka model nol-dipotong
mungkin lebih tepat.

Variabel hasil dalam regresi Poisson tidak dapat memiliki angka negatif.

Regresi Poisson diperkirakan melalui estimasi kemungkinan


maksimum. Ini biasanya membutuhkan ukuran sampel yang besar.

Lihat juga

SPSS Beranotasi Output: Poisson Regression


Referensi
Panjang, JS 1997. Regression Model untuk Variabel Dependent kategoris
dan Terbatas Thousand Oaks, CA:. Sage Publications.

Referensi
Cameron, AC dan Trivedi, PK 2009. Microeconometrics
Menggunakan College Station Stata, TX:. Stata Press.

Cameron, AC dan Trivedi, PK 1998. Regresi Analisis Count data New


York:. Cambridge Press.

Cameron, AC Kemajuan Hitungan data Regresi Bicara untuk Statistik


Terapan Workshop, 28 Maret
2009.http://cameron.econ.ucdavis.edu/racd/count.html .

Dupont, WD 2002. statistik Modeling Biomedis Peneliti: Sebuah


Pengantar Sederhana untuk Analisis Data Complex New York:. Cambridge
Press.

Panjang, JS 1997. Regression Model untuk Variabel Dependent


kategoris dan Terbatas Thousand Oaks, CA:. Sage Publications.

Panjang, JS dan Freese, J. 2006. Regression Model untuk Variabel


Dependent kategoris Menggunakan Stata, Second Edition College Station,
TX:. Stata Press.

Вам также может понравиться