Академический Документы
Профессиональный Документы
Культура Документы
Petrişor, 2008
Cursul 12, Probabilităţi şi Statistică ı̂n CS ° 1
Apoi
de câte ori apare ı̂n baza de texte stringul ”w1 w2 w3 ”
p(w3 |w1 w2 ) =
decâte ori apare stringul ”w1 w2 ”
c E. Petrişor, 2008
Cursul 12, Probabilităţi şi Statistică ı̂n CS ° 3
p(eI ) = p(eI = e1 e2 . . . eI ) = p(eI |e1 e2 . . . eI−1 )p(eI−1 |e1 e2 . . . eI−2 ) · · · p(e2 |e1 )p(e1 )
În urma a numeroase teste, Och a ajuns la concluzia că nu e nevoie să estimeze proba-
bilităţi de tipul
p(ek |e1 e2 . . . ek−1 ), k > 4
deoarece ı̂n baza de texte există puţine stringuri de k > 4 cuvinte care să se repete şi
cel mai adesea se repetă stringuri de două, trei cuvinte (bigramuri şi trigramuri). Astfel
prima ı̂mbunătăţire adusă modelelor de limbă preexistente a fost să introducă un nou
estimator al probabilităţii unei fraze eI = e1 e2 . . . eI , şi anume a introdus un ”cuvânt”
artificial, notat $, care se adaugă la ı̂nceputul şi sfârşitul unei fraze şi estimatorul:
I+1
Y
I
p(e = e1 e2 . . . eI ) = p(ei |ei−3 ei−2 ei−1 )
i=1