Вы находитесь на странице: 1из 6

1-GR

Gnmzde veritabanlarnda, internet ve intranetlerde ok byk miktarda bilgi depolanr. Bu bilgi dokmanlarda veya metin dokmanlarnda tutulmaktadr. Bu bilgilerden nemli bilgiler kartmak, kefedilmemi desenleri bulmak buradaki esas problemimizdir. Bu problem eskiden beri vardr. Ama bylesine byk boyutta, biimsiz ve karmak veriler arasndan istenen veriyi bulup karmaktr. Metin madencilii (dokman bilgisi madencilii veya metinsel veritabanlarndan bilgi karm),ilgin ve nemsiz olmayan rntleri veya bilgiyi karma amac iin, biimsiz ve sayca ok dokman analiz etme teknolojisidir. Metin eriimine rnek olarak gnmzdeki arama motorlarn verebiliriz [1]. Kmeleme, veri setlerindeki bilgileri belirli benzer ltlere gre gruplara ayrma ilemidir. Ama n tane eleman olan veri setini farkl ltlere sahip k tane veri kmesine blmektir. Belge kmeleme analizinin amac, bir belge iinde yer alan benzer belgeleri bulmaktr. yi bir belge kmeleme analizinde, kme iindeki belgeler arasndaki benzerlik uzakl az, kmeler aras belgelerde de belge benzerliinin byk olmas gerekir[2,3]. Kmeleme analizinin pratikte birok uygulama alan vardr. Bunlar: desen tanmlama, veri analizi, resim ileme, pazar aratrmas bunlarn arasndadr. Kmeleme yntemi bilgiye daha hzl bir ekilde ulamamz salar. Kmeleme yntemi denetimsiz renme kategorisine giren bir yntemdir. Kmeleme yntemindeki ama verileri alt kmelere ayrmaktr. Alt kmelere ayrlmak iin kefedilen kurallar yardmyla bir kaydn hangi alt kmeye girdii kmeleme yntemi kullanarak bulunur [4]. Bir veri topluluu kmelere ayrrken birok farkl kmeleme seenei oluturulabilir. Bu kmeleme seenekleri baz kriterlere gre deerlendirilip en iyi kmeleme seeneini bulmak bir optimizasyon problemi olarak ele alnabilir. Ama verilerin ayrlaca grup saysn ve her bir kmenin arlk merkezini bulmaktr. Verilerin gruplandrlmas srasnda temel nokta ele alnr: Verilerin gruplandrlaca optimum kme saysnn belirlenmelidir. Verilerin doru gruplandrlmasnn yan sra grup saysnn belirlemesi de kmeleme ileminde deerlendirmeye alnr. Verilerin gruplandrlmas srasnda kullanlacak benzerlik lt belirlenmelidir. Bu benzerlik lt ayn kme ierisindeki verilerin maksimum oranda benzerlik gstermesini salarken dier gruptaki verilerle maksimum oranda farkllk gstermesini salamaldr. En yaygn olarak kullanlan benzerlik lt mesafeye dayal benzerliktir. Kmeleme ilemine en hzl ekilde gerekletirecek yntem seilmelidir.

Dokmanlarn otomatik olarak kmelenebilmesi iin vektrel olarak ifade edilmesi gereklidir. Metinsel dokmanlar, veri madencilii ve bilgi alma almalar iin olduka yaygn ve eriilir malzemeler olagelmitir. Bu almalarda dz metinlerlerden veri taban oluturulurken her bir metin birer vektr olarak tanmlanr ve bu vektrlerin ieriini sz konusu metinlerde geen terimler belirler [5]. Dokmanlar kmelemek iin K-Means yntemi, K-Median yntemi, hiyerarik kmeleme yntemleri, younlua dayal kmeleme yntemleri, grid tabanl yntemler, model esasl kmeleme yntemleri gibi birok algoritmalar kullanlmaktadr. Blnmeli kmeleme yntemleri, k giri parametresini alarak n tane nesneyi k tane kmeye bler. Bu teknikler, tek-seviyeli kmeleri bulan ilemler gerekletirir [6]. Tm teknikler merkez noktann kmeyi temsil etmesi esasna dayanr. Blnmeli yntemler, hem uygulanabilirliinin kolay hem de verimli olduu iin daha iyi sonular retirler. K-Means yntemi, kmeleme problemini zen en basit denetimsiz renme yntemleri arasnda yer alr. Algoritmann genel mant n adet veri nesnesinden oluan bir veri kmesini(X), giri parametresi olarak verilen k (k n) adet kmeye blmlemektir. Ama, gerekletirilen blmleme

ilemi sonunda elde edilen kmelerin, kme ii benzerliklerinin maksimum ve kmeler aras benzerliklerinin minimum olmasn salamaktr. Yntemin performansn k kme says, balang olarak seilen kme merkezlerinin deerleri ve benzerlik lm kriterleri etkilemektedir. Bu almann amac blnmeli kmeleme teknikleri kullanarak metinlerde bulunan verileri belirli balklar altnda kmeleyerek gerekli bilgiyi elde etmektir. Metin madencilii alannda KMeans ve kmeleme yntemi ile yazl belgeler arasndaki (iindeki) ilikilerin gruplanarak, farkl gruplar arasndaki rntlerin/ilikilerin bulunmas hedeflenmektedir. 2-VEKTR UZAY MODEL Vektr uzay modeli bilgi karm, bilgi filtreleme, indeksleme gibi alanlarda kullanlan cebirsel bir modeldir. Doal dil belgelerinin ok boyutlu uzayda zel bir anlamn simgelemektedir.

Sekil 2.1 Vektr uzay modeli

Dkman kmeleme ileminin temel adm kmelemek istediimiz dkman vektrel olarak uzayda ifade edebilmektir. Bir ok dkman kmeleme algoritmas bu prensibe dayanr. Bunun iin uzay eksenlerini belirlemeliyiz. Uzaymzn eksenlerini aslnda bizim kategori belirttiini dndmz kelimeler oluturacaktr. Bu kelimeler de szlkte, yani kelimeler tablosunda tutulmutur. Dkmanlarmz vektr olarak temsil edebilmek iin metnin ierisinde geen kelimelerin bir takm ilemlere sokulmas gereklidir(Pre-Processing). Bu ilemin sonucunda vektrlerimiz oluacaktr. Trke gibi bitiken (bkml) dillerde ise kelimeler, en kk anlaml parasnn snrlarna dair bir belirti gstermez, stelik bu paralar, morfolojik ve fonolojik artlara bal olarak ekil alrlar. Trkede bir kelimenin son ekine bir tane daha ekleyerek, nispeten uzun keli meler elde edilebilir, stelik, sadece bir tek Trke kelimeden ok miktarda deiik anlaml kelimeler oluturulabilir. Bu karmak morfolojik yap yznden, Trke; ngilizceden ve benzeri dillerden daha farkl metin ileme teknikleri gerektirir. Bu nedenle, btn kelimelerin kk harfe evrilmesi ve noktalama iaretlerinin kaldrlmas dnda; joker kelimeler ile anahtar kelimelerin oluturulmas gibi baz n hazrlklar yaplmas gerekmektedir. 2.1 n leme Veri madenciliinde analiz edilecek giri verilerinin belirli bir formata sahip olmas ayrca bozuk veya gereksiz verilerden temizlenmi olmas gerekmektedir. Metin madenciliinin en byk sorunu, ileyecei veri kmesinin yapsal olmamasdr. Genellikle doal dil kullanlarak yazlm dokmanlar zerinde allan metin madencilii alannda n ileme aamas, veri temizlemenin yannda veriyi uygun formata getirme ilemini de gerekletirmektedir [7]. n leme Genel Admlar Metinler doal yazllar ile bir kelime vektr olarak ifade edilmemilerdir. Bu bakmdan bir ok zorluk bulunmaktadr. rnein dokmanlarda bir ok kelime bulunmakta; bir ok dokman bulunmakta; dokmanlarda ok eitlilikte bilgi yer almakta; insanlar tarafndan yazld iin bir ok hata iermekte; noktalama iaretleri, ksaltmalar bulunmaktadr. Bu yzden n ileme adm etkili bir snflandrma iin kanlmaz bir admdr. Genel admlar aadaki gibidir: 1- Kategoriler belirlenir. Bu kategoriler ile ilikilendirilebilecek olan kelimeler szle eklenir (rnein Spor, Ekonomi, Politika ve Salk kategorilerini kullanacaz). Aklmza gelen yukardaki kategoriler ile ilikili olan tm kelimeleri Sqlde kelimeler tablosunda tutabiliriz. rnein Spor kategorisi iin futbol, gol, hakem, ma vb.

2- Szlkteki her kelime teker teker incelenir. Joker olarak kullanlabilecek olan kelimeler bulunup szlk gncellenir. rnek:

Gzlkler Gzlkte Gzl Gzl* (Gzl ifadesinden sonra ne gelirse gelsin kabul et, Gzlk kelimesi olarak deerlendir). 3- Her bir dokman, szlkte oluan tm bu kelimelerin, (joker kelimeler de dahil) boyutundaki vektrn arlklandrlmas ile gsterilir.

Joker Yntemi Sistemde metinlerdeki kelimelerin kendileri yerine gvdelerinin kullanlr.Bunun sebebi Trke gibi eklemeli dillerde bir gvdenin sonuna birok farkl ek alarak farkl biimlerde karmza kabilmesidir. rnein araba kelimesi ile arabadan, arabay, arabada, ve arabann kelimeleri eer ayrtrc olmasa ayr ayr kelimeler olarak grleceklerdi. Bunun sonucu olarak hem oluturulan szlk boyutu ok artacak hemde snflandrma baars decekti. Joker kelime, ayn sz dizimi ile balayan ve eitli ekler alm ancak yakn anlamda olan szckleri tek bir gsterimle grup altnda toplayan kelimelerdir. Joker kelime gvdeleme yntemine benzemektedir. Gvdelemede ekim ve yapm eklerinden ayrtrlan kelimeler, ortak bir kke indirgenir. Ancak burada kke indirgeme art yoktur. Kkn yannda ek de kalabilir. Joker kelimeler kategoriyi belirlememize yardmc anahtar kelimelerden veya sk kullanlan kelimelerden seilir. Joker yntemi kelimlerin ilikili terimlerinin anlamlarn kapsamas asndan

deitirilmesidir. rnein jokerli bir kelime olarak deprem* ile (Joker olduunu * iaretinden anlyoruz), deprem kelimesinden sonra nasl bir ek gelirse gelsin deprem kelimesi vurgulanm olacaktr.

rnek: simiti ve simitiler Dokmanmzda simiti ve simitiler kelimelerinin getiini dnrsek her iki kelimeyi ayr ayr szlkte tanmlamak szlk boyutunu arttrarak performansmz drecektir. Bu yzden bu kelimeler anlam karlayacak bir gvdeye indirgenebilir. Yani szlmzde simiti* kullanp dokman ierisinde ba simit ile balayan tm kelimeleri simiti* olarak deerlendirebiliriz.

Trke kelimeler genellikle sert sessiz harf ile biter. Sert sessizlerin yumuamas olabileceinden, bu tr kelimelerde hem kelimenin sert sessizli hem de yumuak sessizli hali joker olarak seilir (ila*,ilac*). Byle bir durumda ila* joker olarak seilmemeli (ilahiyat gibi ilgisiz kelimeleri de ierebilir diye), ancak byle ilgisiz kelime oluma olasl yoksa o zaman her iki kelimeyi de (sert, yumuak) ieren joker seilebilir.

(r:kitap* ve kitab* yerine kita*) Not: Sert sessizler: ,F,T,H,S,K,P, Son hecesinde veya i ieren kelimelere, sesli ile balayan bir ek geldiinde bu ve i der. Bu durumdaki kelimeler iin ya kelimenin her iki hali de, ya da en ok grlen hali joker olarak seilir. Yapm ekleri kelimenin anlamn deitiren ve ekim ekleri deitirmeyen ekler olduundan; joker seiminde yapm ekleri bize zorluk karr. Gvdelemede ise ilem basittir, sadece kke indirgeme yaplr. Ancak joker ynteminde, yapm eki eklenerek anlam deitirilmi kelimeler, farkl kategorilerde olabileceinden bunlar ayr ayr gstermek gerekir.

Evlen*, evcil* Ev* seemeyiz. nk evren, evrim gibi alakasz kelimeleri ierebilir. ekim ekleri olan szckler bizim iin kolaydr. nk bu ekler, eklendikleri kelimenin anlamn deitirmezler (borsada,borsalar,... -> borsa* seilebilir). Ancak bazen, jokerlerin alakasz kelimeleri ierebilecei durumlarda, ekim eki hallerini tek tek alamayz (kamp,kampnda,....->kamp* yapamayz. nk kampanya kelimesini ierebilir). Zaman ekleri de bir eit ekim ekidir. Bu nedenle yalnzca kelimenin kkn joker almak baz durumlarda yeterli olmuyorken; bazen de yor ekinde olduu gibi (rnek:isti-yor) kelimenin kk deforme olabilir (iste* seilemez).

2.1 Vektrn Arlklandrlmas

KAYNAKLAR [1] Adsz, A. Metin madencilii, Ahmet Yesevi niversitesi Biliim Sistemleri ve Mhendislik Faksltesi, Kazakistan, 17-19 (2006). [2] Han, J.; Kamber, M.: Data Mining Concepts and Techniques, Morgan Kauffmann Publishers Inc., 2006. [3] Pang-Ning Tan, P.N.; Steinbach, M.; Kumar, V.: Introduction to Data Mining, Addison Wesley, Mart 2006. [4]. Han, J. ve Kamber, M., Data Mining Concepts and Techniques 2nd ed., Morgan Kauffmann Publishers Inc, 382-385, 401-405 (Austos 2001). [5] M.W. Berry, Z.Drmac ve E.R. Jessup, .Matrices, Vector Spaces, and Information Retrieval., SIAM Review, 41(2), 335-362, 1999. [6] Jain, A. K., Murty, M. N. ve Flynn, P. J., Data Clustering: A Review, ACM Computing Surveys, 31(3): 278-281 (1999). [7] Feldman, R., Sanger, J., 2007. The Text Mining HandBook Advanced Approaches in Advanced Approaches in Analyzing Unstructured Data.

Вам также может понравиться