Data science world

VERİ MADENCİLİĞİ

Veri Madenciliği (Data Mining) Nedir?

veri madenciliği

Veri madenciliğini, çok büyük miktarda bilginin depolandığı veri tabanlarından, amacımız doğrultusunda, gelecek ile ilgili tahminler yapmamızı sağlayacak, anlamlı olan veriye ulaşma ve veriyi kullanma işi olarak tanımlayabiliriz. Dijital verinin toplanması ve saklanmasındaki gelişmeler, saklanan verilerin üstel bir şekilde büyümesine sebep olmuştur. Hayatın hızla elektronikleşiyor olması, internetin günlük yaşamın ayrılmaz bir parçası haline gelmesi ve teknolojinin alınabilir bir meta olarak yaygınlaşması toplanan veri artışını hızlandırmıştır.

Veri madenciliği büyük bir yığın arasında bulunan bilgilerin, bilgisayar programları aracılığıyla geleceğe dönük kullanılabilme imkanını bizlere sunar. Faydalı bilgiyi önünüze serer ve bilgiyi madenler.tarihsel süreç

Şekil 1:Tarihsel süreç

Toplanan verilerin çeşidi her gün artmaktadır. Bunlardan bazıları DNA, banka kayıtları, web sitesi kayıtları, e-posta içerikleri, güvenlik amaçlı kullanılan retina ve parmak izi verileri, meteorolojik ve jeofizik veriler ve tıbbi kayıtlarıdır.

Veri madenciliğinin ilk adımında öncelikle ulaşılmak istenen bilgiye karar verilir. Bu konuda net ve planlı olmak sonuca ulaşmada faydalıdır. Hedefin belirlenmesinin ardından bilgi bir sınıflandırmaya yerleştirilir ve bilginin işleneceği en uygun veri tabanları seçilir. Araştırmanın yapıldığı veri tabanı içerisinde bizleri hedef bilgimizden uzaklaştıracak olan alakasız verilerin temizlenmesi ve ayrıştırılması gerekir. Ardından hedefe en uygun olarak seçilmiş tabanda toplanan en doğru veriler örüntülü şekilde farklı metotlarla işlenir. Ortaya çıkan sağlıklı, işlenmiş ve alakalı veriler amacına uygun kullanılmak üzere hazırdır. Verilerin uygun metotlar eşliğinde madenlerinden alınıp şekillendirilmek üzere işletmelere, araştırmacılara stratejik ve hassas konularda ön ayak olma konusunda oldukça sağlıklı olduğunu unutmamak gerekir.

disiplin

Şekil 2: Veri Madenciliği ve Disiplinler

Veri Madenciliği Süreci

Veri madenciliği sürecinde izlenen adımlar genellikle aşağıdaki şekildedir;

  1. Problemin tanımlanması,
  2. Verilerin hazırlanması,
  3. Modelin kurulması ve değerlendirilmesi,
  4. Modelin kullanılması,
  5. Modelin izlenmesi.

surec 1

Şekil 3: Bilgi keşfi süreci

Alternatif olarak veri madenciliği aslında bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir. Bu adımlar:

  1. 1-) Veri Temizleme (gürültülü ve tutarsız verileri çıkarmak)
    2-) Veri Bütünleştirme (birçok veri kaynağını birleştirebilmek)
    3-) Veri Seçme (Yapılacak olan analiz ile ilgili olan verileri belirlemek )
    4-) Veri Dönüşümü (Verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek)
    5-) Veri Madenciliği (Veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
    6-) Örüntü Değerlendirme (Bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak)
    7-) Bilgi Sunumu (Madenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek).

Veri madenciliği adımı, kullanıcı ve bilgi tabanı ile etkileşim halindedir. İlginç örüntüler kullanıcıya gösterilir, ve bunun ötesinde istenir ise bilgi tabanına da kaydedilebilir. Buna göre, veri madenciliği işlemi, gizli kalmış örüntüler bulunana kadar devam eder. Bir veri madenciliği sistemi, aşağıdaki temel bileşenlere sahiptir:

  • Veritabanı, veri ambarı ve diğer depolama teknikleri
  • Veritabanı ya da veri ambarı Sunucusu
  • Bilgi Tabanı
  • Veri Madenciliği Motoru
  • Örüntü Değerlendirme
  • Kullanıcı Arayüzü
Ä°lgili resim
Veri Madenciliğinde Karşılaşılan Problemler

Büyük hacimli verilerin bulunduğu veri ortamlarında büyük sorunlar ortaya çıkabilir. Bu nedenle küçük veri kümelerinde, benzetim ortamlarında hazırlanmış veri madenciliği sistemleri, büyük hacimli, eksik, gürültülü, boş, atık, aykırı veya belirsiz veri kümelerinin bulunduğu ortamlarda yanlış çalışabilir.

Veri madenciliği uygulamalarında karşılaşılabilecek sorunlar şunlardır:

  • Artık veri: Artık veri, problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz niteliklerdir.
  • Belirsizlik: Yanlışlıkların şiddeti ve verideki gürültünün derecesi ile ilgilidir.
  • Boş veri: Bir veri tabanında boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değeri olabilir.
  • Dinamik veri: Kurumsal çevrim içi veri tabanları dinamiktir ve içeriği sürekli olarak değişir.
  • Eksik veri: Veri kümesinin büyüklüğünden ya da doğasından kaynaklanmaktadır.
  • Farklı tipteki verileri ele alma: Gerçek hayattaki uygulamalar  yalnızca sembolik veya kategorik veri türleri değil, tamsayı, kesirli sayılar, çoklu ortam verisi, coğrafi bilgi içeren veri gibi farklı tipteki veriler üzerinde işlem yapılmasını gerektirir.
  • Gürültülü ve kayıp değerler: Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültü denir. Büyük veri tabanlarında pek çok niteliğin değeri yanlış olabilir.
  • Sınırlı bilgi: Veri tabanları genel olarak basit öğrenme işlerini sağlayan özellik veya nitelikleri sunmak gibi veri madenciliği dışındaki amaçlar için hazırlanmışlardır.
  • Veri tabanı boyutu: Veri tabanı boyutları büyük bir hızla artmaktadır. Veri tabanı algoritması çok sayıda küçük örneklemi ele alabilecek biçimde geliştirilmiştir.
medical data mining
TÜRKİYE’DEKİ VERİ MADENCİLİĞİ ÇALIŞMALARI ve UYGULAMALARI
Tıp Alanında Gerçekleştirilen Veri Madenciliği Uygulamaları

Barış Aksoy tarafından 2009 yılında Dekompresyon Analizinin Cluster Analizi üzerine bir veri madenciliği uygulaması gerçekleştirmiştir. Bu çalışmada, farklı clustering algoritmaları (k-ortalama, COBWEB, EM ) ile Divers Alert Network (Dalgıçların Acil Durum Ağı)’nın dalış yaralanmaları bildirim formlarından elde edilen belirti ve bulgu listeleri kullanılarak dekompresyon hastalığı sınıflandırılmış ve sonuçlar klasik sınıflandırma yöntemleri, yeni yapılan istatistiksel sınıflandırma yöntemleri ve tedavi sonuçları ile karşılaştırılmıştır. Ayrıca teşhiste yardımcı olabilecek birliktelik kuralları (association rules) elde edilmiştir. Sonuç olarak, clustering yöntemleriyle elde edilen sınıfların yeni yapılan istatistiksel sınıflandırmalarla ve klasik sınıflandırmalarla uyumlu olduğu ve hafiften şiddetli vakalara giden hiyerarşik yapıda olduğu gözlemlenmiştir.

Pınar Yıldırım, Mahmut Uludağ ve Abdülkadir Görür tarafından 2008 yılında yapılan çalışmada, hastane bilgi sistemlerindeki veri madenciliği uygulamalarına değinilmiştir. Şengül Doğan ve İbrahim Türkoğlu tarafından 2008 yılında gerçekleştirilen bir çalışmada, kan biyokimya parametreleri ile demir eksikliği anemisi teşhisinde, hekime yardımcı olacak ve kolaylık sağlayabilecek bir karar destek sistemi oluşturulmuştur. Örüntü tanıma süreci esas alınmış olup, sistemin işleyişi veri madenciliği tekniklerinden olan karar ağaçları yapısı ile sağlanmaktadır. Sisteme giriş olarak, biyokimya parametrelerinden demir eksikliği anemisi hastalığı için temel belirleyiciler olan Serum demiri, Serum demir bağlama kapasitesi (SDBK) ve Serkan SAVAŞ, Nurettin TOPALOĞLU, Mithat YILMAZ 14 Ferritin enzimleri kullanılarak, çıkış olarak da Anemi(+) ve Anemi(-) değerlendirmelerinde bulunulmuştur. Tasarlanan sistemde 96 hasta verisi değerlendirilmiştir. Karar destek sisteminin sonuçları, doktorun verdiği kararlarla tamamen örtüşmüştür. Mustafa Danacı, Mete Çelik ve A. Erhan Akkaya tarafından 2010 yılında gerçekleştirilen çalışmada kanser çeşitlerinden biri olan ve kadınlar arasında en sık görülen meme kanseri hakkında kısa bilgi verilmiştir. Daha sonra Xcyt örüntü tanıma programı yardımı ile doku hakkında genel veriler elde edilmiş, Weka programı kullanılarak meme kanseri hücrelerinin tahmin ve teşhisi yapılmıştır.

Ayrıntılı bilgi için bu sayfayı ziyaret edebilirsiniz.

https://ticaret.edu.tr/uploads/yayin/fen21_dosyalar/1-23.pdf

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir