Veri Madenciliği (Data Mining) Nedir?

Sadece bir gün içinde ürettiğimiz verileri toplasak muhtemelen dünya çevresinde birkaç tur atardı, bu verileri saklayacak hayali kitaplık da gezegene sığmazdı.

Bir araştırma, e-postamıza gelen bir iş yazışması, online market alışverişlerimiz, dijital bankacılık işlemlerimiz, sosyal medyada paylaştığımız bir kare, internette arama yaptığımızda kaydedilen izler, hareketlerimizi izleyen sensörler… Tüm bunlar bir araya gelince etrafımızda adeta görünmez bir veri ağı oluşuyor. Üstelik sadece veri miktarı değil aynı zamanda veriye erişim hızı da artıyor. Fakat tüm bunların arasından ‘bilgiyi’ ayıklamak giderek zorlaşıyor.

İşte bu yığınla baş etmek gerektiğinde devreye veri madenciliği (data mining) giriyor. Veriyi işleyen, ayrıştıran ve hatta onu yöneterek gelecekle ilgili öngörülerde bulunmamızı sağlayan bu teknolojiye yakından bakalım…

 

Karmaşık verilerden anlamlı bilgiye

Veri üretimi konusundaki hızımız kartopu etkisiyle pek çok kavram yarattı. Verileri analiz etmek, sınıflandırmak, işlenebilir hale getirmek gerektiği için önce Big Data (Büyük Veri) kavramıyla tanıştık. Ancak bu; verilerden hangisini, ne zaman, nasıl ve ne için kullanacağımız sorusuna yanıt vermedi. İşte böylece veri madenciliği kavramı ortaya çıktı.

Madencilik benzetmesinden anlaşılacağı üzere bir veri madencisi, bu büyük veri hammadde kümesi içinde ihtiyaç duyulan veriyi bulup çıkarır, analiz eder, işleyerek anlamlı hale getirir, veriler arasında ilişki kurar. Kısacası veriden bir bilgi yaratır. Bunun için de matematik ve istatistik bilimlerinin yanı sıra yapay zekâ, makine öğrenmesi, veri görselleştirme gibi teknolojilerden faydalanır.

Madencilik benzetmesinden anlaşılacağı üzere bir veri madencisi, bu büyük hammadde kümesi içinde ihtiyaç duyulan veriyi bulup, çıkarır, analiz eder, işleyerek anlamlı hale getirir, veriler arasında ilişki kurar. Kısacası veriden bilgi yaratır.

Üretim süreci ise genel hatlarıyla şöyle gerçekleşir:

  • Önce problem tanımlanır ve bununla ilgili veri kaynağı elde edilir.
  • Tutarsız, yetersiz, gereksiz veriler ayıklanır (Smoothing).
  • Farklı kaynaklardan verilerle desteklenir. Veriler bütünleştirilerek tek bir bilgi yığını yaratılır. (Damy-Optimization).
  • Oluşan bu kümeden probleme/amaca hizmet edecek veriler seçilir.
  • Seçilen veriler modelleme adımı için anlamlı bilgilere dönüştürülür, değerlendirilir. (Normalization)
  • Kümeleme, sınıflandırma gibi gereken veri madenciliği algoritmaları uygulanır.
  • Sonuçlar test edilir. Bu aşamada R ve Python gibi yazılım dilleri, test ve deneme işlemleri için de Java kullanılır.
  • Son aşamada veriler görselleştirilerek (elektronik tablolar, grafikler vs.) sunulur.

Tüm bu aşamalarda ileri seviyede matematik, istatistiksel yöntemler, yapay sinir ağları, genetik algoritmalar ve karar ağaçları gibi yöntemlere sıklıkla başvurulur.

Örneğin istatistik, verileri destekleyerek daha çabuk sonuca gidilmesini sağlar. Genetik algoritmalar ise gizli kalan kalıpları ortaya çıkararak veri üzerine tahminler yapılmasına yardımcı olur. Karar ağaçları sayesinde büyük bir veri kümesi daha küçük parçalara bölünür ve geliştirilir. İnsan beyninin bilgi işleme tekniğinden esinlenen yapay sinir ağları da ham veriyi faydalı bilgiye dönüştürmek için kullanılır.

İşin doğası bu yönde olunca bir veri madencisinin de bilgisayar bilimi, veri analizi, istatistik veya bunlarla bağlantılı alanlarda eğitimli olması gerekir. Veri madenciliğinde kullanılan çeşitli bilgisayar yazılımları ve veri tabanlarının yanı sıra kodlama, derin öğrenme, yapay zekâ gibi konularda da yetkin olmalı. Tüm bu kriterleri karşılayan kişiler devlet kurumlarından özel sektöre, sağlıktan reklama pek çok sektörde istihdam edilebilirler.

Peki biz tüm bunlara neden buna ihtiyaç duyarız ve veri madenciliği bize hangi alanlarda yardımcı olur?

 

Günlük hayatta veri madenciliğine hangi alanlarda rastlarız?

Bu soruya “Veri neredeyse orada” diye cevap vermek yanlış olmaz. Hal böyle olunca veri madenciliği başta e-ticaret, pazarlama ve bankacılık olmak üzere özellikle dijital dünyaya temas eden her alanda neredeyse temel bir bileşen kabul ediliyor. Bunun yanı sıra eğitim, bilim ve araştırma amaçlı da kullanılıyor. Sektörler ve bağlamlar farklı olsa da ardında tek bir amaç yatıyor: Doğru bilgiye ulaşmak; işi, müşteriyi hatta doğayı daha iyi anlamak.

Mesela bir e-ticaret firması açısından düşünelim. Müşterilerin yaşı, cinsiyeti, eğitim durumu gibi çeşitlilik gösteren onlarca veri bu şekilde inceleniyor. Satın alma alışkanlıkları tespit ediliyor. Veri madenciliği sayesinde süzülerek elde edilen bilgilerle satış tahminleri yapılıyor, buna yönelik stratejiler geliştiriliyor.

Ya da özel bir şirketi ele alalım. Piyasaya, iş koluna ve hitap ettiği kitleye dair benzer veri analizleriyle mesela önümüzdeki üç yıl içinde hangi alanlara yatırım yapması gerektiği belirleniyor.

Her gün telefonlarımızda, tabletlerimizde ya da bilgisayarlarda yaptığımız aramaların sonucunu analiz eden bir veri madencisi sayesinde, bir pazarlama şirketi sırada hangi reklamı göreceğimize karar veriyor. Aynı zamanda bu, promosyonlar ve özel kampanyalar şeklinde biz kullanıcılara dönüyor.

Dünya çapında milyonlarca işlemin gerçekleştiği bankacılık sektöründeki verinin hacmine ve gerçekleşme hızına da veri madenciliği yetişiyor. Kullanıcı davranışları analiz ediliyor, piyasa kalıplarındaki nedensellik ve bağlantılar tespit ediliyor. Aynı zamanda müşterilere en uygun ödeme araçlarını ya da doğru tasarruf yöntemlerini önermenin yanı sıra daha kaliteli bir müşteri ilişkileri deneyimi de sunuyor.

Sağlık sektöründeki veriler işlenerek hastaların doğru yerde ve doğru zamanda, en uygun bakımı almalarını sağlayacak süreçler geliştiriliyor. Teşhis konulması kolaylaşıyor. Ayrıca laboratuvar testlerindeki hata ve gecikmeler en aza indirgeniyor, kronik hastalar için erken uyarı sinyalleri sağlanıyor.

İster bireysel ister kurumsal düşünelim; veri, günümüzün en önemli yatırım araçlarından biri olarak kabul ediliyor. Dolayısıyla veriyi iyi değerlendirip ondan yararlananların öne geçmesi de kaçınılmaz oluyor. Bilgi güçse, ona giden yol veriden ve bir madenci gibi kazmaktan geçiyor!

Etiketler:
  • Big Data

  • İnternet

  • Dijital Dönüşüm