Veri bilimi ve Big Data ile Başarıyı Yeniden Tanımlayın; Veri Toplayın, Doğru Okuyun ve Kazanın
- Adil Can Kavcar
- 29 Ara 2024
- 6 dakikada okunur
Günümüz iş dünyasında verilere önemi gün geçtikçe artıyor. Büyük veri (big data) ve veri bilimi gibi kavramlar sadece büyük oyuncuların değil aynı zamanda her ölçekte işletmenin faaliyet gösterdiği alanda ciddi avantaj elde etmesini sağlıyor.
Şimdilerde çalışma hayatımızda hemen her gün bir şekilde kulağımıza gelen bu iki kavramın yıkıcı rekabetin görüldüğü iş dünyasında bizlere nasıl avantaj sağladığını anlamak için öncelikle onların ne olduğunu tam anlamda bilmemiz gerekir.
Büyük Veri (Big Data) Kavramı
Çok büyük, hızlı ve çeşitli türden birçok verinin gruplandırılarak toplanması, işlenmesi, analiz edilmesi ve analizlerden doğru sonuçlar çıkartılması kavramlarının tümü büyük veri olarak adlandırılır.
Bu kavram sayesinde modern teknolojiler kullanılarak günümüzde geleneksel yöntemlerle elde edilemeyen birçok veri veya sonuç elde edilebilir.
Büyük Veri’de 5V Kavramı
Bu kavram büyük verinin temel özelliklerini tanımlamak için kullanılan bir çerçevedir. Aslında 5V büyük verinin neden geleneksel yöntemler aracılığı ile elde edilemeyeceğinin de bir sağlamasıdır.

1. Hacim (Volume): Büyük veriler adından da anlaşılacağı üzere çok büyük boyutlarda olacaktır.
Örneğin bir sosyal medya platformunda her gün milyarlarca gönderi ve yorum üretilir. Ya da nesnelerin interneti kullanılarak elde edilen birçok sensör verisinin gün içerisinde sürekli depolanması gerekir. Bu iki örnekteki veriler de oldukça yüksek boyutlardadır ve tüm bu bilgiler geleneksel yöntemler kullanılarak depolanamaz ve işlenemez. Bunların depolanabilmesi için dağınık dosya sistemleri, NoSQL gibi teknolojilere ihtiyaç duyulur.
2. Hız (Velocity): Veri çok hızlı biçimde üretilir ve aktarılır. Sensör verileri veya finansal işlemler, piyasalar gibi sürekli bir veri akışının görüldüğü milyonlarca işlemin yapıldığı alanların kontrolü oldukça zordur.
İşte bu sebepler ile gerçek zamanlı veri analizi (real-time), Apache Kafka gibi araçlar büyük verinin hız konusunu yönetmek ve onları işlemek için geliştirildi.
3. Çeşitlilik (Varienty): Bir şirketin büyük verileri veri tabloları, grafikler, excel dosyaları, resimler, videolar, ses dosyaları ve sosyal medya paylaşımlarından oluşan karmakarışık biçimde yapılandırılmış, yarı yapılandırılmış veya hiç yapılandırılmamış olabilir.
Verinin türlerinin artması onların birlikte analiz edilmesini oldukça zorlaştırır. Bu çeşitliliği bir düzene sokmak için makine öğrenimi, yapay zekâ algoritması kullanımı gerekir.
4. Doğruluk (Veracity): Elde edilen veriler aynı zamanda doğru ve manipüle edilmemiş olmalıdır. Örneğin sosyal medyadan veya tek bir zümreden elde edilen bir veri yanlış veya taraflı olabilir.
Bunları düzenleyebilmek için önceden verilerin temizlenmesi ve belirli bir akışa uygun olarak düzenlenmesi gerekir. Bunu yapabilmek için ise veri madenciliği, istatistiki analiz araçları kullanılır. Böylece hem eldeki veri düzenlenir hem de doğrulanmış olur.
5. Değer (Value): Büyük veri kullanılarak ondan anlamlı sonuçlar ve stratejik bilgiler elde edilmesini sağlayan süreçtir. Müşteri davranışlarını analiz ederek geliştirilen firma stratejisi bu kavrama örnek olabilir.
Büyük veri ancak ve ancak işlenip anlamlı bilgilere dönüştüğünde bir değer taşır. Makine öğrenimi, yapay zekâ ve iş zekâsı araçları bu süreçte büyük rol oynar.
Peki tüm bu bilgilerin ışığında veri bilimini nasıl tanımlarız?
Büyük ve karmaşık bilgileri kümelendirip anlamlı hale getirmek, bunlardan öngörüler oluşturman ve kararlar verilmesini sağlamak için istatistik, matematik, bilgisayar bilimi ve alan bilgisi kullanılarak verileri disiplinize eden bir bilim dalıdır.
Bu alan; verilerin toplanması, gereksiz olanlarının temizlenmesi, kalanlarının analiz edilmesi, onların modellenmesi ve görselleştirilmesini kapsar. Veri bilimi çeşitli teknolojik araçlardan yararlanarak problemleri çözmeyi, somut örnekler elde etmeyi ve sonucunda süreçleri sürekli izleyerek daha da iyileştirmeyi hedefler.

Veri Biliminde Süreçler nelerdir?
1. Verinin Toplanması: Farklı kaynaklardan verilerin elde edilmesi (Bu veriler düzensiz ve çok farklı tipte olabilir.)
2. Veri Temizleme: Eksik, hatalı, manipüle edilmiş veya tutarsız verilerin tespit edilmesi, ayıklanması ve düzeltilmesi (Verilerin kalitesi arttırılarak analize uygun hale gelir.)
3. Verinin Keşfedilmesi: Veri yapısının anlaşılması ve dağılımının gerçekleştirilmesi (Bu sayede verinin görselleşmesi için gerekli ön temel bilgi elde edilir.)
4. Verinin Modellenmesi: Makine öğrenimi algoritmaları (yapıları) kullanılarak modellerin geliştirilmesi (Veri öngörüleri ve sınıflandırılması gerçekleştirilir.)
5. Verinin Değerlendirilmesi: Oluşturulan modelin performansı test edilmesi ve doğruluk derecesinin sınanması (Eğer modeller yetersiz ise optimizasyon yapılarak sonuçlar iyileştirilir.)
6. Uygulama ve Dağıtım: Ortaya çıkan modelin, gerçek dünyada kullanılmak üzere uygulamaya alınması (Sonuçlar iş kararlarına ve stratejilere dönüştürülür.)
Süreçler uygulanarak nasıl başarı elde edilir?
Big Data ve veri bilimi süreçleri için bize model olabilecek iş örneği ele alalım. Bu örnek çok uluslu şirketlerden ziyade daha yerel üretim yapan bir üretici üzerinden olsun.
Buradan hareketle modelimiz bir şeker üretim fabrikası olabilir.
1. Veri Toplama Süreci:
- Üretim hatlarında IoT sensörleri ile sıcaklık, nem, üretim hızı, enerji tüketimi ve makinelerin çalışma süresi gibi veriler toplanır.
- Kalite kontrol noktalarından şekerin sertlik, renk ve nem oranı gibi kalite verileri elde edilir.
- Hammadde tedarikçileri ve lojistik süreçlerinden stok seviyeleri, teslimat süreleri ve maliyet verileri kaydı tutulur.
- İşçi performans verileri, vardiya süreleri, hata oranları ve üretim verimlilikleri izlenir.
2. Verilerin Saklanması:
- Toplanan verilerin tümü uygun platformlarda depolanır ve sınıflandırılır.
- Farklı departmanlardan gelen veriler birleştirilerek merkezi bir veri havuzunda toplanır.
3. Veri Temizleme ve Dönüştürme:
- Eksik veya yanlış veriler tespit edilir ve düzenlenir.
- Tüm veriler analiz ve modelleme için belirli bir standarda oturtulur.
4. Analiz ve Modelleme:
- Sensör verileri ile makinelerin arıza olasılıklarını tespit edebilecek bir tahminleme modeli yapılır.
- Makinelerden gelen enerji tüketim verileri analiz edilir. Makinelerin hangi saatlerde daha verimli çalıştığı belirlenir. Zaman bazlı enerji tüketim profilleri oluşturulur. Vardiyalar optimize edilir. Ayrıca tüketimi makine yapısından ötürü yüksek olan makinelere bakım zamanları belirlenerek iyileştirmeler yapılır. Aşırı enerji tüketiminin önüne geçilir.
- Kalite kontrol verileri ürün kalitesini arttırmak için üretim parametreleri analiz edilir.
- Talep tahmin parametreleri oluşturularak üretim planlaması optimize edilir.
5. Uygulamaların sonuçları:
- Üretim hattında enerji tasarrufu sağlanması, üretim kapasitesinin arttırılması
- Bakım planları tahmine dayalı bakım modeli ile optimize edilmesi ve arıza oranlarının azaltılması
- Stok yönetimi ile fazla stokların azaltılması ve stok maliyetlerinin düşürülmesi
- Personel analizi ile gereksiz personel veya birimin saptanması, süreçlere uymaları için uyarılmaları veya işlerine son verilmesi
6. İzleme ve Güncelleme:
- Üretim hattı performansı günlük hatta saatlik olarak izlenir, verimlilik oranları sürekli olarak raporlanır.
- Makine arızalarının önlenmesi için yapılacak olan kestirici bakımların izlenmesi ve raporlanması
- Tahminleme modellerinin her ay verilerin akışı sayesinde güncellenmesi ve doğruluk oranlarının maksimum seviyeye çıkartılması
Süreçlerin tüm sektörlerde rahatça uygulandığını görebilmek için başka bir örneği ele almakta fayda var.
Bu seferki süreç bir Hastanenin Hasta Yönetimi ve Operasyonel Süreç Optimizasyonu olsun.
1. Veri Toplama:
- Hasta kayıtları, laboratuvar test sonuçları, reçeteler ve tedavi planları elektronik sistemlere kaydedilir.
- IoT cihazları ile hastaların vital değerleri (kan basıncı, nabız, sıcaklık) sürekli izlenir.
- Randevu sistemlerinden hasta bekleme süreleri ve doktor performans verileri toplanır.
- İlaç kullanımı ve dozajları dijital sistemlere entegre edilerek izlenir.
2. Veri Saklama:
- Veriler güvenli bulut sistemlerinde saklanır ve sınıflandırılır.
- Yasal gereksinimlere uygun olarak veri şifreleme uygulanır.
- Hasta verileri, tıbbi geçmişleri ve tedavi planları entegre edilerek merkezi bir veri havuzunda tutulur.
3. Veri Temizleme ve Dönüştürme:
- Eksik veya yanlış veriler tespit edilip düzeltilir.
- Veriler, analiz ve modelleme için standardize edilir.
4. Analiz ve Modelleme:
- Hasta akışı analiz edilerek randevu planlaması optimize edilir.
- IoT verilerine dayalı tahminleme algoritmaları ile kritik hastaların durumu önceden belirlenir.
- Laboratuvar test verileri kullanılarak hastalık teşhis modelleri geliştirilir.
- Doktor performansı analiz edilerek uzmanlık alanlarına göre yönlendirme yapılır.
5. Uygulama ve Optimizasyon:
- Acil durumlar için erken teşhis algoritmaları devreye alınarak müdahale süreleri azaltılır.
- Bekleme süreleri optimize edilerek hasta memnuniyeti artırılır.
- Kaynak kullanımı analiz edilerek tıbbi ekipman ve personel dağılımı optimize edilir.
- İlaç kullanımındaki hatalar azaltılır.
6. İzleme ve Güncelleme:
- Hastane süreçleri günlük olarak izlenir, raporlanır ve yeni veriler doğrultusunda optimize edilir.
- Makine öğrenimi modelleri her ay güncellenerek tahmin doğruluğu üst seviyelere çıkarılır.
- Hasta memnuniyet anketleri sürekli analiz edilerek süreçler güncellenir.
Yukarıda modellemelerini yaptığımız örneklerin aslında birçoğu için benzer uygulamalar gerçek hayatta zaten uygulanmış ve pozitif sonuçlar alınmıştır.
Mc Kinsey’in 2020 yılında yayınladığı “Perakendeyi Yeniden Keşfetmek” başlıklı rapora göre; perakende firmaları veri analitiği sayesinde satışlarını %15-20 oranında arttırabildi.
Örneğin ünlü bir süpermarket zinciri müşterilerinin satın alma alışkanlığını analiz ederek ürünlerin hangi günlerde ve saatlerde daha çok talep gördüğünü belirledi. Bu analiz sayesinde müşteri memnuniyeti arttı, operasyonel maliyetler azaldı. Aynı zamanda kampanya planlamaları daha hedefe yönelik olarak uygulandı.
Netflix veya Spotify gibi platformlar ise müşterilerinin izleme veya dinleme alışkanlıklarını her bireye özel olarak analiz ederek kişiye özel içerik önerileri sundu. Harward Business Review’in 2022 yılında yayınladığı “Yapay Zeka Çağında Müşteri Deneyimi” başlıklı raporuna göre kişiselleştirilmiş öneri sistemlerinin müşteri memnuniyetini %30 oranında arttırdığı doğrulandı.
Delioitte’nin 2021 yılında yayınladığı “Guard.ai” raporuna göre bankalar dolandırıcılık tespiti için veri biliminden yararlandı ve dolandırıcılık tespit algoritmaları sayesinde %95 doğruluk oranı ile kötü potansiyelleri tespit edilebildi. Bankaların ayrıca uyguladıkları anormal işlem algılama sistemi, büyük veri analitiği ve yapay zeka algoritmaları ile hem maliyetlerini azalttı hem de müşteri güvenini arttırdı.
Gartner’in 2023 Lojistik Optimizasyonu raporuna göre veri analitiği yöntemi kullanan lojistik şirketleri operasyonel verimliliklerini %25 oranında arttırdı. Aynı firmalar GPS verilerinin analizi ile en kısa route planlarını belirledi ve yakıt tüketimlerini %20 oranında azalttı. Bu veriler ışığında veri biliminin az yakıt tüketimi sayesinde çevreye de olabilecek dolaylı katkısı ortaya çıktı.
Sonuç olarak veri bilimi ve büyük veri şirketlerin geleceğini şekillendirmek için önemli iki büyük araçtır.
Küçük bir girişimci olmak veya çok uluslu bir holding yöneticisi olmak fark etmeksizin veri analitiği ile işimizi dönüştürmek yakın gelecekte rakiplerimize karşı bizi avantajlı kılacak önemli bir anahtardır.
Özellikle pazar rekabetinin oldukça sert olduğu günümüzde ancak verilerin doğru analiz edilmesi ve onlardan çıkarılacak dersler geleceği görerek rakiplerimize oranla daha avantajlı pozisyonda kalmamızı sağlayacaktır.
Bir süpermarketin satışlarını optimize etmesi veya bir hastanenin hayat kurtaran teşhisler yapabilmesi gibi çok farklı alanlarda veri bilimi iş süreçlerinde aktif rol oynar.
Veri sadece sayılardan ibaret değildir. Doğru analiz edildiğinde veriler aynı zamanda başarı hikayemizin temelini oluşturur.
Veriler ile dost olup, onların ışığında harekete geçip geleceğinizi tasarlayın.
Adil Can KAVCAR
29.12.2024
Comments