2006 yılında matematikçi ve veri bilimci Clive Humby‘nin ilk defa dile getirdiği, ancak 2017 yılında The Economist tarafından yayımlanan “The world’s most valuable resource is no longer oil, but data” adlı makaleden sonra meşhur olmuş; veri ile ilgili pek çok sunumun, konuşmanın, makalenin, raporun önemli sloganı haline gelmiş o cümleyi pek çok sefer duymuşuzdur : “Data is the new oil” yani “Veri, yeni petroldür”.
İngilizce’de petrol dışında sıvı yağ anlamına da gelen oil kelimesinin sunduğu bu fırsattan faydalanarak, yazının başına bir sıvı yağ fotoğrafı ekleyip bir ironi ile başlamak istedim. Yıllarını veri teknolojileri ve çözümleri alanında harcamış birisi olarak amacım veriyi ve veri teknolojilerindeki gelişmeleri kıymetsizleştirmek değil elbet. Veriyi kalite boyutunda kısaca değerlendireceğim yazının devamında neden bu fotoğrafı tercih ettiğimi açıklayabilmiş olacağım umarım.
Evet, data ve petrol arasında bir takım benzerlikler var. En önemli benzerlik bence şu: Her ikisinin de bir değer üretmesi için kalitesi bir numaralı koşul.
Kalite nedir?
Eminim çoğumuz bu soruya net bir cevap veremedik. Kalite; sürekli dilimizde olan, ama taşıdığı anlam nedir diye sorguladığımızda tam olarak içimize sinen bir tanım getiremediğimiz bir kelime.
Juran’s Quality Control Handbook adlı, toplam kalite yönetimi alanında bir klasik sayılan eserin sahibi Joseph M. Juran kalite sözcüğünü şöyle tanımlıyor: “Fitness for use” yani “kullanıma uygun olma”.
Yılların hikayesi, “Bizde de petrol var ama çıkarttırmıyorlar!” söyleminin doğrusunun aslında çıkarmaya değecek kalitede petrolün var olmadığı gerçeği olduğunu yıllar içerisinde öğrendik. Şehir efsanelerini bir kenara bırakırsak olay şöyle gerçekleşiyor : Petrol kaynağı tespit ediliyor, rezerv büyüklüğü ve petrol kalitesi ölçülüyor, kuyu içerisindeki petrol beklenen kalite kriterlerine sahip değilse kapatılıyor ve kaliteli petrol aramaya devam ediliyor. Çünkü düşük kalite petrolü çıkarıp, işleyip değerli bir varlığa dönüştürmenin maliyeti, dışarıdan hazır almaktan daha yüksek.
Petrolün kalitesi gravite denen bir değerle ölçülüyor. Petrolün yoğunluğu düşük ise, gravite değeri (yani kalitesi) yüksek oluyor ve düşük yoğunluklu petrolün çıkarma, taşıma ve işleme maliyeti de düşük olduğu için karlılık sağlayabiliyor. Ağır petrol sınıfına giren petrolün ise işleme maliyeti yüksek olduğu için karlılığı düşük. Hatta petrol fiyatlarına bağlı olarak bazen kuyudaki petrolü çıkarmamak bile mantıklı bir seçenek haline geliyor. Finansal konulara merakı olan herkes mutlaka bir dönem denk gelmiştir. Petrol fiyatları ne zaman ciddi bir dalgalanma yaşasa açılan petrol kuyuları veya kapatılan petrol kuyuları haberleri çıkmaya başlar. Çünkü bu iş hepimizin tahmin edebileceği gibi petrolü çıkarmak ve işlemek neye mal oluyor, ben karşılığında ne kazanıyorum hesabı üzerinden dönüyor.
Veri Kalitesi
Veri kalitesi konusu dip detayına inildiğinde bambaşka bir yazı dizisi konusu olur ama kaliteli veri ne demek, veri kalitesi nasıl ölçülüyor bu konulara çok kısa değineceğim.
Juran‘ın kalite tanımından hareketle biz de kaliteli veriyi, kullanıma uygun veri şeklinde tanımlayabiliriz.
Çoğu kurumda veri kalitesi, veri tabloları üzerinde çalıştırılan basit kontrol sorguları ile ölçülmeye çalışılıyor. Veri tablolarında çift kayıt var mı, veri kolonlarında beklenmeyen bir boşluk durumu var mı ve belki tablolar arasında bir takım çapraz kontrol sorguları, hepsi bu…
Petrolün gravite değeri gibi, verinin de kalitesini ifade eden pek çok metrik var halbuki: Consistency (tutarlılık), availability (erişilebilirlik), accuracy (doğruluk), timeliness (güncellik), understandability (anlaşılabilirlik), believability (inandırıcılık), ease of update (güncellenme kolaylığı), value added (katma değerli) gibi.
Görünen o ki, veri kalitesi kavramı bir kaç veri kontrol sorgusu ile üzeri kapatılamayacak kadar kompleks ve hatta bazen teknolojik araçlarla ölçülemeyecek kadar da öznel bir kavram. Veri kalitesi üzerine yazılmış bilimsel makaleler veri kullanıcılarının öznel değerlendirmelerini dikkate almadan sağlıklı bir veri kalitesi ölçümü yapılamayacağını söylüyor (Data Quality Assessment, Leo L. Pipino, Yang W. Lee, and Richard Y. Wang). İnandırıcılık, katma değer, anlaşılabilirlik gibi metrikleri teknik araçlarla ölçmek imkansız, ki bu örnekler günümüzün en büyük veri kalitesi problemleri arasında. MIT’nin bir araştırma raporunda veri kullanıcılarının en çok inandırıcılık ve katma değer kriterlerini önemsediğini okumuştum.
Verimiz kaliteli mi?
Bilmiyoruz, çünkü ölçmüyoruz.
Veri ile uğraşan kişilerin %80 zamanını veriye ulaşma, ne anlama geldiğini anlama, hatalı ve düşük kalite veriden arındırma, şeklen analiz edilebilir yapılara getirme gibi veri hazırlama faaliyetlerine, ancak kalan %20 zamanını veriyi analiz etme ve karar alma faaliyetlerine ayırabildiğini pek çok yerde okuduk (Ki benim pratik hayat gözlemlerime göre %20 çok iyimser bir oran). Sırf bu genel geçer söylem bile verinin kalitesine dair önemli bir gösterge.
KPMG‘nin 2016 Global CEO Outlook raporunda CEO’ların en büyük endişelerinin ne olduğu sorulmuş. CEO’ların %84‘ü karar almakta kullandıkları verinin kalitesinden endişe duyduklarını söylemiş. 2018 raporunda da CEO’ların %51‘i predictive analytics çalışmalarının sonuçlarından endişe ettiklerini, verinin nereden geldiğini bilmek ve gerçekten güvenilir olup olmadığından emin olmak istediklerini söylemiş.
Veri kalitesini ölçenlerin vardıkları sonuçlar da pek iç açıcı değil. Yazının başındaki sıvı yağ tabiri biraz acımasız kaçsa da, pek çok kurumun sahip olduğu verinin “kaliteli petrol” kıvamında olduğunu söylemek güç.
Harvard Business Review‘da veri kalitesi üzerine yazılmış en popüler makalelerden birisi “Şirketlerin verilerinin yalnızca %3’ü temel kalite kriterlerini karşılayabiliyor” diyor. İnanılmaz bir oran!
Makale iki yıl önceye ait bir araştırmayı konu alıyor olsa da, daha dün araştırmanın yeniden güncellendiği ve %3 sonucunun değişmediği belirtildi.
Doğuştan kalitesiz veri
Aynı araştırmada varılan sonuçlardan bir diğeri “Yeni yaratılmış verilerin %47’si kritik, yapılan işi etkileyebilecek kalite sorunları ile doğuyor”. Yani neredeyse yarısı!
Çünkü verinin kıymetli bir varlık olduğunu dile getirmek için kullanılan “Data is an asset” sözündeki niyet ile, kurumlardaki pratik arasında halen ciddi bir fark var. Verinin doğuşuna vesile olan kişilerle sistemlerin performansı ve yarattığı katma değer halen ürünü ne kadar kısa zamanda piyasaya sürdüğü, bir işlemi kaç milisaniyede tamamladığı gibi kriterler ile değerlendirilmekte maalesef. Ürettiği verinin kalitesi ile değerlendirileni ise şimdiye kadar pek az gördük.
Verinin petrolden kalite anlamında farkı şurada:
Kaliteli petrolün oluşmasına katkımız olamıyor ama kendi ürettiğimiz varlığımız olan verinin kalitesini zaman içerisinde artırmak bizim elimizde.
Veri kalitesi ölçme ve değerlendirme sürecine bakışımızı da arayı fazla açmadan en kısa zamanda paylaşmayı ümit ediyorum.
Umut İşcan