Colin Strong İngiltere’nin önde gelen tüketici araştırmacılarından biri. Büyük Veriyi İnsancıllaştırmak* kitabında büyük veriyi nasıl yorumlamak ve iş hayatının kullanımına sunmak gerektiği konusundaki görüşlerini paylaşıyor.

Ben de okumaktan keyif aldığım ve yararlandığım kitabı sizlerle paylaşmak istedim ve geniş bir özetini çıkardım. 

Yazı dizisinin birinci bölümünde büyük verinin sınırları ve temsiliyeti, ikinci bölümde büyük veriyi kullanmak için bir çerçeve ve dikkat edilmesi gereken noktalar, üçüncü bölümde müşteriyi anlamak için ne tür imkanlar sunduğu ve inovasyon içindeki rolü, dördüncü ve son bölümde ise kişisel verilerin nereye kadar ve ne şekilde kullanılması gerektiğini ve pazarlama stratejisi içindeki rolünü aktaracağım.

BÖLÜM-1

Colin Strong teknolojinin hayata bakış açımızı değiştirdiği iddiasını, Nicolas Carr’ın The Shallows kitabından alıntılıyor. Örneğin mekanik saatin keşfiyle, gün ölçülebilir eşit parçalara ayrılıyor. Böylece daha sistemli bir çalışma hayatı devreye giriyor. Zaman üzerinde bir kontrol sağladığımız “yanılgısının” sonunda bizi Orta Çağ’dan Rönesans ve Aydınlanma çağına taşıdığını söylüyor.

Aslında insanlar tarih boyunca sürekli bir şeyleri kayda almaya, saklamaya ve tabii analiz etmeye meraklı olmuşlar, haritalar, deneyler, hava tahminleri veya nüfus sayımları bunun örnekleri. Tabii teknoloji sayesinde bu iş daha kolay ve hızlı hale geliyor. Artık insanların gerçekten ne yaptıklarını onlara sormak yerine toplanan veriler sayesinde öğrenebiliyoruz. Yaptıkları bir tarafa, davranış kalıplarını ve düşüncelerini dahi tahmin edebilir hale geliyoruz.

Data sözcüğü Latince’de “dare” vermek fiilinden türemiş (Ne enteresan biz de “veri” demişiz, hakikaten güzel çeviri-MY). Ama tarihin garip bir cilvesi, “data” sözcüğü gözlemlerden, deneylerden, kayıtlardan “alınan”ları ifade eder olmuş. Kitapta “data”nın hep bu özelliğine dikkat çekiliyor; data doğası gereği bir seçki, neyi temsil ettiği de ona göre değişiyor, veri kendiliğinden konuşmuyor, konuşturuluyor.

Kitapta ilginç bir örnek var bu seçki’ye. Literary Digest adında bir dergi, abonelerine başkanlık seçimleri öncesi anket gönderip sonuçları önceden tahmin etmeye çalışıyormuş ve 1936’ya kadarki dört seçimde bunda başarılı olmuş. 1936 seçimi öncesi ise 10 milyon posta kartı şeklinde gönderdiği (ki bunun bir kısmı da otomobil sahiplerine ait kayıtlardan, özel kulüp üyeliklerinden geliyormuş) ankete 2,3 milyon yanıt gelmiş (gözünü seveyim anketlerin henüz suyu çıkmamışken dönüş oranına bak-MY) ve Cumhuriyetçi Alf London’un kazanacağını ilan etmişler. Bu ismi hiçbirimiz duymamışızdır ama seçimleri ezici bir çoğunlukla kazanan Demokrat aday Franklin Roosevelt’i herhalde herkes tanır. Burada iki sapma var haliyle temsiliyet açısından. Biri derginin kalbur üstü aboneleri ve araba sahibi, kulüp üyesi gibi zenginlerin daha çok temsil edilmesi, yani toplumun her kesimini kapsamaması. Normal bir zamanda bu belki tek başına bir sorun oluşturmayabilirdi ama büyük krizin sonrasına denk gelmesi şüphesiz bir sapma oluşturmuştur. Bir diğeri de yanıtların isteyen kişiler tarafından verilmesi durumu, belli ki onların bu anketi umursamayan veya gönderme zahmetine katlanmayan insanlardan daha farklı bir eğilimleri varmış.

Günümüzde ise özellikle seçim anketlerinde doğruyu bilerek, isteyerek söylememek gibi bir sapma bile söz konusu oluyor. 

Büyük veri ise ölçeği ve derinliği itibariyle bu sorunların bir kısmını bertaraf ediyor. Birbiriyle ilişkisi ilk bakışta anlaşılamayacak keşiflerin yapılmasına imkân sağlıyor, toplanması açısından belli bir seçicilikler yok. Örneğin Google’un arama sonuçlarından şehir bazında gribin yayılma hızını tespit etmesi örneği veriliyor. Ama yine de bazı güçlükler var.

Büyük veri öyle bir hızla büyüyor ki, orada bile verinin tamamıyla çalışmak yerine daha küçük bir alt küme ile çalışmak tercih ediliyor.

Bir başka örnek, giderek sosyal çalışmaların daha fazla dikkatini çeken sosyal medyadan. 2012 yılında ABD’nin Kuzeydoğu sahillerini etkisi altına alan Sandy kasırgasında 27 Ekim-1 Kasım arasında atılan 20 milyonun üstünde tweet market alışverişi gibi başka verilerle analiz edilmeye çalışılmış. Ancak bu tweetlerin çoğunun kasırganın nispeten daha az zarar verdiği Manhattan bölgesinden geldiği anlaşılmış. Zira sorunun yoğun olarak yaşandığı bölgelerdeki elektrik ve cep telefonlarının erişimindeki sorunlar böyle bir analiz yapmayı anlamsız hale getiriyor.

Literatürde mağara adamı efekti diye bir mevzu var. Tarih öncesi çağlara ait atalarımızın bıraktığı veriler mağaralarda olan bazı yemek artıkları veya duvar resimleriyle kısıtlı, çünkü günümüze kadar gelenler sadece onlar. Oysa bütün hayatlarını mağarada geçirmiş değillerdi, muhtemelen şimdi çoktan yok olmuş olan ağaçlara, kayalara, deri parçalarına da izler bırakmışlardı.

Kitap Zeynep Tüfekçi’ye atıfta bulunarak sosyal medya üzerindeki araştırmaların, meyve sineği üzerinde laboratuvarda yapılan çalışmalara (kolay yetiştirilebildikleri ve uyum sağladıkları vb sebeplerle) benzediğini söylüyor. Twitter da bir laboratuvar ama örneğin kitabın yazıldığı tarihte ABD’de twitter kullanıcıları nüfusun sadece %10’uymuş (ki şu an iki katı, ama Türkiye’de bugün bu oran da %11 seviyesinde-MY). Bütün düşüncelerin ve eğilimlerin temsil edilmediği çok açık. Yine de offline ve online dünya birbirine denk olmasa da insanların statü, sosyal kabul görme ve dikkat çekme isteklerini online mecraya yansıttıkları bir gerçek.

Sonuç olarak veri toplanmasında sapmalar her zaman olacak, bunun önüne geçmek mümkün değil ama araştırdığınız konuya göre hangilerinin kabul edilip edilmeyeceğine karar vermek önemli. Her işte olduğu gibi bilim ve yaratıcılık burada da el ele gitmeli.


*Strong C, Humanizing big data: Marketing at the meeting of data, social science and consumer insight, Kogan Page Publishers, 2015