Derin öğrenme analitiği, algılanan nesnenin büyük olasılıkla ne olduğunu belirleyen 3’ten fazla katmanı veya birbirine bağlı nöron aracılığıyla görüntüleri işler
Giriş katmanı, gizli katman ve çıktı katmanı.
Gizli katman çok sayıda katmandan oluşabilir.
Derin öğrenme analitiği öğrenme aşamasında neye odaklanacağını ve özellikler için kendisi öğrenir. Ağın derinliği geliştirici tarafından belirlenir. Genellikle de deneme yanılma yolu ile…
Ancak, heuristic veya makine öğrenmesinin aksine, spesifik kurallar veya filtreler insan tarafından programlanmaz. Bunlar bilgisayar tarafından eğitim verileri bazında tespit edilir.

Kamerada öğrenme işlemi olmaz
Yaygın yanlış anlaşılma, derin öğrenme/AI tabanlı kameraların kurulum sonrasında bile öğrenmeye devam ettiğidir. Bu belli markalarda geçerlidir. Örneğin Avigilon self learning, Bosch Camera Trainer, Hikvision AI training platform gibi. Avigilon self learning sahneden kendisi öğrenirken, Bosch ve Hikvision’da durum böyle değildir. Verilerin etiketlenmesi gerekmektedir. Ancak üretim sonrası öğretme yapılabilmektedir.
Ancak, birçok analitik için, öğrenme süreci (training) ve model çıkarıp kamera üzerinde deploy edilmesi, fabrikada üretim esnasında olur. Dolayısıyla artık öğrenme süreci tamamlanmıştır ve kamera üzerindeki model ölçüsünde sahnede tespit işlemlerini gerçekleştirebilecektir. Tabi aynı zamanda üreticiler belirli periyotlarla modellerini yeniden eğitirler ve firmware upgrade’ler aracılığıyla ürünlerine yüklenmesini sağlamaktadırlar.
Evrişimli sinir Ağı (CNN – Convolutional neural network) :
Evrişimli sinir ağları ya da CNN derin öğrenme tabanlı video analitikte obje tespit ve sınıflandırmada en çok kullanılandır.

https://medium.com/@gdenizbektass/cnns-building-blocks-23e6b7b4a4b7
Evrişimsel sinir ağının 4 yapı taşı :
Convolution : kayan pencere filtresini uygulayarak, resimden özellikler/detaylar çıkarır. Haar cascade classifier gibi. Böylelikle algoritmanın işlemsel maliyetini azaltır. (computational cost)
Non-linearity / ReLU : Sinir ağının doğrusal olmayan özellikleri hesaba katabilmesini sağlamak için evrişim filtresine doğrusal olmayan ayarlama (örneğin, farklı araçların yükseklik ve genişlik oranı)
Pooling : her evrişim aşaması arasındaki giriş görüntü boyutunu aşamalı olarak azaltır. Bu durumda yine işlemsel maliyet azaltılmış olur. Bu, kullanılan bilgi miktarını azaltarak hesaplama maliyetini düşürür. Ayrıca aydınlatma, açı veya çözünürlükteki küçük değişikliklere karşı esnekliğe yardımcı olur ve bir algoritmanın sahip olduğu bilgileri genelleştirerek/ayrıntı seviyesini biraz azaltarak overfitting riskinde azalma sağlar.
Fully connected : resmi/görüntüyü eğitim veri seti kümelerine dayalı olarak önceden tanımlanmış nesneler/çıktılar halinde sınıflandırmak için convolution ve pooling katmanlarından gelen özellikleri kullanır.

Görüntüde daha çok ve daha iyi detay bulabilmek için, geliştiriciler daha fazla katman/filtre kullanır. Ancak derin öğrenmenin derinliği daima performansı için iyi göstergeç değildir. Dahası, sinir ağında daha fazla katman genellikle ekstra işlem gücü gerektirir ve bu da ekstra işlem gücü maliyetine dönüşür.
Açık kaynak CNN’ler :
Açık kaynak evrişimli sinir ağlarının kullanımı, bunların spesifik uygulamalar için özelleştirmesi/modifikasyonu video analitik marketinde tipiktir. Üreticiler sıklıkla açık kaynak CNN’leri modifiye ederek ve özelleştirerek, geliştirme ve optimizasyondan tasarruf sağlar.
Video gözetleme üreticileri veri bilimci ya da kendi sinir ağlarını geliştirebileceği ekipleri yoktur. Birçok açık kaynak evrişimsel sinir ağı (MobileNet, Resnet, SqeezeNet, YOLO vb.) oldukça başarılıdır ve işlemsel olarak efektiftir.

https://sonercan-kalkan.medium.com/openvino-nedir-bu-openvino-59299fc0d327
Derin öğrenme avantajları :
Derin öğrenme tabanlı video analitik ciddi oranda daha yüksek doğruluk oranına sahiptir ve düşük ışık koşulları, zorlu hava koşulları gibi ortamlarda dahi yanlış alarmı minimum seviyede üretir. Ilave olarak, zorlu koşullarda veya veya nesne önceki görünümler veya beklentilerle eşleşmediğinde dahi objeleri doğru bir şekilde sınıflandırabilir.

https://medium.com/beyondminds/an-overview-of-human-pose-estimation-with-deep-learning-d49eb656739b
Her zaman derin öğrenmeye ihtiyaç yoktur…
Bazı basit görevlerde, örneğin yüz tespit gibi, basit makine öğrenmesi oldukça yeterlidir.
Aşağıdaki resimde görüleceği üzere, yakın mesafeden, kontrollü ışık ortamında, sahnenin dar görüş alanı ile görüntülendiği bir durumda basit makine öğrenmesi tabanlı analitikler ile yüz tanıma çalıştırılabilir.

Derin öğrenme dezavantajları :
Derin öğrenme tabanlı video analitik, heuristic(buluşsal) ve makine öğrenmesine göre daha yüksek doğruluk oranına sahipken, genellikle GPU’ya ihtiyaç duyar. (üretimde, eğitim için işlemsel gereksinimler amacıyla)
Ilave olarak, derin öğrenme analitikleri çok sayıda eğitim verisi/resmine ihtiyaç duyar. Bu geliştirme ve eğitim maliyetleri nihai fiyatı oldukça çok etkiler.
Ayrıca, derin öğrenme analitiği, eğitim görüntüleriyle veya önceden tanınan nesnelerle tam olarak eşleşmeyen nesneleri algılama ve sınıflandırmada tipik olarak iyi olsa da, her ortamın farklı zorlukları vardır.
Eğitim için Veri seti :
Veri kümeleri, kişilerin, araçların, davranışların, yüzlerin veya herhangi bir nesnenin/eylemin nasıl algılanacağı veya tanınacağı konusunda derin öğrenme analitiği eğitmek için kullanılır. Veri kümeleri genellikle binlerce ila milyonlarca etiketli görüntü veya videodan oluşur.
Derin öğrenme analitiği doğruluğu, veri setinin temel 3 kriterine bağlıdır.
- Veri sayısı,
- verilerin çeşitliliği,
- Kullanıma ve gerçek hayat senaryosuna uygunluğu. Bu kriter sayısı arttırılabilir.
Yaygın veri setleri :
Analitik eğitimi için kullanılan, halka açık ücretsiz veri kümelerinden hükümet ve özel sektör üreticileri tarafından oluşturulan veri kümelerine kadar yaygın veri kümesi türleri vardır.
COCO yaygın olarak kullanılan açık veri setlerinden birisidir. Yaygın olması sebepleri :
Çok sayıda veri, detaylı, farklı tip objeler.
Yaklaşık 330K resim (>200K etiketli).

ImageNet , diğer yaygın olarak kullanılan veri setlerinden birisidir. (14.000.000 fazla resim) görüntülerdeki nesneleri etiketlemek için “synset” adı verilen 100.000’den fazla isim tanımlayıcı. Nesneler, artan ayrıntı düzeylerini tanımlamak için tipik olarak birden çok synset ile etiketlenir.
Pascal2 daha eski açık veri setlerindendir. Coco’dan ve Imagenet’ten daha basittir. Ancak, obje tespitinde model eğitimi için iyidir. 10.000 civarı etiketlenmiş resim içerir.
Wider, yüz tespit ile ilgili diğer açık veri setidir. 32.000+ resim ve 390.000+ etiketlenmiş yüz vardır.
Veri seti, derin öğrenmede oldukça kıymetlidir. Veri seti olması kadar, veri setinin etiketlenmiş olması da önemlidir. Veri seti etiketlemesi yüksek kabiliyetler gerektiren bir iş değildir. Ancak çok emek gerektirir. Hem Türkiye’de hem dünyada çeşitli firmalar veri etiketleme işini ücret karşılığı yapmaktadırlar. Amazon Mechanical Turk, gibi.
temel Kaynak : video analytic bookipvm 2021