*

  • ing. veri tekilleştirme. veri depolamada disk şişmesini önlemek ve disk kapasitesini artırmak amacıyla uygulanan bir sıkıştırma yöntemi. dünyada kullanımı giderek artmakta, data storage firmaları bu teknolojinin kaymağından nasiplenmek için birbirlerini çiğnemektedir şu sıralar.
  • deduplication kullanan piyasadaki en güvenilir backup çözümler için :

    (bkz: symantec netbackup) (kaynakta ve hedefte tekilleştirme)
    (bkz: fujitsu cs800) (hedefte tekilleştirme)

    (bkz: avamar) (kaynakta tekilleştirme)
    (bkz: data domain) (hedefte tekilleştirme)
  • mailing ile direct marketing yapanların olmazsa olmazıdır. maliyet açısından 1. derecede önem taşımaktadır.
  • veriyi h264 video sıkıştırmada olduğu gibi parçalayıp sadece değişen taraflarını dikkate alarak yedeklenmesini sağlayan bir teknoloji. şu an için tekilleştirmeye yönelik 170 civarında algoritma mevcutmuş.
  • içerisinde 260 bin dosya olan 900 küsür gb lık dizini 1 gb a kadar düşürebilen teknoloji. özellikle ufak tefek dosyaların olduğu dizinlerde çok işe yarıyor.
  • (bkz: zfs)
  • windows'un deduplication'ının aslında benim sandığım kadar matah olmadığını fark ettim. klasörlere baktığınızda evet devasa bir yer kazanımı görüyorsunuz ancak tekilleştirilen dosyaların parçaları system volume information'ın altında tutuluyor ve explorer'da gördüğünüz şey çoğu zaman sadece bu parçalara olan symbolic linklerden ibaret bu nedenle dosyanın gerçek boyutunu göstermiyor. 16 tb kadar 10 milyon civarında karışık tipte dosyanın olduğu bir sürücüde benim gerçek yer kazanımım 3 tb civarında oldu.
  • deduplication ile ilgili doğru bilgiler :

    inline deduplication : verinin tekilleştirilmesi sırasında sanıldığı gibi diskler kullanılmaz . oluşmuş olan blokların hashlerinin olduğu bir veri tabanı vardır, sistemin işlemci gücü yeni gelen tüm veriyi parçalara ayırır ve oluşan hashler mevcut hashler ile aynı olan var mı diye kontrol eder. iops ihtiyacını kesinlikle arttırmaz, yükü disklere dağıtmaz. alacağınız ilk backup da disk ile işiniz var sonrasında gelen yeni veride yok canım kardeşim.

    post processing deduplication: adından da anlaşılacağı üzere parçalama işlemini sonradan yapan türdür. eski modadır. dezavantajı alacağınız yedeklerin boyu kadar ek yere ihtiyacınız daha var ki önce oraya yazsın sonra parçalayarak oradan dedup file sisteme aktarsın . avantajı (ki cpu ların çok hızlanması ile ortadan kalktı) eskiden inline olanlardan daha hızlı backup ları bitirip gün içinde bloklara ayırıp işliyordu.
    hemen bir doğru bilgi daha : emc datadomain kesinlikle post process değil hatta bu alanda inline deduplication ın öncülerindendir. emc satın almadan önce de öyleydi.

    source vs target deduplication : buradaki source ve target yöntem değil tekilleştirme işlemi için veriyi bloklara parçalamanın gerçekleştiği yerlerdir.

    source deduplication : parçalama nerede olursa olsun nihayetinde final karşılaştırmalar gene tekilleştirme merkezi hash veritabanı neredeyse orada olur. sağladığı avantaj verinin kendisini göndermek yerine o günkü backup da oluşan hash listesini sisteme gönderip sadece sistemde olmayanları göndermeyi sağlar. yani 1 tb lık bir verinin sadece 2 gb ı değişmiş ise backup işleminde önce mb lar seviyesindeki oluşan hash listesi akabinde de o değişmiş 2 gb merkezi sistemde olmadığı için 2 gb lık kısmın blokları gönderilir. ki burada örnek 20 mb lık bir powerpoint dosyasının değişen 1 slide ini gönderebilmekten bahsediyoruz. avantajı uzak bölgelerden backup almak için muhteşemdir. aynı zamanda tekilleştirmenin en ağır bloklara ayırma işlemini yükünü yedek alınan tüm sistemlere dağıttığı için ölçeklemek daha kolaydır. çok sayıda küçük küçük sistemin olduğu ortamlarda vazgeçilmezdir neredeyse (bkz: avamar)

    target deduplication : yedeklenecek verinin tamamımı tekilleştirmeli yedekleme sistemi üzerine göndererek içeriye yazılmadan önce parçalanmasını ve sadece yeni blokların hash veritabanı ve diske yazılmasını sağlayan , tekilleştirmenin verinin çıkış yerinde değil vardığı sistemde gerçekleştiren tekilleştirmedir. avantajı tek bir sistemden büyük boyutta günlük backuplar alınacaksa mesela 3-4 tb lık bir veritabanı bunun source yani kaynakta yapmak o makinenin cpu sunu sürekli yorar, onun yerine sadece veri parçalama ve tekilleştirme için üretilmiş sisteme bunu yaptırmak avantajlıdır, dezavantajı uzak bölgelerde hat genişliğinden dolayı pek uygulanması mümkün olmaz.

    tüm tekilleştirme sistemleri güçlü cpu lara ihtiyaç duyarlar, eskiler bir de güçlü disklere (post process olanlar) ihtiyaç duyarlar. sanal versiyonları çıkmış olan datadomain, hpe storeonce vb) virtual appliance lar küçük boyutta veriler için uygundur ama veri boyutu büyükse (büyüyecekse demiyorum , büyüyecekse de küçükken sanal kullanın , sonra replike edersiniz yeni sisteme , kolay zor değil ) fiziksel bir sistemi öneririm..

    hepsinden önemlisi ise size danışmanlık verecek olan kişilerden 'yedekleme sistemi' değil , 'yedekten dönüş sistemi' dizaynı ve bilgileri isteyin (rto,rpo larını , dönüş prosedürlerini , ön hazırlıklarını vs ). emin olun yedekleme ve geri dönüş iki ayrı dünya. hiç bir yöneticiniz 'ooo adamım bugün yedekleri %20 daha hızlı bitirmişsin' demeyecek hatta farkında bile olmayacak ama çöken bir sistemi geri döndürme vakti geldiğinde o elinizdeki telefon var ya dakka başı çalacak , aldığınız çözümü küfür mü edeceksiniz yoksa dua mı edeceksiniz bunu sistem dizaynını neye göre yaptırdığınız belirleyecek. defalarca tecrübe edilmiştir. :)

    sorularınız olursa lütfen sorun, bilgi paylaştıkça çoğalır .
hesabın var mı? giriş yap