Nisan 24, 2024

PoderyGloria

Podery Gloria'da Türkiye'den ve dünyadan siyaset, iş dünyası

JPEG’den daha mı iyi? Araştırmacı, kararlı difüzyonun görüntüleri sıkıştırabileceğini keşfetti

JPEG’den daha mı iyi?  Araştırmacı, kararlı difüzyonun görüntüleri sıkıştırabileceğini keşfetti
basınç açıklama
yakınlaştır / Bu pürüzlü renkli bloklar, görüntü sıkıştırma kavramının tam olarak neye benzediğidir.

Bing Edwards / Ars Technica

Geçen hafta, İsviçreli yazılım mühendisi Matthias Pullman Keşfetmek O ünlü fotomontaj modeli kararlı yayılma Önemli uyarılar olmasına rağmen, mevcut bitmap’leri JPEG veya WebP’den daha az görsel yapaylıkla yüksek sıkıştırma oranlarında sıkıştırabilir.

Kararlı yayılma bir dosyadır Yapay zeka fotomontaj modeli tipik olarak metin açıklamalarına dayalı görüntüler oluşturan (“talepler” olarak adlandırılır). AI modeli, internetten alınan milyonlarca görüntüyü inceleyerek bu yeteneği öğrendi. Eğitim süreci sırasında model, görüntüler ve ilgili kelimeler arasında istatistiksel ilişkiler kurar, her bir görüntü hakkında temel bilgilerin çok daha küçük bir temsilini yapar ve bunları AI görüntü modelinin ne olduğunu temsil eden matematiksel değerler olan “ağırlıklar” olarak depolar. bilir, böylece meydana gelirler.

Kararlı difüzyon, görüntüleri bir ağırlık formuna analiz edip “sıkıştırdığında”, araştırmacıların “gizli boşluk” dediği yerde bulunurlar, bunun bir tür bulanık potansiyel olarak var olduğunu söylemenin bir yolu, şifreleri çözüldükten sonra görüntülerde algılanabilir. . Stable Diffusion 1.4 ile, ağırlıklar dosyası kabaca 4 GB’dir, ancak yüz milyonlarca görüntünün bilgisidir.

Görüntüleri sıkıştırmak için Kararlı Yayılma kullanma örnekleri.
yakınlaştır / Görüntüleri sıkıştırmak için Kararlı Yayılma kullanma örnekleri.

Çoğu kişi, metin istemleri ile Kararlı Yayılımı kullanırken, Bühlmann metin kodlayıcıyı kırptı ve bunun yerine görüntülerini, düşük çözünürlüklü 512 × 512 görüntü alan ve daha yüksek çözünürlüklü 64 × 64 gizli gösterime dönüştüren Kararlı Difüzyon görüntü kodlama işlemine zorladı. uzayın. Bu noktada, görüntü orijinal görüntüden çok daha küçük bir veri boyutuyla var olur, ancak yine de oldukça iyi sonuçlarla 512×512 görüntüye genişletilebilir (kodu çözülebilir).

Testleri yürütürken Bühlmann, Stable Diffusion ile sıkıştırılmış görüntülerin, JPEG veya WebP’den daha yüksek sıkıştırma oranlarında (daha küçük dosya boyutu) öznel olarak daha iyi göründüğünü buldu. Bir örnekte, JPEG kullanılarak 5,68 KB’ye, WebP kullanılarak 5,71 KB’ye ve Kararlı Diffüzyon kullanılarak 4,98 KB’ye sıkıştırılmış bir şeker dükkanının görüntüsünü gösterir. Kararlı difüzyon görüntüsü, diğer formatlarda sıkıştırılmış olanlardan daha ince ayrıntılara ve daha az net sıkıştırma sonuçlarına sahip görünüyor.

Görüntüleri sıkıştırmak için Kararlı Difüzyon kullanımına ilişkin demo örnekleri.  SD sonuçları en sağdadır.
yakınlaştır / Görüntüleri sıkıştırmak için Kararlı Difüzyon kullanımına ilişkin demo örnekleri. SD sonuçları en sağdadır.

Bühlmann’ın yöntemi şu anda önemli sınırlamalarla birlikte geliyor: Ancak yüzler veya metin ile iyi değil ve bazı durumlarda, kodu çözülmüş görüntüde kaynak görüntüde mevcut olmayan ayrıntılı özellikleri gerçekten hayal edebiliyor. (Muhtemelen görüntü sıkıştırıcının var olmayan bir görüntüde ayrıntıları icat etmesini istemezsiniz.) Ayrıca, dosya kod çözme için 4 GB sabit yayılma ağırlığı ve ek kod çözme süresi gerekir.

Stabil Difüzyon’un bu kullanımı alışılmamış ve pratik bir çözümden çok eğlenceli bir hack olsa da, fotoğraf montaj modellerinin yeni ve gelecekteki kullanımını gösterebilir. Pullman sembolü olabilir Google Colab’da bulunan, deneyimi hakkında daha fazla teknik ayrıntı bulacaksınız. AI olarak yayınlandı.