JPEG’den daha mı iyi? Araştırmacı, kararlı difüzyonun görüntüleri sıkıştırabileceğini keşfetti

basınç açıklama — yakınlaştır / Bu pürüzlü renkli bloklar, görüntü sıkıştırma kavramının tam olarak neye benzediğidir.

Bing Edwards / Ars Technica

Geçen hafta, İsviçreli yazılım mühendisi Matthias Pullman Keşfetmek O ünlü fotomontaj modeli kararlı yayılma Önemli uyarılar olmasına rağmen, mevcut bitmap’leri JPEG veya WebP’den daha az görsel yapaylıkla yüksek sıkıştırma oranlarında sıkıştırabilir.

Kararlı yayılma bir dosyadır Yapay zeka fotomontaj modeli tipik olarak metin açıklamalarına dayalı görüntüler oluşturan (“talepler” olarak adlandırılır). AI modeli, internetten alınan milyonlarca görüntüyü inceleyerek bu yeteneği öğrendi. Eğitim süreci sırasında model, görüntüler ve ilgili kelimeler arasında istatistiksel ilişkiler kurar, her bir görüntü hakkında temel bilgilerin çok daha küçük bir temsilini yapar ve bunları AI görüntü modelinin ne olduğunu temsil eden matematiksel değerler olan “ağırlıklar” olarak depolar. bilir, böylece meydana gelirler.

Kararlı difüzyon, görüntüleri bir ağırlık formuna analiz edip “sıkıştırdığında”, araştırmacıların “gizli boşluk” dediği yerde bulunurlar, bunun bir tür bulanık potansiyel olarak var olduğunu söylemenin bir yolu, şifreleri çözüldükten sonra görüntülerde algılanabilir. . Stable Diffusion 1.4 ile, ağırlıklar dosyası kabaca 4 GB’dir, ancak yüz milyonlarca görüntünün bilgisidir.

yakınlaştır / Görüntüleri sıkıştırmak için Kararlı Yayılma kullanma örnekleri.

Çoğu kişi, metin istemleri ile Kararlı Yayılımı kullanırken, Bühlmann metin kodlayıcıyı kırptı ve bunun yerine görüntülerini, düşük çözünürlüklü 512 × 512 görüntü alan ve daha yüksek çözünürlüklü 64 × 64 gizli gösterime dönüştüren Kararlı Difüzyon görüntü kodlama işlemine zorladı. uzayın. Bu noktada, görüntü orijinal görüntüden çok daha küçük bir veri boyutuyla var olur, ancak yine de oldukça iyi sonuçlarla 512×512 görüntüye genişletilebilir (kodu çözülebilir).

Testleri yürütürken Bühlmann, Stable Diffusion ile sıkıştırılmış görüntülerin, JPEG veya WebP’den daha yüksek sıkıştırma oranlarında (daha küçük dosya boyutu) öznel olarak daha iyi göründüğünü buldu. Bir örnekte, JPEG kullanılarak 5,68 KB’ye, WebP kullanılarak 5,71 KB’ye ve Kararlı Diffüzyon kullanılarak 4,98 KB’ye sıkıştırılmış bir şeker dükkanının görüntüsünü gösterir. Kararlı difüzyon görüntüsü, diğer formatlarda sıkıştırılmış olanlardan daha ince ayrıntılara ve daha az net sıkıştırma sonuçlarına sahip görünüyor.

yakınlaştır / Görüntüleri sıkıştırmak için Kararlı Difüzyon kullanımına ilişkin demo örnekleri. SD sonuçları en sağdadır.

Bühlmann’ın yöntemi şu anda önemli sınırlamalarla birlikte geliyor: Ancak yüzler veya metin ile iyi değil ve bazı durumlarda, kodu çözülmüş görüntüde kaynak görüntüde mevcut olmayan ayrıntılı özellikleri gerçekten hayal edebiliyor. (Muhtemelen görüntü sıkıştırıcının var olmayan bir görüntüde ayrıntıları icat etmesini istemezsiniz.) Ayrıca, dosya kod çözme için 4 GB sabit yayılma ağırlığı ve ek kod çözme süresi gerekir.

Stabil Difüzyon’un bu kullanımı alışılmamış ve pratik bir çözümden çok eğlenceli bir hack olsa da, fotoğraf montaj modellerinin yeni ve gelecekteki kullanımını gösterebilir. Pullman sembolü olabilir Google Colab’da bulunan, deneyimi hakkında daha fazla teknik ayrıntı bulacaksınız. AI olarak yayınlandı.

Apple’ın Fotoğraf Yayınım hizmeti çarşamba günü durduruldu, işte yapmanız gerekenler

OpenAI teknolojisi tarafından desteklenen Bing Chat, Chrome ve Safari’ye yayılıyor

NASA, uzaylıların araması için Earth Sounds’u yayınladı – Carl Sagan’ın kopyası açık artırmaya çıkacak

Doğru Elektrikli Araç Şarj Ünitesini Seçmenin Önemi

PNE Kış Fuarı 2023: tarihler, ilgi çekici yerler, bilet maliyeti ve bilgiler

Yeni bir okyanus atlası, yapay ışığın geceleri denizleri nasıl kirlettiğini gösteriyor

60. Venedik Bienali’nde Türkiye’yi Gülsun Karamstava temsil edecek

Menu

Recent Post

Pages

Bir yanıt yazın Yanıtı iptal et

More Stories