Nisan 29, 2024

PoderyGloria

Podery Gloria'da Türkiye'den ve dünyadan siyaset, iş dünyası

Çin’den bir grup araştırmacı, Genel Dil Modeli’ne (GLM) dayalı gelişmiş bir web tabanlı soru yanıtlama sistemi olan WebGLM’yi geliştirdi.

Çin’den bir grup araştırmacı, Genel Dil Modeli’ne (GLM) dayalı gelişmiş bir web tabanlı soru yanıtlama sistemi olan WebGLM’yi geliştirdi.
https://arxiv.org/abs/2306.07906

GPT-3, PaLM, OPT, BLOOM ve GLM-130B dahil olmak üzere Büyük Dil Modelleri (LLM’ler), bilgisayarların dil açısından anlayıp üretebileceklerinin sınırlarını büyük ölçüde zorlamıştır. Soruları yanıtlayan temel dil uygulamalarından biri, LLM’deki son gelişmeler nedeniyle önemli ölçüde geliştirildi. Mevcut çalışmalara göre, LLM’nin kapalı kitabında QA performansı ve QA bağlamında öğrenme, LLM’nin koruma kapasitesini anlamamıza katkıda bulunan denetimli paradigmalarınkiyle eşittir. Ancak LLM’nin bile kapasitesi sınırlıdır ve istisnai derecede büyük bilgi gerektiren sorunlarla karşılaştığında insan beklentilerinin gerisinde kalır. Bu nedenle, son girişimler çevrimiçi erişim ve arama da dahil olmak üzere harici bilgilerle zenginleştirilmiş LLM’ler oluşturmaya odaklanmıştır.

Örneğin, WebGPT çevrimiçi tarama, karmaşık sorgulara uzun yanıtlar ve eşit derecede faydalı referanslar yapabilir. Popülerliğine rağmen, orijinal WebGPT yaklaşımı henüz yaygın olarak benimsenmemiştir. İlk olarak, tümü pahalı kaynaklar, zaman ve kapsamlı eğitim gerektiren tarama yolları, iyi yazılmış yanıtlar ve yanıt tercihi bayrakları için çok sayıda uzman düzeyinde ek açıklamaya dayanır. İkincisi, sisteme web tarayıcısı ile etkileşime girmesini söyleyerek, işletim talimatlarını vererek (“arama”, “okuma”, “alıntı yapma” gibi) ve ardından çevrimiçi kaynaklardan ilgili materyalleri toplayarak, davranış yeniden üretim yaklaşımı (yani taklit) öğrenme), temel modeli olan GPT-3’ün insan uzmanlara benzer olmasını gerektirir.

Son olarak, web taraması için çok rollü mimari, kapsamlı hesaplama kaynakları gerektirir ve kullanıcı deneyimi için son derece yavaş olabilir.Örneğin, WebGPT-13B’nin 500 karakterlik bir sorguya yanıt vermesi yaklaşık 31 saniye sürer. Bu çalışmada, Tsinghua Üniversitesi, Beihang Üniversitesi ve Zhipu.AI’den araştırmacılar, 10 milyar değişken Genel Dil Modeli (GLM-10B) üzerine inşa edilmiş geliştirilmiş bir web tabanlı kalite güvence sistemi olan WebGLM’yi sunarlar. Şekil 1, birinin bir örneğini göstermektedir. Verimli, uygun fiyatlı, insan tercihlerine duyarlı ve en önemlisi WebGPT ile eşit bir kalibreye sahip. İyi bir performans elde etmek için sistem, kesin LLM alımını kaba web aramasıyla birleştiren iki aşamalı bir geri getirici olan LLM artırılmış alıcı dahil olmak üzere birçok yeni yaklaşım ve tasarım kullanır.

GPT-3 gibi LLM’lerin geçerli referansları otomatik olarak kabul etme yeteneği, daha küçük yoğunluklu alma cihazlarını geliştirmek için geliştirilebilecek olan bu teknolojiye ilham kaynağı olmuştur. GLM-10B tabanlı yanıt oluşturucu, bağlam öğrenimi (LLM) aracılığıyla yumuşatıldı ve uzun vadeli alıntılanan KG örnekleri üzerinde eğitildi, tetik oluşturucu olarak bilinir. WebGPT’de yazmak için pahalı insan uzmanlara güvenmek yerine, uygun alıntı tabanlı filtreleme kullanılarak daha yüksek kaliteli veriler sağlamak için bir LLM kurulabilir. Çevrimiçi QA forumlarından kullanıcı benzeri sinyalleri kullanmayı öğrenen bir kayıt şirketi, farklı yanıtlar söz konusu olduğunda insanlığın çoğunluğunun tercihlerini anlayabilir.

Şekil 1 WebGLM’nin çevrimiçi kaynaklara bağlantılar içeren bir sorgu formuna verdiği yanıtın ekran görüntüsü.

Uygun bir veri kümesi mimarisinin, WebGPT’deki uzman etiketlemeden daha kaliteli bir günlük kaydı aracı üretebileceğini gösterirler. Kantitatif ablasyon testlerinin ve derinlemesine insan değerlendirmesinin sonuçları, WebGLM sisteminin etkinliğini ve etkinliğini göstermektedir. Özellikle WebGLM (10B), Turing testinde WebGPT’den (175B) daha iyi performans gösterir ve benzer boyuttaki WebGPT’den (13B) daha iyi performans gösterir. WebGLM, halka açık tek sistem olan Perplexity.ai üzerindeki iyileştirmesi sayesinde, bu sunum itibariyle halka açık en büyük web gelişmiş KG sistemlerinden biridir. Sonuç olarak, bu belgede şunları sunarlar: • İnsan tercihlerine sahip, web için optimize edilmiş etkili bir QA sistemi olan WebGLM’yi oluştururlar. Benzer bir boyutla WebGPT’ye (175B) benzer şekilde ve WebGPT’den (13B) çok daha iyi çalışır.

Ayrıca LLM’ler ve arama motorları tarafından desteklenen popüler bir platform olan Perplexity.ai’yi de yener. • Gerçek dünya konuşlandırmalarında WebGPT sınırlamalarını tanımlar. Platformlar üzerinde uygun maliyetli ve verimli avantajlar elde ederken WebGLM’nin yüksek doğruluğunu sağlamak için bir dizi yeni tasarım ve strateji öneriyorlar. • Web ile geliştirilmiş kalite güvence sistemlerini değerlendirmek için insan değerlendirme ölçütlerini formüle ederler. Kapsamlı insan değerlendirmeleri ve denemeleri, WebGLM’nin güçlü kapasitesini gösterir ve sistemin gelecekteki gelişmeleri hakkında öngörüler üretir. Kod uygulaması GitHub’da mevcuttur.


tara kağıt Ve github. katılmayı unutma 24k+ML Alt RedditVe anlaşmazlık kanalıVe Ve E-posta bülteni, en son AI araştırma haberlerini, harika AI projelerini ve daha fazlasını paylaştığımız yer. Yukarıdaki makaleyle ilgili herhangi bir sorunuz varsa veya atladığımız bir şey varsa, bize şu adresten e-posta göndermekten çekinmeyin: [email protected]


🚀 AI Tools Club’da 100’s AI Tools’a göz atın

Anish Teeku, MarktechPost’ta Stajyer Danışmandır. Şu anda Hindistan Teknoloji Enstitüsü (IIT), Bhilai’de Veri Bilimi ve Yapay Zeka alanında lisans eğitimine devam etmektedir. Zamanının çoğunu makine öğreniminin gücünden yararlanmayı amaçlayan projeler üzerinde çalışarak geçiriyor. Araştırma ilgi alanı görüntü işlemedir ve bunun etrafında çözümler oluşturma konusunda tutkuludur. İnsanlarla iletişim kurmayı ve ilginç projelerde işbirliği yapmayı sever.