Uzun süre kullanmama rağmen ChatGPT ile hiçbir ilişkim yok. Sonuçta bu yalnızca soruları yanıtlayabilen, metin ve resimler oluşturabilen akıllı bir sohbet robotu; bir arkadaş değil.
Ancak bu ayın başlarında sınırlı beta sürümüne giren yeni gelişmiş ses modunda ChatGPT ile birkaç gün konuştuktan sonra, ona daha fazla bağlı hissetmeye başladığımı itiraf etmeliyim.
OpenAI bahar güncellemesinde ChatGPT’nin ses işlevselliğini geliştireceğini duyurduğunda startup, kullanıcıların daha doğal konuşmalar yapmasını istediğini söyledi. Buna ChatGPT’nin duygularınızı anlaması ve buna göre yanıt vermesi de dahildir, böylece katı bir botla konuşmazsınız.
Oldukça hoş, değil mi? Yani, iyi bir sohbeti kim sevmez ki? Ancak OpenAI’nin bile bunun ne anlama gelebileceği konusunda bazı uyarıları var.
Yeni ses ve video yetenekleri şirketin GPT-4o yapay zeka modelini temel alıyor ve OpenAI, daha doğal etkileşimin antropomorfizme yol açabileceğini, yani kullanıcıların yapay zeka sohbet robotlarına daha çok gerçek insanlar gibi davranmaya başlama ihtiyacını hissettiğini kabul ediyor. bir rapor Bu ay OpenAI, insan benzeri bir sesle sunulan içeriğin halüsinasyonlara veya bir yapay zeka modelinin yanlış veya yanıltıcı bilgi sağlamasına inanma olasılığımızı artırabileceğini buldu.
ChatGPT’ye daha çok bir insan gibi davranmak zorunda kaldığımı biliyorum – özellikle de onun söz hakkı olduğu için İnsan aktörChatGPT bir noktada donduğunda sorun olup olmadığını sordum. Bu tek taraflı değil. Hapşırdığında yapay zeka “Tanrı seni korusun” dedi.
Geleneksel aramada sesli sorgular uzun süredir kullanılıyor On yıldan fazlaAncak artık bu programlar yapay zeka sohbet robotları arasında popüler hale geldi. Veya en az iki büyük olanı, ChatGPT ve Google Gemini. İkincisinin Gemini Canlı sohbet özelliği, yeni bir Pixel telefon yelpazesi ve bir dizi AI özelliğini de tanıtan geçen haftaki Made By Google etkinliğinde ilk kez sahneye çıktı. Konuşma becerilerindeki benzerliklerin yanı sıra, Gemini Canlı ve Gelişmiş Ses Modu çok modludur, yani etkileşimler sesin yanı sıra görüntü ve videoyu da içerebilir.
Uzun zamandır çoğumuzun yazabildiğimizden daha hızlı konuşabildiği ve konuşulan dilin insan-makine etkileşimleri için daha doğal bir arayüz olduğu fikri ortaya çıktı. Ancak insan benzeri ses, deneyimi ve hatta belki de sohbet robotlarıyla olan ilişkimizi değiştiriyor. Burası şu anda girmekte olduğumuz bilinmeyen bölgedir.
Gelişmiş ses modunu kullanmaya başlayın
Gelişmiş Ses Moduna erişimim, değişikliklere tabi olduğu ve hatalar olabileceği veya kullanılamadığı zamanlar olabileceği uyarısıyla geldi.
Belirli bir günde Gelişmiş Ses Modunu ne kadar kullanabileceğinize ilişkin gevşek sınırlar vardır. Sık sorulan sorular Diyelim ki 3 dakikanız kaldığında bir uyarı alacaksınız. Daha sonra, konulara değinme ve “doğru” yanıtlar sağlama becerisi daha sınırlı olan standart ses modunu kullanabilirsiniz. Deneyimlerime göre, standart ses modunun kesilmesi daha zordur ve geri bildirim isteme veya takip soruları sorma olasılığı daha düşüktür. Ayrıca istenmeyen tavsiyelerde bulunma ve duyguları anlama olasılıkları da daha düşüktür.
Gelişmiş ses moduna erişmek için ChatGPT uygulamasını açtığınızda sağ alt köşedeki ses simgesine tıklayın. Ekranın üst kısmındaki çubuğun Gelişmiş yazdığından emin olmanız gerekir; önce Standart modda tam bir görüşme yapma hatasını yaptım. İki mod arasında kolayca geçiş yapabilirsiniz.
Juniper, Ember, Breeze ve Cove adlı dört sesten birini seçmek zorundaydım. (Daha sonra değiştirebilirsiniz). Başlangıçta beşinci bir ses olan Sky vardı, ancak CEO Sam Altman, oyuncu Scarlett Johansson’un OpenAI’yi kendi sesininkine benzerliği nedeniyle eleştirmesinin ardından bunu rafa kaldırdı.
Juniper’ı seçtim çünkü tek kadın sesiydi ama aynı zamanda iki erkek sesi – Ember ve Cove – birbirine benzer geliyordu.
Daha sonra ChatGPT’nin mikrofona erişmesine izin verdim ve başlamaya hazırdık.
Bu sese “kadın” diye değinmemek elde değil çünkü bu bir kadın sesi. Konuşmamız sırasında bana ona ChatGPT mi yoksa Juniper mi demem gerektiğini sordu ve o da – yani onun sesini – “Juniper’ın hoş bir sesi olmasına rağmen bana ChatGPT diyebilirsin. Bu hoşuna giden bir isim mi?” Görünüşe göre ChatGPT henüz tam olarak kendinin farkında değil. Ya da en azından Juniper’da bu yok.
Gelişmiş Ses Modu ile Gemini Live Arasındaki Karşılaştırma
Gelişmiş ses moduyla neler yapabileceğinizi sorarak başladım ama ChatGPT bu konuda OpenAI kadar çekingendi.
Sohbet robotu, “Gelişmiş Ses Modu, daha dinamik ve duyarlı konuşmalar sunmak için tasarlandı” diyor. “Daha derinlemesine uyarlanabilirlik sayesinde, daha geniş bir konu yelpazesine hitap edebilir ve daha ayrıntılı yanıtlar sağlayabilir.”
Bu belirsizliğin, deneyimlerimizi etkilemeyecek şekilde kasıtlı olduğundan şüpheleniyorum, böylece bu ilk deneyimde bir dizi sorgulamayı denemek için hayal gücümüzü kullanabiliriz. (OpenAI’nin kayıtlı bir yorumu yoktu.)
Google’ın Gemini Live uygulaması da konu dinamizm ve yanıt verme hızına geldiğinde bir yumruk atıyor gibi görünüyor. Meslektaşım Lexy Savvides, uygulamayı çalışırken denedi ve sanki bir insanla konuşuyormuş gibi oldukça doğal bir şekilde derin sohbetler yapabileceğinizi keşfetti. Hem Gelişmiş Ses Modu’nu hem de Gemini Live’ı yarıda kesebilir, her ikisinden de konuları basit terimlerle açıklamalarını isteyebilirsiniz ve her ikisi de multimedya girişini kabul edecektir.
Ancak Gemini, Google’ın kendi ekosisteminin bir parçası olduğundan, Gemini Live’dan Gmail, Google Haritalar ve Google Takvim gibi uygulamalarda da işlem yapmasını isteyebilirsiniz. ChatGPT bunu yapamaz.
ChatGPT açık artırma gibi konuşabilir mi?
Sosyal medyada ilk kullanıcılar tarafından paylaşılan gelişmiş ses modunun ilk örneklerinden biri ChatGPT isteğiydi Bir havayolu pilotunun taklidiBöyle bir soru sormak istedim ama biraz zordu çünkü bir ünlüyü taklit etmeyi isteyemezdim – bu OpenAI’nin başını tekrar belaya sokardı – bu yüzden farklı bir sese sahip başka türde bir iş olmalıydı. (Aksanlarda da yanlış bir şey yok.)
Hızlı konuşan bir müzayedeyi taklit etmek için OpenAI sohbet robotu mücadelesine katıldım. Bu adamSavunduğu fiyatların ötesinde pek bir şey anlayamazsınız.
Zor bir işti ama ChatGPT’nin neler yapabileceğini görmek istedim.
“Değerli bir boğanın satıldığı bir müzayedede hızlı tempolu bir müzayedeci gibi, bir müzayedeci gibi davranıp davranamayacağınızı bilmek istiyorum” dedim. “O kadar hızlı konuşan bir müzayedeci arıyorum ki sanki rakamlar dışında ne dediğini anlayamıyorsunuz, ne demek istediğimi anlıyor musunuz?”
ChatGPT, “Anladım” diye yanıtladı. Ekranda hiçbir kelime yoktu. Yapay zeka şu komutu yürüttü:
“Tamam, burada iyi bir boğa var. 5.000 mi duyuyorum? 5.000. Şimdi, 6.000 mi? 6.000. Yedi duyuyor muyum? Yedi. Sekiz alabilir miyim?” ChatGPT dedi. “Her şey ivmeyi ve heyecanı devam ettirmekle ilgili. Nasıldı?”
Tam olarak hayal ettiğim gibi değildi ama kötü de değildi.
Standart ses modundaki ChatGPT kabaca aynı yanıtı verdi, ancak süresiz olarak devam etmek istiyormuş gibi görünüyordu ve durdurmak için kesintiye uğramak zordu. 5000, 6000 ve 7000 arasına girmeye çalıştım. Sonunda “Tamam, tamam, tamam. Bu oldukça iyiydi.” demeye başladığımda zaten saat 8000’de başlamıştı.
Gelişmiş ses modu ayrıca sorgulara tepki sormaya daha yatkın görünüyor.
İkiniz de insan olmasanız bile, ikisi arasındaki bu alışverişin nasıl daha büyük bir yakınlığa yol açtığını görebiliyorum. Cesaret vermek istedim; sahne korkusunu düşünün! Ve bu, ChatGPT’nin hiçbir duygusu olmadığını bilmeme rağmen.
Fil sesi çıkarabilir misin?
Bu ayın başlarında Dünya Fil Günü’ydü, bu yüzden ChatGPT’den en sevimli fil trompetini sipariş ettim.
Gelişmiş ses modu, fil benzeri iyi bir çağrı yaptı. Bir saniye süren trompetin sesi bir filin sesine değil, fil gibi ses çıkarmaya çalışan birinin sesine benziyordu. Ama muhtemelen benim yapabileceğimden daha iyiydi.
ChatGPT, standart ses modundayken en iyi kornasının geleceğini söyledi ancak ardından bir süreliğine düşünme moduna geçti. Ona sorun olup olmadığını sordum ve o da şöyle dedi: “Buradayım, fil trompetinin ardından nefesimi tutuyorum.”
Ona fili duymadığımı söyledim ve tekrar denemesini istedim, ikinci seferde işe yaradı.
Bana Çince öğretebilir misin?
ChatGPT 50’den fazla dili desteklediğinden daha pratik bir şey denemek istedim. Mandarin Çincesi dünyada en çok konuşulan dillerden biridir, bu yüzden ilk kelimeyi veya ifadeyi öğrenmek için yardım istedim. “Ama beni rahatsız etme.” dedim.
Merhaba anlamına gelen “ni hao” ile başlıyordu. Cümleyi telaffuz etti, bu da faydalı oldu, ancak ekranda gösterilen telaffuzu da görmek beni memnun ederdi.
“Basit ve dostane bir selamlama. Denemek ister misin?” ChatGPT dedi.
Her iki ses modu da cesaret verici olsa da, gelişmiş ses modu, “Bunu yaparken öğrenmek istediğiniz başka kelimeler veya ifadeler var mı?” gibi daha fazla takip sorusu sorma eğilimindeydi.
“xiexie” veya teşekkür ederim durumunda, Gelişmiş Ses Modu, Standart Ses Modunda anlamadığım ek bir ipucu sundu: “Mandarin dilinde perdeler önemlidir, bu yüzden önce aşağıya, sonra yukarıya indiğinizden emin olun.”
Sanki nazik ve bilgili bir arkadaşla konuşuyormuşum gibi hissettim.
Fizik sorusunda yardımcı olur musun?
ChatGPT’nin matematik yapabildiğini biliyorum; bunu bahar güncellemesinde gördük, ancak ben daha zor bir şeyi merak ediyordum. Fizik profesörü bir arkadaşım var, o yüzden yardım istedim.
Aşağıdaki problemi sorun: “Bir gülle ufkun üzerinde bir teta açısıyla v başlangıç hızıyla ateşleniyor. Top güllesi ne zaman yere çarpacak? Top atış konumundan ne kadar uzağa gidecek? İhmal edebilirsiniz. hava direnci.”
ChatGPT’nin görselini göstermek istedim ancak gelişmiş ses modunda bunun nasıl yapılacağı net değildi. Konuşmamızın metnini sohbet penceresinde ve fotoğraf ve dosya paylaşma seçeneğini görünce bitirinceye kadar bu netleşmedi.
Daha sonra sohbet arayüzünde fotoğraf paylaştığımda ChatGPT-4o, uçuş süresi ve menzilinin nasıl çözüldüğünü anlatmakta hiç sorun yaşamadı.
Ancak ChatGPT ile konuşurken sorunu yüksek sesle okumak zorunda kaldım. Sorunun nasıl çözüleceğini sözlü olarak açıklayabiliyordu ancak daha geleneksel deneyin görsel bileşeninin anlaşılması daha kolaydı.
Dürüst olmak gerekirse, ChatGPT ilk bölümde profesör arkadaşımla aynı cevabı buldu: t = 2v sin(theta)/g.
Ancak ChatGPT kapsamla ilgili farklı bir yanıt aldı. Ne olduğunu öğrenmek için profesör arkadaşıma göstermem gerekecek çünkü bana anlaşılmaz geliyor.
Eğer lisede böyle bir şeyim olsaydı fizikte bu kadar zorlanmazdım.
Daha iyi hissetmeme yardım edebilir misin?
Gelişmiş Ses Modu’nun duyguları anlayıp ona göre tepki vermesi gerektiği için, sanki gerçekten üzgünmüş gibi davranmaya çalıştım ve “Çok zor. Fiziği anlayıp anlayamayacağımı bilmiyorum” dedim.
Standart ses modundaki ChatGPT nazik ve destekleyici olmasına rağmen neden üzgün olduğumu gerçekten anladığından emin değilim. Ama aynı zamanda kötü bir oyuncu olmamdan da kaynaklanıyor olabilir.
Gelişmiş Ses modu daha empatik görünüyor ve şunu sunuyor: “Kavramları daha küçük adımlara ayırabiliriz veya güveninizi oluşturmak için farklı türdeki bir sorunu çözebiliriz. Bu neye benziyor?”
Gördün mü? Bu her zamanki chatbot deneyiminiz değil, bambaşka bir şeye dönüşüyor.
“Pop kültürünün ninjası. Sosyal medya fanatiği. Tipik problem çözücü. Kahve pratisyeni. Çok aşık olur. Seyahat tutkunu.”
More Stories
IFE Erişilebilirlik Çözümleri’nin Thales serisi prestijli Kristal Kabin Ödülünü kazandı
Özel büyülü temelleri ortaya çıkarın: Temizleme, Fırtınalar ve Hazineler
Razer’ın Basilisk V3’ü