Her gün milyonlarca insan, sabahın köründe ya da gecenin bir yarısında o boş metin kutusuna bir şeyler yazıyor. ChatGPT, Claude veya Grok... Fark etmiyor. Karşıdan gelen cevaplar o kadar doğal, o kadar akıcı ki, orada bir "biri" olduğuna inanmak işten bile değil . Sanki o silikon yığınlarının içinde atan bir kalp, çalışan bir beyin var.

Ama size kötü bir haberim var. O model, ne hakkında konuştuğunu zerre kadar bilmiyor .

Bırakın yazdığı paragrafın ana fikrini, kurduğu cümlenin sonunu bile henüz tasarlamış değil. Hatta şu an ekrana düşen kelimeden bir sonrasını bile bilmiyor . Gördüğünüz şey bir düşünce süreci değil, sadece devasa bir olasılık havuzundan—yaklaşık 100.000 seçenek arasından—yapılan anlık ve soğuk tahminler . Perdeyi kaldırma vakti geldi. O sihirli kutunun içinde büyü değil, sadece saf istatistik var.

enter image description here

Kelimeler Yalan, Gerçek Olan Sayılar

LLM'ler kelimeleri okumaz; onlar "token" dediğimiz parçaları okur. Siz ekrana duygusal bir mesaj veya teknik bir kod bloğu yazdığınızda, model bunu bir bütün olarak algılamaz. Aradaki bir ön işlemci, metninizi alır ve acımasızca parçalar. Örneğin, basit bir "Programlamayı seviyorum" cümlesi bile modelin kapısına gelmeden önce yedi ayrı parçaya bölünür. Hatta cümlenin sonundaki nokta işareti bile ayrı bir token olarak kabul edilir.

Bu parçalama işlemi rastgele değildir. Tokenizer'lar, veriyi en verimli şekilde sıkıştırmak için devasa metin yığınları üzerinde eğitilmiştir. İngilizce'de sık kullanılan "the" gibi kelimeler tek bir token kaplarken, daha uzun veya nadir kelimeler alt parçalara ayrılır. Karmaşık bir kelimeyi dört parçaya bölebilir. İşte bu yüzden "4096 token sınırı" dediğimizde aslında 4000 kelimeden bahsetmiyoruz; elimizde kabaca 3000 kelimelik bir alan var demektir.

Son aşamada, o güzel cümleleriniz birer sayıya, yani "Token ID"ye dönüşür. "Programlama" artık bir kavram değil, bir tamsayıdır (integer). Modele giren ham madde budur. Ancak sayıların kendi başına bir anlamı yoktur. 10 sayısı 5'ten büyüktür ama "kral" kelimesi "kraliçe"den büyük müdür? İşte burada işler garipleşiyor.

Anlamın Haritasını Çıkarmak (Embeddings)

Elinizdeki o Token ID’leri (o soğuk tamsayılar), modelin içinde "vektör" dediğimiz şeye dönüşür. Bunu, kelimenin kimlik kartı gibi düşünmeyin; daha çok devasa, binlerce boyutlu bir haritadaki GPS koordinatları gibidir.

GPT-3 gibi modellerde, tek bir kelime için 12.000’den fazla sayısal değer kullanılır. Neden bu kadar karmaşık derseniz cevap basit. Çünkü dil düz bir çizgi değildir.

Bu çok boyutlu uzayda, anlamca birbirine yakın olan kelimeler fiziksel olarak da yan yana durur. "Kral" ve "Kraliçe" bu uzayda komşudur. "Python" (yazılım dili) ile "JavaScript" yan yanayken; "Python" (yılan) bambaşka bir mahallededir. Modelin sihri burada başlar: Kelimelerle matematiksel işlemler yapabilirsiniz. Meşhur örneği duymuşsunuzdur: "Kral"ın vektöründen "Erkek"i çıkarıp "Kadın"ı eklerseniz, matematik sizi tam olarak "Kraliçe"nin koordinatına götürür.

Model, cinsiyet rollerini veya yazılım dillerinin benzerliğini birileri ona kodladığı için bilmez; sadece metin yığınlarındaki bu geometrik yakınlıkları, yani desenleri ezberlemiştir.

Sahne Işıkları Kime Dönük? (Attention Mekanizması)

Milyarlarca parametrenin döndüğü o nöral ağın içinde, işin rengini değiştiren tek bir mekanizma var: "Attention" (Dikkat) .

Bir konserde olduğunuzu hayal edin. Sahne kalabalık. Ama gitar solosu başladığında ışık operatörü diğer herkesi karanlıkta bırakıp sadece gitariste odaklanır. Solist şarkıya girdiğinde ışık ona döner. Transformer modelleri de kelimeleri tam olarak böyle okur .

Basit bir cümle: "Kedi paspasın üzerine oturdu çünkü çok yorgundu."

Buradaki "yorgundu" ifadesi kime ait? Kediye mi, paspasa mı? Dilbilgisi kurallarına baksanız ikisi de olabilir. Ama model, o anda "Attention" mekanizmasını çalıştırır. "Yorgunluk" kavramı ile "Kedi" kavramı arasındaki ilişkiye devasa bir ağırlık puanı verirken, "Paspas"ı karanlıkta bırakır .

Paspas kelimesi cümlede daha yakın dursa bile, model milyonlarca örnekten şunu öğrenmiştir: Paspaslar yorulmaz, canlılar yorulur .

Bu hesaplama tek bir seferde yapılmaz. "Attention Heads" dediğimiz çoklu başlıklar sayesinde, model aynı anda yüzlerce farklı ilişkiyi paralel olarak tarar. Biri dilbilgisine bakar, diğeri anlama, öbürü duyguya. GPT-3'te bu işlem tam 96 katman boyunca tekrar eder . Her katman, bir öncekinin üzerine daha soyut, daha derin bir anlayış inşa eder.

Zar Atma Sanatı (Olasılık ve Sampling)

Transformer işini bitirdiğinde, size "işte mutlak doğru cevap bu" demez. Size sadece devasa bir liste fırlatır.

Kelime dağarcığındaki her bir kelimeye (Llama 3 için bu sayı 128.000'dir) bir puan verir. "Softmax" dediğimiz bir fonksiyon, bu ham puanları alır ve hepsinin toplamı %100 olacak şekilde birer yüzdeye dönüştürür.

Senaryo şu: "Bugün hava..." dediniz. Modelin zihninde şunlar belirir:

  • %23 "güzel"
  • %14 "yağmurlu"
  • %9 "çok"
  • %0.0001 ihtimalle "mor".

Burada kritik bir gerçek var: Model ne söyleyeceğine karar vermez. Sadece ihtimalleri masaya döker. Seçimi yapan, "Sampling" (Örnekleme) algoritmasıdır.

Eğer her seferinde en yüksek puanlı kelimeyi seçerseniz (buna "Greedy Decoding" denir), sonuç fevkalade sıkıcı ve robotik olur. Yazı kendini tekrar eder. İşte burada devreye o meşhur ayar girer: Temperature (Sıcaklık).

Sıcaklığı artırmak, bu olasılık dağılımını düzleştirir. Modelin o güvenli %23'lük seçeneği değil, daha riskli ama daha "insani" duran %6'lık seçeneği seçme şansını artırır. Yani yapay zekadaki "yaratıcılık" dediğiniz şey, aslında matematiksel bir risk alma, kontrollü bir hata yapma sanatıdır. Ayarı çok açarsanız saçmalar, çok kısarsanız ruhsuzlaşır.

Bitmeyen Döngü (The Loop)

Bir kelime seçildi. Harika. Ama iş bitmedi. Asıl hamallık şimdi başlıyor.

Model o yeni seçtiği kelimeyi alır, sizin yazdığınız orijinal metnin en sonuna yapıştırır ve tüm süreci en baştan başlatır. Tokenizasyon, embedding, attention katmanları... Hepsi tekrar çalışır.

"Python nedir?" yazdınız diyelim.

Tur: Model "Bir" kelimesini seçti. Tur: Artık girdi şudur: "Python nedir? Bir". Model her şeyi tekrar okur ve "programlama" kelimesini seçer. Tur: Girdi: "Python nedir? Bir programlama". Tekrar okur, tekrar hesaplar. Bu döngü, model "dur" (End of Sequence) tokenini üretene veya limit dolana kadar sürer.

Uzun cevapların neden yavaş aktığını şimdi anladınız mı? Model her yeni kelime için geçmişteki tüm kelimeleri tekrar tekrar işlemek zorundadır. Ve daha da önemlisi: Model cümleye başlarken sonunu bilmez. Gizli bir senaryosu yoktur. 50. kelime, ancak 49. kelime yazıldıktan sonra kararlaştırılır.

Çıktılarınızın Kontrolünü Ele Alma Vakti

Artık makinenin içini gördünüz. Bu mekanizmayı anlamak size üç kritik avantaj sağlar:

Halüsinasyon Bir Hata Değil, Özelliktir: Model yalan söylemez, çünkü "gerçek" kavramı onda yoktur. O sadece "kulağa en mantıklı gelen" devam yolunu seçer. Olasılık dağılımı gerçeği ve kurguyu ayırt edemez. Bu yüzden emin konuştuğunda bile şüphe edin.

Sıcaklık Ayarı Sizin Gaz Pedalınızdır Kod yazarken veya format düzeltirken "yaratıcılığa" ihtiyacınız yok; kesinliğe ihtiyacınız var. Temperature ayarını 0'a çekin. Beyin fırtınası mı yapacaksınız? O zaman 1.0'a çıkarın ve saçmalamasına izin verin.

Limitler Keyfi Değildir Şirketler cimri olduğu için değil, matematik izin vermediği için o karakter sınırları var. Attention mekanizmasının maliyeti, metin uzadıkça katlanarak artar (karesel karmaşıklık).

Karşınızdakinin bir büyü olmadığını anlamışsınızdır umarım. Sadece istatistik, vektörler ve sonsuz bir döngüden ibaret bir sisteme hükmetmek için artık ne yapacağınızı bir nebze biliyorsunuz. Bundan sonrası da size kalmış.