Ana SayfaTeknolojiAmazon'ın Çığır Açan Trainium Çipi: Yapay Zeka Devlerinin Yeni Tercihi

Amazon’ın Çığır Açan Trainium Çipi: Yapay Zeka Devlerinin Yeni Tercihi

Amazon CEO’su Andy Jassy’nin OpenAI ile yaptığı 50 milyar dolarlık AWS yatırım anlaşması büyük yankı uyandırdı. Bu anlaşmanın hemen ardından Amazon, kritik çip geliştirme laboratuvarına özel bir tur düzenledi. Söz konusu laboratuvarda geliştirilen Amazon Trainium çipi, yapay zeka sektöründe dengeleri değiştirmeye hazırlanıyor. Özellikle yapay zeka çıkarım (inference) maliyetlerini düşürmesi ve Nvidia’nın sektördeki hakimiyetini sarsması bekleniyor. Sektör uzmanları, bu yenilikçi çipi büyük bir merakla takip ediyor.

Amazon’ın Trainium Atılımı ve Yapay Zeka Devleri

Amazon, bu devasa yatırım ve gelişme ile yapay zeka pazarındaki konumunu güçlendiriyor. Bu özel turda laboratuvarın direktörü Kristopher King ve mühendislik direktörü Mark Carroll rehberlik etti. AWS, yapay zeka laboratuvarı Anthropic’in ilk günlerinden beri ana bulut platformu olarak hizmet veriyor. Anthropic’in daha sonra Microsoft’u bulut ortağı olarak eklemesine rağmen bu güçlü ilişki devam ediyor. Amazon’ın OpenAI ile artan iş birliği de dikkat çekiyor.

OpenAI ile yapılan anlaşma, AWS’yi model üreticisinin yeni yapay zeka aracı oluşturucusu Frontier’ın tek sağlayıcısı haline getiriyor. Yapay zeka ajanlarının Silikon Vadisi’nin tahmin ettiği kadar büyük hale gelmesi durumunda bu, OpenAI’nin işinin önemli bir parçası olabilir. Bu münhasırlığın tam olarak açıklandığı gibi kalıp kalmayacağını zaman gösterecek. Financial Times, Microsoft’un OpenAI ile Amazon arasındaki anlaşmanın kendi anlaşmalarını ihlal ettiğini düşündüğünü bildirdi. Microsoft’un tüm OpenAI modellerine ve teknolojisine erişim hakkı olduğu belirtiliyor.

Peki AWS’yi OpenAI için bu kadar çekici kılan ne? Bu anlaşmanın bir parçası olarak AWS, OpenAI’ye 2 gigavatlık Trainium hesaplama kapasitesi sağlamayı taahhüt etti. Anthropic ve Amazon’ın kendi Bedrock hizmeti şimdiden Trainium çiplerini Amazon’ın üretebileceğinden daha hızlı tüketiyor. Bu nedenle bu, devasa bir taahhüt olarak öne çıkıyor.

Şu ana kadar üç nesilde toplam 1,4 milyon Amazon Trainium çipi devreye alındı. Anthropic’in Claude modeli, bu çiplerden 1 milyondan fazlası üzerinde çalışıyor. Şirket, Trainium’un başlangıçta daha hızlı ve uygun maliyetli model eğitimi için tasarlandığını belirtti. Ancak şimdi çıkarım için de ayarlanmış ve kullanılıyor. Yapay zeka modelini çalıştırma ve yanıt üretme süreci olan çıkarım, şu anda sektördeki en büyük performans darboğazını oluşturuyor.

Örneğin, Trainium2, Amazon’ın Bedrock hizmetindeki çıkarım trafiğinin çoğunu yönetiyor. Bedrock, Amazon’ın birçok kurumsal müşterisinin yapay zeka uygulamaları oluşturmasına olanak tanıyor. Bu uygulamalar, birden fazla modeli aynı anda kullanabiliyor. King, “Müşteri tabanımız kapasite sağladığımız kadar hızlı genişliyor” dedi. Ayrıca, AWS’nin devasa hesaplama bulut hizmeti EC2’ye atıfta bulunarak, “Bedrock bir gün EC2 kadar büyük olabilir” diye ekledi.

Performansın Sırrı: Trainium’un Donanım Gücü

Amazon, Nvidia’nın tedarik sıkıntısı yaşayan ve zor temin edilen GPU’larına bir alternatif sunuyor. Yeni çiplerinin yeni özel Trn3 UltraServer’lar üzerinde çalıştırılmasının, klasik bulut sunucularına kıyasla benzer performans için %50’ye kadar daha düşük maliyetle çalıştığını belirtiyor. Aralık ayında piyasaya sürülen Trainium3 ile birlikte, AWS ekibi yeni Neuron anahtarları da geliştirdi. Carroll, bu kombinasyonun dönüştürücü olduğunu ifade etti.

Carroll, “Bu bize çok büyük bir şey veriyor” dedi. Anahtarlar, her bir Trainium3 çipinin bir örgü yapılandırmasında diğer çiplerle konuşmasına olanak tanıyor. Bu da gecikmeyi önemli ölçüde azaltıyor. “Trainium3’ün her türlü rekoru kırmasının nedeni bu” dedi. Özellikle “güç başına fiyat” konusunda büyük başarılar elde edildiği belirtiliyor. Günde trilyonlarca token söz konusu olduğunda, bu tür iyileştirmeler önemli avantajlar sağlıyor.

Aslında Amazon’ın çip ekibi, 2024 yılında Apple tarafından da övgüyle anıldı. Gizemli şirket için nadir bir açıklık anıydı bu. Apple’ın yapay zeka direktörü, ekibin diğer çipi olan Graviton’u nasıl kullandığını anlattı. Graviton, düşük güç tüketimli, ARM tabanlı bir sunucu CPU’su olup ekibin tasarladığı ilk başarılı çipti. Apple ayrıca çıkarım için özel olarak tasarlanmış Inferentia’yı da övdü. O zamanlar yeni olan Trainium’a da bir gönderme yaptı.

Bu çipler, Amazon’ın klasik stratejisini temsil ediyor. İnsanların ne satın almak istediğini görüp, ardından fiyat konusunda rekabet edebilecek şirket içi bir alternatif inşa etmek. Tarihsel olarak çipler için en büyük engel geçiş maliyetleriydi. Nvidia’nın çipleri için yazılan uygulamaların diğer çiplerle çalışması için yeniden tasarlanması gerekiyor. Bu da geliştiricileri geçiş yapmaktan caydıran zaman alıcı bir süreçti.

Ancak AWS çip ekibi, Amazon Trainium‘un artık yapay zeka modelleri oluşturmak için popüler bir açık kaynak çerçevesi olan PyTorch’u desteklediğini gururla açıkladı. Buna, geliştiricilerin açık kaynak modellerini paylaştığı geniş bir kütüphane olan Hugging Face’te barındırılan birçok model de dahil. Carroll, geçişin “temel olarak tek satırlık bir değişiklik, ardından yeniden derleme ve Trainium üzerinde çalıştırma” gerektirdiğini söyledi. Başka bir deyişle Amazon, Nvidia’nın pazar hakimiyetini mümkün olduğunca azaltmaya çalışıyor.

AWS, bu ay Cerebras Systems ile bir ortaklık da duyurdu. Bu şirketin çıkarım çipini, Amazon’ın süper güçlü ve düşük gecikmeli yapay zeka performansı vaat ettiği sunuculara entegre etti. Ancak Amazon’ın hedefleri sadece çiplerin ötesine geçiyor. Çipleri barındıran sunucuyu da kendisi tasarlıyor. Bu ekip, ağ bileşenlerinin yanı sıra “Nitro”yu da tasarladı. Nitro, sanallaştırma teknolojisi sağlayan bir donanım-yazılım kombinasyonudur. Aynı zamanda yeni nesil sıvı soğutma teknolojisi ve bu donanımları barındıran sunucu kızaklarını da kapsıyor. Tüm bunlar maliyeti ve performansı kontrol etmek amacıyla yapılıyor.

Geliştirme Sürecinin Kalbi: Annapurna Labs’tan Yenilikçi Çözümler

Amazon’ın özel çip tasarım birimi, bulut devinin İsrailli çip tasarımcısı Annapurna Labs’ı Ocak 2015’te yaklaşık 350 milyon dolara satın almasıyla doğdu. Bu ekip, on yılı aşkın süredir AWS için çip tasarlıyor. Birim, Annapurna köklerini ve adını koruyor. Ofiste her yerde logosu görülebilir. Bu çip laboratuvarı, Austin’in lüks “The Domain” bölgesinde yer alıyor. Burası, bazen Austin’in Silikon Vadisi olarak adlandırılan, mağazalar ve restoranlarla dolu, yürünebilir bir bölge. Ofisler, klasik teknoloji şirketi atmosferine sahip. Köşelerde masalar, toplu çalışma alanları ve toplantı odaları bulunuyor. Ancak binanın yüksek bir katının arka tarafında şehrin nefes kesen manzarasına sahip gerçek laboratuvar yer alıyor.

Raflarla dolu laboratuvar, iki büyük toplantı odası büyüklüğünde, gürültülü bir endüstriyel alan. Ekipmanlardaki fanlar yüzünden sürekli bir uğultu var. Bir lise atölye sınıfı ile üst düzey bir laboratuvar için Hollywood setinin karışımı gibi görünüyor. Tek fark, mühendislerin beyaz laboratuvar önlükleri yerine kot pantolon giymesi. Buranın çiplerin üretildiği yer olmadığını belirtmek gerekiyor. Bu nedenle beyaz koruyucu giysilere gerek yok. Trainium3, TSMC tarafından üretilen en son teknoloji 3 nanometre bir çip. Diğer çipler ise Marvell tarafından üretiliyor.

Ancak burası, “ilk çalıştırma” (bring-up) büyüsünün gerçekleştiği oda. King, “Bir silikonun ilk çalıştırması, çipi ilk kez aldığınız zamandır. Büyük bir gece partisi gibi. Bir kilitlenme gibi burada kalırsınız” diye açıklıyor. 18 aylık çalışmanın ardından çip, tasarlandığı gibi çalıştığını doğrulamak için ilk kez etkinleştirilir. Ekip, Trainium3’ün ilk çalıştırmasının bazı kısımlarını filme alarak YouTube’da paylaştı.

Sürpriz yok, hiçbir zaman sorunsuz olmuyor. Trainium3 için prototip çip, önceki versiyonlar gibi başlangıçta hava soğutmalıydı. Mevcut çip artık sıvı soğutmalı. Bu da enerji avantajları sunuyor ve önemli bir mühendislik başarısıydı. İlk çalıştırma sırasında, çipin hava soğutma ısı emicisine nasıl takıldığına dair boyutlar yanlıştı. Bu nedenle çip etkinleştirilemedi. Ekip, hiç tereddüt etmeden “hemen bir taşlama makinesi alıp metali zımparalamaya başladı” dedi King. Gürültünün ilk çalıştırma pizza partisi atmosferini bozmasını istemedikleri için gizlice bir toplantı odasına geçip zımparalama işlemini yaptılar. Bütün gece uyanık kalıp sorunları çözmek “silikonun ilk çalıştırmasının özü” dedi King.

Laboratuvarda, donanım laboratuvar mühendisi ve usta kaynakçı Isaac Guevara’nın minik entegre devre bileşenlerini bir mikroskop aracılığıyla kaynakladığı bir kaynak istasyonu bile bulunuyor. Bu, o kadar inanılmaz derecede zor bir iş ki, kıdemli lider Carroll, Guevara ve odadaki diğer mühendislerin kahkahaları arasında bunu yapamadığını açıkça itiraf etti. Laboratuvar ayrıca çiplerdeki sorunları test etmek ve analiz etmek için hem özel yapım hem de ticari araçlar içeriyor. Sinyal mühendisi Arvind Srinivasan, laboratuvarın çip üzerindeki her bir küçük bileşeni nasıl test ettiğini gösterdi.

Ancak laboratuvarın yıldızı, ekibin tasarladığı her nesil “kızağı” sergileyen bir sıra. Kızaklar, Trainium yapay zeka çiplerini, Graviton CPU çiplerini ve destekleyici kartları ve bileşenleri barındıran tepsilerdir. Bunları, yine bu ekip tarafından özel olarak tasarlanmış ağ bileşeniyle bir rafa dizdiğinizde, Anthropic Claude’un başarısının merkezinde yer alan sistemleri elde edersiniz. Aralık ayındaki AWS re:invent konferansında sergilenen kızak bu şekildeydi. Rehberlerimin tur sırasında OpenAI anlaşmasını övmelerini bekliyordum. Ancak bunu yapmadılar.

Geleceğe Yönelik Vizyon ve Jassy’nin Destekleyici Sözleri

Bu çekingenlik, yukarıda bahsedilen anlaşmayı çevreleyebilecek potansiyel yasal belirsizlikle ilgili olabilir. Ancak edindiğim izlenim, (şu anda bir sonraki versiyon olan Trainium4’ü tasarlayan) sahadaki mühendislerin OpenAI ile henüz çok fazla çalışma fırsatı bulamadığı yönündeydi. Günlük işleri şu ana kadar Anthropic ve Amazon’ın ihtiyaçlarına odaklanmış durumda. Şu anda, Trainium2 çiplerinin en büyük kısmı, 2025’in sonlarında 500.000 çip ile faaliyete geçen Project Rainier’de kullanılıyor. Bu, dünyanın en büyük yapay zeka hesaplama kümelerinden biri olup Anthropic tarafından kullanılıyor. Ancak ana ofiste, OpenAI’nin Trainium’u nasıl kullanacağına dair bir alıntı gösteren bir duvar monitörü vardı. Gurur oradaydı, ancak ince bir şekilde.

Bu laboratuvara ek olarak, ekibin kalite ve test amaçlı kendi özel veri merkezi de bulunuyor. Kısa bir sürüş mesafesinde, müşteri iş yüklerini çalıştırmadığı için bir AWS veri merkezinde değil, ortak konumlu bir tesiste barındırılıyor. Güvenlik sıkı: Binaya girmek ve Amazon’ın alanına erişmek için katı protokoller uygulanıyor. Veri merkezinin soğutma sistemi o kadar gürültülü ki, kulak tıkacı takmak zorunlu. Havada ise ısıtılmış metalin keskin kokusu yoğun olarak hissediliyor. Ortalama bir insanın takılmak isteyeceği hoş bir yer değil.

Bu veri merkezinde, Amazon’ın en yeni özel çiplerinin tümünü entegre eden sıralar dolusu sunucu var: Graviton CPU, sıvı soğutmalı Trainium3, Amazon Nitro, hepsi sorunsuz bir şekilde hesaplama yapıyor. Mühendisler, sıvının kapalı bir sistemde çalıştığını, yani yeniden kullanıldığını ve bunun çevresel etkiyi azaltmaya yardımcı olması gerektiğini söyledi. Güncel bir Trn3 UltraServer şu şekilde görünüyor: Üstte ve altta birden fazla kızak, ortada Neuron anahtarları bulunuyor. Donanım geliştirme mühendisi David Martinez-Darrow, burada bir kızak üzerinde bakım yapıyor.

Ekip üzerindeki dikkat her zaman yüksek olsa da, son zamanlarda inceleme gerçekten arttı. Amazon CEO’su Andy Jassy, bu laboratuvarı yakından takip ediyor. Ürünleriyle gurur duyan bir baba gibi halka açık bir şekilde övünüyor. Aralık ayında, Trainium’un AWS için şimdiden milyarlarca dolarlık bir iş olduğunu söyledi. Ayrıca en çok heyecan duyduğu AWS teknolojilerinden biri olarak nitelendirdi. OpenAI anlaşmasını duyururken de çipi övgüyle anmıştı. Ekip de bu baskıyı hissediyor. Mühendisler, çiplerin seri üretilebilmesi ve veri merkezlerine yerleştirilebilmesi için her bir ilk çalıştırma etkinliği etrafında üç ila dört hafta boyunca 7/24 çalışıyor.

Carroll, “Gerçekten çalışacağını kanıtlamak için mümkün olduğunca hızlı olmamız çok önemli” dedi. “Şu ana kadar gerçekten iyi gidiyoruz.” Yapay zeka çip teknolojileri hakkındaki güncel gelişmeleri bu bağlantıdan inceleyebilirsiniz.

Daha fazla güncel Teknoloji haberleri için sitemizi ziyaret edebilirsiniz.

DİĞER HABERLER

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz
Captcha verification failed!
Captcha kullanıcı puanı başarısız oldu. lütfen bizimle iletişime geçin!

EN POPÜLER