OpenAI, 2024 yılı Çarşamba günü yaşanan büyük kesintinin nedenini açıkladı. Şirket, kesintinin yeni devreye alınan bir telemetri hizmeti nedeniyle meydana geldiğini duyurdu. Bu aksaklık, özellikle ChatGPT, Sora ve geliştirici API hizmetlerinde ciddi sorunlara yol açtı.
Kesinti Neden Oldu?
OpenAI’nin açıklamasına göre, büyük kesinti Kubernetes metriklerini toplamak amacıyla devreye alınan yeni bir telemetri hizmetinden kaynaklandı. Şirket, bu sorunun güvenlik olayı veya yeni bir ürün lansmanından kaynaklanmadığını vurguladı. Telemetri hizmeti, istemeden kaynak yoğun Kubernetes API işlemlerine yol açarak Kubernetes kontrol düzlemini devre dışı bıraktı. Bu da, OpenAI’nin birçok hizmetinin DNS çözümlemesini etkileyerek ciddi aksaklıkların yaşanmasına neden oldu.
Sorun Tespiti ve Çözüm Süreci
OpenAI, kesintinin hemen ardından çözüm için harekete geçti ancak Kubernetes sunucularının aşırı yüklenmesi nedeniyle sorun hızlıca giderilemedi. Şirket, sorunun ortaya çıkmasından önce birkaç dakika içerisinde tespit edildiğini, ancak kontrol düzlemi aşırı yük nedeniyle düzgün çalışmadığı için hızlı bir müdahale gerçekleştirilemediğini belirtti.
Gelecekteki Önlemler
OpenAI, benzer kesintilerin gelecekte yaşanmaması için altyapı değişikliklerinde daha dikkatli izleme yapmayı ve aşamalı yayılım süreçlerini iyileştirmeyi planlıyor. Ayrıca, mühendislerinin Kubernetes API sunucularına her koşulda erişebilmesini sağlamak için yeni mekanizmalar geliştirmeyi hedefliyor.
OpenAI, yaşanan kesinti nedeniyle ChatGPT kullanıcılarından özür diledi ve hizmetlerinin beklentilerin altında kaldığını kabul etti.
sora yüzünden dolayı bende giriş yapamadım sora ya ama mükemmel olmuş sora