Yapay zeka modellerinin eğitimi için kullanılan veriler, CAPTCHA testlerinden oyunlara ve navigasyon verilerine kadar geniş bir yelpazede internet kullanıcılarının çevrim içi hareketlerinden toplanıyor.
Büyük dil modelleri (LLM) ChatGPT, Gemini ve Claude gibi yapay zeka teknolojileri, günlük milyonlarca kullanıcı tarafından metin üretimi için kullanılıyor. Bu modellerin eğitimi ise kitaplar, internet siteleri ve diğer yazılı materyallerden elde edilen metinlerle gerçekleştiriliyor. Son dönemdeki tartışmalar, eğitim materyallerinin kamuya açık kaynakların yanı sıra internet kullanıcılarının çevrim içi hareketlerinden de derlendiği yönünde yoğunlaşıyor.
İnternet hizmetlerine erişim öncesinde kullanıcıların robot olmadıklarını teyit etmek için kullanılan CAPTCHA ve reCAPTCHA testleri, firmalar için güvenlik önleminin ötesine geçiyor. Kullanıcılardan harfleri yazmaları veya görsellerdeki nesneleri ayırt etmeleri istenen bu testlerin, yapay zeka araçlarının eğitiminde kullanıldığı yıllardır tartışılıyor. Özellikle Google’ın kullandığı testlerde yaya geçitleri, trafik lambaları gibi nesnelerin sorulması, bu verilerin yapay zeka destekli insansız araçlar için kullanıldığı iddialarını güçlendiriyor. Google Cloud’dan yapılan açıklamada, reCAPTCHA verilerinin yalnızca hizmeti iyileştirme amacıyla kullanıldığı ve hizmet şartlarında açıkça belirtildiği ifade edildi.
Yapay zeka eğitiminde gündelik kullanımların yer alması tartışmaları, Pokemon Go gibi oyunlara da sıçradı. Niantic firmasının Pokemon Go oyunu, oyuncuların GPS ve kamera aracılığıyla gerçek dünyada karakterleri ararken oluşturduğu sokak görüntülerinden oluşan büyük bir veri havuzu sağlıyor. MIT Technology Review’a göre Niantic Spatial, bu 30 milyar görseli kullanarak gerçek dünyanın sanal bir modelini üretti. Firma, bu modellemeyi GPS’in güvenilir olmadığı yerlerde robotların hareketini kolaylaştırmak için kullanmayı hedefliyor. Niantic, Kasım 2024’te yaptığı açıklamada, oyuncuların sunduğu verilerin kullanımının opsiyonel olduğunu vurguladı.
İsviçre Lozan Üniversitesi’nden Profesör Christian Peukert, yapay zeka eğitiminde kullanılan materyaller ile kullanıcı güvenliği arasındaki dengeyi değerlendirdi. Peukert, eski CAPTCHA versiyonlarında kullanıcıların deşifre ettiği kelimelerden birinin sistem tarafından bilindiğini, diğerinin ise bilinmediğini belirtti. Bilinmeyen kelimeye verilen yanıtın, e-kitap uygulamaları gibi dijitalleşme çabaları kapsamında veri olarak depolandığını ve bunun kullanıcıların metin tanıma sistemlerinin iyileştirilmesine doğrudan katkı sağladığı anlamına geldiğini vurguladı. Peukert, yapay zekanın eğitiminin büyük kısmının, kullanıcıların fark etmeden internette ürettiği pasif verilere dayandığını ifade etti.
Peukert, Reddit ve Twitter gibi sosyal medya platformlarının dil modellerini, Instagram gibi görsel platformların ise açıklama ve etiketleriyle görsel verileri eğittiğini belirtti. Google aramalarının dil anlama ve sıralama sistemlerini, Google Haritalar ve Waze gibi navigasyon uygulamalarının ise hareket verilerini topladığını ekledi. Sohbet robotları ve sesli asistanlarla yapılan görüşmelerin de sistemleri iyileştirmede kullanıldığını kaydetti.
Bu süreçlerin gizlilik ve güvenlik açısından sorunlar yarattığını vurgulayan Peukert, büyük veri birikiminin fişlemeye, sahte içerik üretimine ve kullanıcıların kendileriyle rekabet eden sistemleri beslemesine yol açabileceğini söyledi. Bireysel tedbirlerin yetersiz kaldığını belirten Peukert, eğitim için kullanılan verilerin büyük kısmının kamuya açık veya sistemler arasında çoğaltılmış halde bulunduğunu ve kontrolünün zor olduğunu belirtti. Ancak Peukert, insan kaynaklı verilerin dil teknolojileri, çeviri, erişilebilirlik araçları ve bilimsel çalışmalar gibi alanlarda faydalar sağladığına da işaret etti.
Urfa Postası, Şanlıurfa ve ilçelerinde yaşanan son dakika gelişmelerini, yerel gündemi ve önemli olayları hızlı, doğru ve tarafsız bir şekilde okuyucularına ulaştırmayı amaçlayan dijital haber platformudur. Güncel ve güvenilir içerikleriyle bölgenin nabzını tutar.
Yorum Yap