Sekiz soruda dünyayı sarsan yapay zeka aracı DeepSeek
Sekiz soruda dünyayı sarsan yapay zeka aracı DeepSeek
Az sayıda çip ve az maliyetle geliştirilen modellerin sonuncusu DeepSeek-R1, OpenAI, Google ve Meta gibi dev oyuncuların sektördeki hakimiyetine meydan okuyor.
Haber Giriş Tarihi: 30.01.2025 10:33
Haber Güncellenme Tarihi: 30.01.2025 10:36
Kaynak:
Bursada Bugün
Çinli yapay zeka laboratuvarı DeepSeek'in kendi adını taşıyan büyük dil modeli (LLM),ABD'li OpenAI firmasının ChatGPT'sinin en büyük rakiplerinden biri haline gelirken, Silikon Vadisi'ni şaşkınlığa uğrattı.
Bu ay yayınlanan son DeepSeek modellerinin, hem son derece hızlı hem de az maliyetle geliştirildiği söyleniyor.
Aynı zamanda daha az sayıda çiple geliştirilen modellerin sonuncusu DeepSeek-R1, OpenAI, Google ve Meta gibi dev oyuncuların sektördeki hakimiyetine meydan okuyor.
İşte sekiz soruda DeepSeek:1. Nereden çıktı bu DeepSeek?
Çin'in Hangzhou kentindeki şirket, Temmuz 2023'te Zhejiang Üniversitesi mezunu, bilgi ve elektronik mühendisi Liang Wenfeng tarafından kuruldu. Liang'ın 2015'te kurduğu bir fon olan High-Flyer'ın kuluçka programında yer aldı. Liang da sektörün diğer ileri gelen isimleri gibi, çeşitli görevlerde insanlara yetişebilen veya onları geçebilen "yapay genel zeka" seviyesine ulaşmayı hedefliyor.
Bağımsız faaliyet gösteren DeepSeek'in finansman modeli, dış yatırımcıların baskısı olmadan iddialı yapay zeka projelerini sürdürmesine ve uzun vadeli araştırma ve geliştirmeye öncelik vermesine olanak tanıyor. DeepSeek ekibi, Çin'in en iyi üniversitelerinden mezun genç ve yetenekli kişilerden oluşuyor ve yenilikçilik kültürünü teşvik ediyor. Şirketin işe alım sürecinde iş deneyiminden çok teknik becerilere öncelik veriliyor. Kısacası yapay zeka modelleri geliştirme sürecinde yeni bir bakış açısına sahip olduğu düşünülüyor.
DeepSeek'in yolculuğu, Kasım 2023'te kodlama görevleri için tasarlanmış açık kaynaklı bir model olan DeepSeek Coder'ın piyasaya sürülmesiyle başladı. Bunu, diğer büyük dil modelleriyle rekabet etmeyi amaçlayan DeepSeek LLM izledi. Mayıs 2024'te piyasaya sürülen DeepSeek-V2, güçlü performansı ve düşük maliyeti nedeniyle ilgi gördü. ByteDance, Tencent, Baidu ve Alibaba gibi diğer büyük Çinli teknoloji devlerini de yapay zeka modellerinin fiyatlarını düşürmeye zorladı.
2. DeepSeek modellerinin kapasitesi ne durumda?
DeepSeek-V2, daha sonra 236 milyar parametreye sahip daha gelişmiş bir model olan DeepSeek-Coder-V2 ile değiştirildi. Karmaşık kodlama istemleri için tasarlanan model 128.000 token'a varan yüksek bir bağlam penceresine sahip. 128.000 token'lık bağlam penceresi, modelin aynı anda işleyebileceği maksimum giriş metni uzunluğunu ifade ediyor.
Daha geniş bir bağlam penceresi, bir modelin daha uzun metinleri anlamasına, özetlemesine veya analiz etmesine olanak tanır. Bu, örneğin uzun belgeler, kitaplar veya karmaşık diyaloglar üzerinde çalışırken büyük bir avantaj sağlar.
Token ise metindeki bir birim anlamına geliyor. Bu birim genellikle kelime, kelime parçacığı (örneğin "yapay" ve "zeka" gibi) veya hatta bir karakter olabilir. Örneğin: "Yapay zeka harika!" cümlesi dört tokendan oluşabilir: "Yapay," "zeka," "harika," "!".
Şirketin en son modelleri DeepSeek-V3 ve DeepSeek-R1 ise konumunu daha da sağlamlaştırdı. 671.000 parametreli bir model olan DeepSeek-V3, akranlarından önemli ölçüde daha az kaynak gerektirirken diğer markalarla çeşitli kıyaslama testlerinde etkileyici bir performans sergiliyor. Ocak 2025'te piyasaya sürülen DeepSeek-R1 de akıl yürütme, kodlama ve matematik gibi karmaşık görevlere odaklanıyor. Bu alandaki yetenekleriyle ChatGPT'nin son modellerinden biri olan o1'e meydan okuyor.
DeepSeek kısa sürede önemli bir başarı yakalamış olsa da Forbes, şirketin öncelikli olarak araştırmaya odaklandığını ve yakın gelecekte ticarileştirmeye yönelik detaylı planları olmadığını yazdı.
3. Son kullanıcı için ücretsiz mi?
DeepSeek'in ilgi çekmeyi başarmasının temel nedenlerinden biri son kullanıcılar için ücretsiz olması. Hatta bu, kullanıcılara ücretsiz olarak sunulan bu denli gelişmiş ilk yapay zeka sistemi. OpenAI o1 ve Claude Sonnet gibi diğer güçlü sistemler ücretli abonelik gerektiriyor. Hatta bazı aboneliklerde bile kullanıcılara kota konuyor.
Google Gemini da ücretsiz olarak sunuluyor, ancak ücretsiz sürümleri eski modellerle sınırlı. DeepSeek'in şimdilik herhangi bir sınırlaması yok.
4. Nasıl kullanılır?
Kullanıcılar, son kullanıcı için geliştirilen DeepSeek sohbet arayüzüne "chat.deepseek" adresinden erişebiliyor. Buradaki chat ekranına komutları girmek ve internette arama yapmak için "search" butonuna basmak yeterli oluyor.
Herhangi bir konuyla ilgili daha ayrıntılı bilgiler elde etmek içinse "deep think" seçeneği var. Bu seçenek kullanıcıların istemlerine daha detaylı yanıtlar sunarken, arama motorunda da daha fazla sitede arama yapabiliyor. Ancak sadece belirli kaynaklara güvenerek arama yapan ChatGPT'nin aksine bu özellik, bazı ufak sitelerdeki yanlış bilgileri de kullanıcıların karşısına çıkarabilir. Bu yüzden kullanıcıların bu sohbet botunda da elde ettikleri bilgileri teyit etmesi gerek.
5. Güvenli mi?
DeepSeek kullanımıyla ilgili bir önemli soru başlığı da güvenli olup olmadığı. DeepSeek de tıpkı diğer hizmetlerde olduğu gibi kullanıcının verilerini istiyor ve bunlar muhtemelen Çin'deki sunucularda saklanıyor.
Kullanıcıların herhangi bir LLM'de olduğu gibi burada da sohbet botuna hassas verilerini vermemesi önemli.
DeepSeek de açık kaynaklı olduğu için bağımsız araştırmacılar modelin kodlarına bakıp güvenli olup olmadığını belirlemeye yönelik çalışmalar yapabilir. Güvenlik konusundaki endişelere yönelik daha ayrıntılı bilgilerin ilerleyen günlerde çıkması bekleniyor.
6. Açık kaynak kodlu olması ne anlama geliyor?
DeepSeek-R1 dahil olmak üzere modeller, büyük ölçüde açık kaynaklı olarak yayınlandı. Yani isteyen herkes aracın kodlarına erişebiliyor ve bu kodları kullanarak LLM'i kişiselleştirebiliyor. Eğitim verileri ise patentli.
Öte yandan OpenAI, o1 modelini kapalı olarak piyasaya sürmüştü ve halihazırda sadece kullanıcılara bile aylık 20 ila 200 dolarlık paketlerle satıyor.
7. ABD kısıtlamalarına rağmen nasıl böyle bir model üretti?
Şirket teknolojik yeteneklerini ve pazar erişimini geliştirmek için stratejik ortaklıklar da kurdu. Dikkat çeken iş birliklerinden biri, ABD'li çip firması AMD ile yapıldı. Forbes'a göre DeepSeek, özellikle DeepSeek-V3 için model geliştirmenin temel aşamalarında AMD Instinct GPU'larını (grafik işlem birimleri) ve ROCM yazılımını kullandı.
MIT Technology Review dergisi ise ABD'den Çin'e yönelik çip yaptırımlarının gelmesinden çok önce Liang'ın, şu anda Çin'e ihracatı yasaklanmış bir tür olan Nvidia A100 çiplerinden önemli miktarda stok satın aldığını yazdı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000'den fazla birim olduğunu tahmin ediyor. Bazıları bu rakamın 50.000 olduğunu söylüyor. Bu stokun yapay zeka eğitimi açısından önemini fark eden Liang, DeepSeek'i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başladı.
Ancak burada önemli olan bir nokta da Liang'ın az sayıda kaynakla yetkin modeller inşa etmenin yolunu bulmuş olması. ABD'nin çip ihracat kısıtlamaları, DeepSeek geliştiricilerini hesaplama gücü eksikliklerini telafi etmek için daha akıllı, daha enerji verimli algoritmalar oluşturmaya zorladı. ChatGPT'nin eğitim verilerini işlemek için 10.000 Nvidia GPU'ya ihtiyaç duyduğu düşünülüyor. DeepSeek mühendisleri sadece 2.000 GPU ile benzer sonuçlara ulaştıklarını söylüyor.
8. DeepSeek'in yenilikçi teknikleri neler?
DeepSeek'in başarısı birkaç önemli yeniliğe bağlanabilir.
Pekiştirmeli öğrenme: Teknolojist Janakiram MSV'ye göre, büyük ölçüde gözetimli ince ayara dayanan geleneksel yöntemlerin aksine, DeepSeek saf RL kullanıyor. Gözetimli ince ayar yönteminde ince ayar yapılmadan önce, model genellikle geniş bir veri kümesi üzerinde eğitilmiştir. Saf RL kullanmak ise bir yapay zeka sisteminin yalnızca pekiştirmeli öğrenme yöntemlerini kullanarak eğitilmesi anlamına gelir. Bu, modelin insan tarafından ayıklanmış veriler veya gözetimli öğrenme yöntemleri olmaksızın, yalnızca ödül ve ceza mekanizmaları üzerinden öğrenmesi demek. Bu yaklaşım, DeepSeek-R1'in muhakeme yeteneklerini geliştirmede özellikle etkili.
MoE mimarisi: Açılımıyla Mixture of Experts, yani Uzmanlar Karışımı mimarisi yapay zeka modellerinde farklı uzmanlardan oluşan yenilikçi bir sistem. Burada kullanıcının girdisi için en uygun birkaç uzman seçiliyor ve sadece onlar çalışıyor. Bu sayede hem büyük modellerin performansı artırılıyor hem de işlem maliyeti düşürülüyor. Bunu her biri farklı bir alanda uzmanlaşmış bir uzman ekibi olarak düşünmek mümkün. Bir görevle karşı karşıya kaldığında, yalnızca ilgili uzmanlar çağrılıyor ve kaynakların ve uzmanlığın verimli kullanımı sağlanıyor.
Multi-Head Latent Attention: Bu yöntem, bir modelin farklı dikkat başlıklarını kullanarak gizli temsiller ile girişler arasındaki ilişkileri öğrenmesini sağlıyor. Bilgiyi daha esnek, güçlü ve ayrıntılı şekilde işlemek için kullanılıyor. Bunu, girdi verilerinin farklı bölümlerine odaklanabilen ve modelin bilgiyi daha kapsamlı şekilde anlamasını sağlayan birden fazla "dikkatli kafa" olarak düşünmek mümkün.
Damıtma: DeepSeek, daha büyük modellerin bilgi ve yeteneklerini daha küçük, daha verimli olanlara aktarmak için damıtma tekniklerini kullanıyor. Bu, bir öğretmenin bilgisini bir öğrenciye aktarmasına benziyor. Öğrencinin benzer yeterlilikteki görevleri ancak daha az deneyim veya kaynakla gerçekleştirmesine olanak tanıyor. DeepSeek'in damıtma süreci, daha küçük modellerin daha büyük muadillerinin gelişmiş akıl yürütme ve dil işleme yeteneklerini devralmasını sağlayarak onları daha çok yönlü ve erişilebilir hale getiriyor.
Kısacası DeepSeek, RL ve MoE gibi verimli mimarileri kullanarak eğitim için gereken hesaplama kaynaklarını önemli ölçüde azaltıyor ve daha düşük maliyetlerle tamamlayabiliyor. Örneğin DeepSeek-V3, Meta'daki modellerin maliyetinin çok daha az bir kısmıyla eğitildi.
OpenAI ve Google gibi önemli oyuncuların yapay zeka modellerine eğitim verileri sağlayan ScaleAI firmasının CEO'su Alexandr Wang, perşembe günü İsviçre'nin Davos kentinde düzenlenen Dünya Ekonomik Forumu'nda (WEF) yaptığı konuşmada DeepSeek'in ürününü "dünyayı sarsacak bir model"diye nitelendirdi.
Sizlere daha iyi hizmet sunabilmek adına sitemizde çerez konumlandırmaktayız. Kişisel verileriniz, KVKK ve GDPR
kapsamında toplanıp işlenir. Sitemizi kullanarak, çerezleri kullanmamızı kabul etmiş olacaksınız.
Bursa 5n1k
En son gelişmelerden anında haberdar olmak için 'İZİN VER' butonuna tıklayınız.
Sekiz soruda dünyayı sarsan yapay zeka aracı DeepSeek
Az sayıda çip ve az maliyetle geliştirilen modellerin sonuncusu DeepSeek-R1, OpenAI, Google ve Meta gibi dev oyuncuların sektördeki hakimiyetine meydan okuyor.
Çinli yapay zeka laboratuvarı DeepSeek'in kendi adını taşıyan büyük dil modeli (LLM), ABD'li OpenAI firmasının ChatGPT'sinin en büyük rakiplerinden biri haline gelirken, Silikon Vadisi'ni şaşkınlığa uğrattı.
Bu ay yayınlanan son DeepSeek modellerinin, hem son derece hızlı hem de az maliyetle geliştirildiği söyleniyor.
Aynı zamanda daha az sayıda çiple geliştirilen modellerin sonuncusu DeepSeek-R1, OpenAI, Google ve Meta gibi dev oyuncuların sektördeki hakimiyetine meydan okuyor.
İşte sekiz soruda DeepSeek:1. Nereden çıktı bu DeepSeek?
Çin'in Hangzhou kentindeki şirket, Temmuz 2023'te Zhejiang Üniversitesi mezunu, bilgi ve elektronik mühendisi Liang Wenfeng tarafından kuruldu. Liang'ın 2015'te kurduğu bir fon olan High-Flyer'ın kuluçka programında yer aldı. Liang da sektörün diğer ileri gelen isimleri gibi, çeşitli görevlerde insanlara yetişebilen veya onları geçebilen "yapay genel zeka" seviyesine ulaşmayı hedefliyor.
Bağımsız faaliyet gösteren DeepSeek'in finansman modeli, dış yatırımcıların baskısı olmadan iddialı yapay zeka projelerini sürdürmesine ve uzun vadeli araştırma ve geliştirmeye öncelik vermesine olanak tanıyor. DeepSeek ekibi, Çin'in en iyi üniversitelerinden mezun genç ve yetenekli kişilerden oluşuyor ve yenilikçilik kültürünü teşvik ediyor. Şirketin işe alım sürecinde iş deneyiminden çok teknik becerilere öncelik veriliyor. Kısacası yapay zeka modelleri geliştirme sürecinde yeni bir bakış açısına sahip olduğu düşünülüyor.
DeepSeek'in yolculuğu, Kasım 2023'te kodlama görevleri için tasarlanmış açık kaynaklı bir model olan DeepSeek Coder'ın piyasaya sürülmesiyle başladı. Bunu, diğer büyük dil modelleriyle rekabet etmeyi amaçlayan DeepSeek LLM izledi. Mayıs 2024'te piyasaya sürülen DeepSeek-V2, güçlü performansı ve düşük maliyeti nedeniyle ilgi gördü. ByteDance, Tencent, Baidu ve Alibaba gibi diğer büyük Çinli teknoloji devlerini de yapay zeka modellerinin fiyatlarını düşürmeye zorladı.
2. DeepSeek modellerinin kapasitesi ne durumda?
DeepSeek-V2, daha sonra 236 milyar parametreye sahip daha gelişmiş bir model olan DeepSeek-Coder-V2 ile değiştirildi. Karmaşık kodlama istemleri için tasarlanan model 128.000 token'a varan yüksek bir bağlam penceresine sahip. 128.000 token'lık bağlam penceresi, modelin aynı anda işleyebileceği maksimum giriş metni uzunluğunu ifade ediyor.
Daha geniş bir bağlam penceresi, bir modelin daha uzun metinleri anlamasına, özetlemesine veya analiz etmesine olanak tanır. Bu, örneğin uzun belgeler, kitaplar veya karmaşık diyaloglar üzerinde çalışırken büyük bir avantaj sağlar.
Token ise metindeki bir birim anlamına geliyor. Bu birim genellikle kelime, kelime parçacığı (örneğin "yapay" ve "zeka" gibi) veya hatta bir karakter olabilir. Örneğin: "Yapay zeka harika!" cümlesi dört tokendan oluşabilir: "Yapay," "zeka," "harika," "!".
Şirketin en son modelleri DeepSeek-V3 ve DeepSeek-R1 ise konumunu daha da sağlamlaştırdı. 671.000 parametreli bir model olan DeepSeek-V3, akranlarından önemli ölçüde daha az kaynak gerektirirken diğer markalarla çeşitli kıyaslama testlerinde etkileyici bir performans sergiliyor. Ocak 2025'te piyasaya sürülen DeepSeek-R1 de akıl yürütme, kodlama ve matematik gibi karmaşık görevlere odaklanıyor. Bu alandaki yetenekleriyle ChatGPT'nin son modellerinden biri olan o1'e meydan okuyor.
DeepSeek kısa sürede önemli bir başarı yakalamış olsa da Forbes, şirketin öncelikli olarak araştırmaya odaklandığını ve yakın gelecekte ticarileştirmeye yönelik detaylı planları olmadığını yazdı.
3. Son kullanıcı için ücretsiz mi?
DeepSeek'in ilgi çekmeyi başarmasının temel nedenlerinden biri son kullanıcılar için ücretsiz olması. Hatta bu, kullanıcılara ücretsiz olarak sunulan bu denli gelişmiş ilk yapay zeka sistemi. OpenAI o1 ve Claude Sonnet gibi diğer güçlü sistemler ücretli abonelik gerektiriyor. Hatta bazı aboneliklerde bile kullanıcılara kota konuyor.
Google Gemini da ücretsiz olarak sunuluyor, ancak ücretsiz sürümleri eski modellerle sınırlı. DeepSeek'in şimdilik herhangi bir sınırlaması yok.
4. Nasıl kullanılır?
Kullanıcılar, son kullanıcı için geliştirilen DeepSeek sohbet arayüzüne "chat.deepseek" adresinden erişebiliyor. Buradaki chat ekranına komutları girmek ve internette arama yapmak için "search" butonuna basmak yeterli oluyor.
Herhangi bir konuyla ilgili daha ayrıntılı bilgiler elde etmek içinse "deep think" seçeneği var. Bu seçenek kullanıcıların istemlerine daha detaylı yanıtlar sunarken, arama motorunda da daha fazla sitede arama yapabiliyor. Ancak sadece belirli kaynaklara güvenerek arama yapan ChatGPT'nin aksine bu özellik, bazı ufak sitelerdeki yanlış bilgileri de kullanıcıların karşısına çıkarabilir. Bu yüzden kullanıcıların bu sohbet botunda da elde ettikleri bilgileri teyit etmesi gerek.
5. Güvenli mi?
DeepSeek kullanımıyla ilgili bir önemli soru başlığı da güvenli olup olmadığı. DeepSeek de tıpkı diğer hizmetlerde olduğu gibi kullanıcının verilerini istiyor ve bunlar muhtemelen Çin'deki sunucularda saklanıyor.
Kullanıcıların herhangi bir LLM'de olduğu gibi burada da sohbet botuna hassas verilerini vermemesi önemli.
DeepSeek de açık kaynaklı olduğu için bağımsız araştırmacılar modelin kodlarına bakıp güvenli olup olmadığını belirlemeye yönelik çalışmalar yapabilir. Güvenlik konusundaki endişelere yönelik daha ayrıntılı bilgilerin ilerleyen günlerde çıkması bekleniyor.
6. Açık kaynak kodlu olması ne anlama geliyor?
DeepSeek-R1 dahil olmak üzere modeller, büyük ölçüde açık kaynaklı olarak yayınlandı. Yani isteyen herkes aracın kodlarına erişebiliyor ve bu kodları kullanarak LLM'i kişiselleştirebiliyor. Eğitim verileri ise patentli.
Öte yandan OpenAI, o1 modelini kapalı olarak piyasaya sürmüştü ve halihazırda sadece kullanıcılara bile aylık 20 ila 200 dolarlık paketlerle satıyor.
7. ABD kısıtlamalarına rağmen nasıl böyle bir model üretti?
Şirket teknolojik yeteneklerini ve pazar erişimini geliştirmek için stratejik ortaklıklar da kurdu. Dikkat çeken iş birliklerinden biri, ABD'li çip firması AMD ile yapıldı. Forbes'a göre DeepSeek, özellikle DeepSeek-V3 için model geliştirmenin temel aşamalarında AMD Instinct GPU'larını (grafik işlem birimleri) ve ROCM yazılımını kullandı.
MIT Technology Review dergisi ise ABD'den Çin'e yönelik çip yaptırımlarının gelmesinden çok önce Liang'ın, şu anda Çin'e ihracatı yasaklanmış bir tür olan Nvidia A100 çiplerinden önemli miktarda stok satın aldığını yazdı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000'den fazla birim olduğunu tahmin ediyor. Bazıları bu rakamın 50.000 olduğunu söylüyor. Bu stokun yapay zeka eğitimi açısından önemini fark eden Liang, DeepSeek'i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başladı.
Ancak burada önemli olan bir nokta da Liang'ın az sayıda kaynakla yetkin modeller inşa etmenin yolunu bulmuş olması. ABD'nin çip ihracat kısıtlamaları, DeepSeek geliştiricilerini hesaplama gücü eksikliklerini telafi etmek için daha akıllı, daha enerji verimli algoritmalar oluşturmaya zorladı. ChatGPT'nin eğitim verilerini işlemek için 10.000 Nvidia GPU'ya ihtiyaç duyduğu düşünülüyor. DeepSeek mühendisleri sadece 2.000 GPU ile benzer sonuçlara ulaştıklarını söylüyor.
8. DeepSeek'in yenilikçi teknikleri neler?
DeepSeek'in başarısı birkaç önemli yeniliğe bağlanabilir.
Pekiştirmeli öğrenme: Teknolojist Janakiram MSV'ye göre, büyük ölçüde gözetimli ince ayara dayanan geleneksel yöntemlerin aksine, DeepSeek saf RL kullanıyor. Gözetimli ince ayar yönteminde ince ayar yapılmadan önce, model genellikle geniş bir veri kümesi üzerinde eğitilmiştir. Saf RL kullanmak ise bir yapay zeka sisteminin yalnızca pekiştirmeli öğrenme yöntemlerini kullanarak eğitilmesi anlamına gelir. Bu, modelin insan tarafından ayıklanmış veriler veya gözetimli öğrenme yöntemleri olmaksızın, yalnızca ödül ve ceza mekanizmaları üzerinden öğrenmesi demek. Bu yaklaşım, DeepSeek-R1'in muhakeme yeteneklerini geliştirmede özellikle etkili.
MoE mimarisi: Açılımıyla Mixture of Experts, yani Uzmanlar Karışımı mimarisi yapay zeka modellerinde farklı uzmanlardan oluşan yenilikçi bir sistem. Burada kullanıcının girdisi için en uygun birkaç uzman seçiliyor ve sadece onlar çalışıyor. Bu sayede hem büyük modellerin performansı artırılıyor hem de işlem maliyeti düşürülüyor. Bunu her biri farklı bir alanda uzmanlaşmış bir uzman ekibi olarak düşünmek mümkün. Bir görevle karşı karşıya kaldığında, yalnızca ilgili uzmanlar çağrılıyor ve kaynakların ve uzmanlığın verimli kullanımı sağlanıyor.
Multi-Head Latent Attention: Bu yöntem, bir modelin farklı dikkat başlıklarını kullanarak gizli temsiller ile girişler arasındaki ilişkileri öğrenmesini sağlıyor. Bilgiyi daha esnek, güçlü ve ayrıntılı şekilde işlemek için kullanılıyor. Bunu, girdi verilerinin farklı bölümlerine odaklanabilen ve modelin bilgiyi daha kapsamlı şekilde anlamasını sağlayan birden fazla "dikkatli kafa" olarak düşünmek mümkün.
Damıtma: DeepSeek, daha büyük modellerin bilgi ve yeteneklerini daha küçük, daha verimli olanlara aktarmak için damıtma tekniklerini kullanıyor. Bu, bir öğretmenin bilgisini bir öğrenciye aktarmasına benziyor. Öğrencinin benzer yeterlilikteki görevleri ancak daha az deneyim veya kaynakla gerçekleştirmesine olanak tanıyor. DeepSeek'in damıtma süreci, daha küçük modellerin daha büyük muadillerinin gelişmiş akıl yürütme ve dil işleme yeteneklerini devralmasını sağlayarak onları daha çok yönlü ve erişilebilir hale getiriyor.
Kısacası DeepSeek, RL ve MoE gibi verimli mimarileri kullanarak eğitim için gereken hesaplama kaynaklarını önemli ölçüde azaltıyor ve daha düşük maliyetlerle tamamlayabiliyor. Örneğin DeepSeek-V3, Meta'daki modellerin maliyetinin çok daha az bir kısmıyla eğitildi.
OpenAI ve Google gibi önemli oyuncuların yapay zeka modellerine eğitim verileri sağlayan ScaleAI firmasının CEO'su Alexandr Wang, perşembe günü İsviçre'nin Davos kentinde düzenlenen Dünya Ekonomik Forumu'nda (WEF) yaptığı konuşmada DeepSeek'in ürününü "dünyayı sarsacak bir model"diye nitelendirdi.
Kaynak: Bursada Bugün
Galatasaray ve Fenerbahçe'nin Avrupa Ligi maçları hangi kanalda?
BUDO'dan yeni sefer iptali!
Soğuk havalarda lastik basıncının düşmemesi bunlara dikkat!
Bursa'da jandarmadan uyuşturucu operasyonu!
Bakan Yerlikaya açıkladı: 6 cansız bedene ulaşıldı
Galatasaray'dan yabancı hakem açıklaması!
Google'dan Gmail'e yeni özellik
Lütfü Savaş'ın açtığı CHP Kurultayı'nın iptali davasında karar!
En yüksek asgari ücreti veren ülkeler belli oldu!
Yenidoğan çetesinin cezaları belli oldu!
Sıcaklık 4-5 derece daha düşecek...
Bursaspor Başkanı Enes Çelik'ten taraftarlara teşekkür mesajı
TÜSİAD Başkanı Orhan Turhan hakkında soruşturma açıldı!
Bursa'da çay bahçesinde ayin!
Vatikan’dan İznik’e Üst Düzey Ziyaretler