Berita

China Deepseek meluncurkan model AI generasi berikutnya. Inilah yang membuatnya berbeda

Anna Barclay | Getty Images News | Gambar getty

Model eksperimental terbaru Startup China Deepseek berjanji untuk meningkatkan efisiensi dan meningkatkan kemampuan AI untuk menangani banyak informasi di sebagian kecil dari biaya, tetapi pertanyaan tetap tentang seberapa efektif dan aman arsitekturnya.

Deepseek mengirim Silicon Valley ke dalam kegilaan ketika meluncurkan model pertama R1 entah dari mana tahun lalu, menunjukkan bahwa mungkin untuk melatih model bahasa besar (LLM) dengan cepat, pada chip yang kurang kuat, menggunakan sumber daya yang lebih sedikit.

Perusahaan ini merilis Deepseek-V3.2-Exp pada hari Senin, versi eksperimental dari model saat ini Deepseek-V3.1-terminus, yang membangun lebih jauh dalam misinya untuk meningkatkan efisiensi dalam sistem AI, Menurut sebuah posting di forum AI memeluk wajah.

“Deepseek v3.2 melanjutkan fokus pada efisiensi, pengurangan biaya, dan berbagi sumber terbuka,” Adina Yakefu, pemimpin komunitas Tiongkok di Hugging Face, mengatakan kepada CNBC. “Peningkatan besar adalah fitur baru yang disebut DSA (Deepseek Jarang Perhatian), yang membuat AI lebih baik dalam menangani dokumen dan percakapan yang panjang. Ini juga memotong biaya menjalankan AI menjadi dua dibandingkan dengan versi sebelumnya.”

“Ini penting karena harus membuat model lebih cepat dan lebih hemat biaya untuk digunakan tanpa penurunan kinerja yang nyata,” kata Nick Patience, Wakil Presiden dan Praktik Pimpinan untuk AI di Futurum Group. “Ini membuat AI yang kuat lebih mudah diakses oleh pengembang, peneliti, dan perusahaan kecil, yang berpotensi mengarah ke gelombang aplikasi baru dan inovatif.”

Pro dan kontra perhatian yang jarang

Model AI membuat keputusan berdasarkan data pelatihan dan informasi baru, seperti prompt. Katakanlah sebuah maskapai ingin menemukan rute terbaik dari A ke B, sementara ada banyak pilihan, tidak semua layak. Dengan menyaring rute yang kurang layak, Anda secara dramatis mengurangi jumlah waktu, bahan bakar dan, pada akhirnya, uang, diperlukan untuk melakukan perjalanan. Itu benar -benar perhatian yang jarang, itu hanya faktor -faktor dalam data yang menurutnya penting mengingat tugas yang ada, berbeda dengan model lain sejauh ini yang telah menghitung semua data dalam model.

“Jadi pada dasarnya, Anda memotong hal -hal yang menurut Anda tidak penting,” kata Ekaterina Almasque, salah satu pendiri dan mitra pelaksana Dana Modal Ventura baru Blankpage Capital.

Perhatian yang jarang adalah anugerah untuk efisiensi dan kemampuan untuk skala AI yang diberikan lebih sedikit sumber daya, tetapi satu kekhawatiran adalah bahwa hal itu dapat menyebabkan penurunan bagaimana model yang dapat diandalkan karena kurangnya pengawasan dalam bagaimana dan mengapa hal itu mengabaikan informasi.

“Kenyataannya adalah, mereka [sparse attention models] telah kehilangan banyak nuansa, “kata Almasque, yang merupakan pendukung awal DataIKu dan Darktrace, dan seorang investor di Graphcore.” Dan kemudian pertanyaan sebenarnya adalah, apakah mereka memiliki mekanisme yang tepat untuk mengecualikan data yang tidak penting, atau apakah ada mekanisme yang tidak termasuk data yang sangat penting, dan kemudian hasilnya akan jauh lebih relevan? “

Ini bisa sangat bermasalah untuk keselamatan dan inklusivitas AI, investor mencatat, menambahkan bahwa itu mungkin bukan model AI yang optimal atau yang paling aman “untuk digunakan dibandingkan dengan pesaing atau arsitektur tradisional.

Deepseek, bagaimanapun, mengatakan model eksperimental bekerja setara dengan v3.1-terminusnya. Meskipun spekulasi pembentukan gelembungAI tetap menjadi pusat kompetisi geopolitik dengan AS dan Cina bersaing untuk tempat kemenangan. Yakefu mencatat bahwa model Deepseek bekerja “langsung dari kotak” dengan chip AI buatan Cina, seperti Ascend dan Cambricon, yang berarti mereka dapat berjalan secara lokal pada perangkat keras domestik tanpa pengaturan tambahan.

Deepseek juga berbagi kode pemrograman aktual dan alat yang diperlukan untuk menggunakan model eksperimental, katanya. “Ini berarti orang lain dapat belajar darinya dan membangun perbaikan mereka sendiri.”

Tetapi bagi Almasque, sifatnya ini berarti teknologi mungkin tidak dapat dipertahankan. “Pendekatannya tidak super baru,” katanya, mencatat industri telah “berbicara tentang model yang jarang sejak 2015” dan bahwa Deepseek tidak dapat mematenkan teknologinya karena menjadi open source. Keunggulan kompetitif Deepseek, oleh karena itu, harus terletak pada bagaimana hal itu menentukan informasi apa yang akan dimasukkan, tambahnya.

Perusahaan itu sendiri mengakui v3.2-exp adalah “langkah perantara menuju arsitektur generasi berikutnya,” sesuai pos wajah pelukan.

Seperti yang diperlihatkan oleh Patience, “Ini adalah prop nilai Deepseek di seluruh: Efisiensi menjadi sama pentingnya dengan kekuatan mentah.”

“Deepseek memainkan permainan panjang untuk membuat komunitas berinvestasi dalam kemajuan mereka,” tambah Yakefu. “Orang -orang akan selalu mencari apa yang murah, andal, dan efektif.”

Source

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button