Mistral Rilis Voxtral, model audio AI open source pertama

Ketika sistem AI menjadi lebih mampu, ucapan dengan cepat menjadi cara default kami berkomunikasi dengan mesin. Startup AI Prancis Mistral telah melompat ke perlombaan audio dengan model terbuka pertama, yang bertujuan untuk menantang dominasi sistem perusahaan berdinding dengan alternatif bobot terbuka.
Pada hari Selasa, Mistral mengumumkan rilis Voxtral, keluarga model audio pertamanya yang ditujukan untuk bisnis.
Perusahaan ini melempar Voxtral sebagai model terbuka pertama yang mampu menggunakan “kecerdasan pidato yang benar -benar dapat digunakan dalam produksi.”
Dengan kata lain, pengembang tidak lagi harus memilih antara sistem yang murah dan terbuka yang meraba -raba transkripsi dan tidak benar -benar memahami apa yang dikatakan, dan yang berfungsi dengan baik, tetapi ditutup, meninggalkan pengembang dengan tagihan yang lebih tinggi dan lebih sedikit kontrol atas penyebaran.
Untuk bisnis, itu berarti Voxtral menawarkan alternatif yang terjangkau yang diklaim perusahaan adalah “kurang dari setengah harga” dari solusi yang sebanding.
Mistral mengatakan voxtral dapat menyalin hingga 30 menit audio. Karena tulang punggung LLM -nya, Mistral Small 3.1dapat memahami hingga 40 menit, memungkinkan pengguna untuk mengajukan pertanyaan tentang konten audio, menghasilkan ringkasan, atau mengubah perintah suara menjadi tindakan waktu-nyata seperti memanggil API atau menjalankan fungsi. Voxtral juga multibahasa, dengan kemampuan untuk menyalin dan memahami bahasa termasuk bahasa Inggris, Spanyol, Prancis, Portugis, Hindi, Jerman, Belanda, dan Italia.
Perusahaan ini menawarkan dua varian “model pemahaman wicara”. Yang pertama, voxtral kecil, memiliki parameter 24B untuk penyebaran skala produksi, dan kompetitif dengan ElevenLabs Scribe, GPT-4O-Mini, dan Gemini 2.5 Flash.
Yang kedua, voxtral mini, memiliki 3 miliar parameter untuk penyebaran lokal dan tepi. Ada juga versi API cepat yang sangat murah, dilucuti, dan cepat dari model 3B yang disebut voxtral mini transcribe yang dioptimalkan untuk kasus penggunaan transkripsi saja dan menjanjikan untuk mengungguli openai Whisper dengan harga kurang dari setengah harga.
Pengguna dapat mencoba voxtral secara gratis dengan mengunduh API pada memeluk wajah atau menguji model di chatbot le chat Mistral. Mengintegrasikan API ke dalam aplikasi mulai dari $ 0,001 per menit, menurut perusahaan.
Peluncuran datang sebulan setelahnya Mistral mengumumkan Magistralkeluarga pertama model penalaran yang bekerja melalui masalah langkah demi langkah untuk peningkatan keandalan.
Mistral, salah satu perusahaan AI teratas di Eropa, terkenal karena advokasi yang mendorong model AI open source. Awal bulan ini, TechCrunch melaporkan bahwa perusahaan sedang dalam pembicaraan untuk dibesarkan $ 1 miliar dalam ekuitas dari investor seperti dana MGX Abu Dhabi.