Mistral, syarikat permulaan kecerdasan buatan (AI) Perancis, telah mengukuhkan kedudukannya sebagai pengganggu utama dalam industri AI. Dan ia mempunyai satu model untuk berterima kasih untuk ini – Pixtral Large. Inilah semua yang anda perlu tahu mengenainya.
Apakah Pixtral?

Pixtral ialah model bahasa berbilang modal yang canggih. Setakat ini, keluarga Pixtral terdiri daripada dua model – Pixtral 12B dan Pixtral Large. Memandangkan Pixtral Large boleh dikatakan merupakan versi yang lebih berkuasa daripada pendahulunya – Pixtral 12B – panduan ini akan tertumpu terutamanya pada keupayaannya.
Model Pixtral 124B-parameter ini terdiri daripada dua bahagian – penyahkod teks dan penyahkod penglihatan. Yang pertama memberi tumpuan kepada pemahaman bahasa bertulis. Yang terakhir membantu model memahami imej. Gabungan ini memberikan Pixtral Large keupayaan unik untuk berfungsi dengan kedua-dua teks dan gambar pada masa yang sama, yang menjadikannya gelaran yang menyanjung model “multi-modal”.
Pixtral Large boleh mengendalikan sejumlah besar maklumat – sehingga 30 imej beresolusi tinggi atau setara dengan buku 300 halaman dalam sekali gus. Ini menjadikan kuasanya serupa dengan model AI terkemuka yang lain, seperti model dari OpenAI.
Apakah Ciri Utama Pixtral Large?
Beberapa ciri utama model Pixtral ini jelas daripada penerangannya. Namun, mari kita pecahkan ciri ini dan gali sedikit lebih mendalam.
Tetingkap Konteks Luas untuk Tugasan Kompleks
Tetingkap konteks merujuk kepada jumlah teks model boleh “ingat” atau proses sekali gus. Dalam hal ini, Pixtral Large kekal dengan namanya. Ia mempunyai tetingkap konteks yang besar sebanyak 128,000 token. Ini bermakna ia boleh memproses sebahagian besar data tanpa membahagikannya kepada bahagian yang lebih kecil.
Pemprosesan Penglihatan Fleksibel Merentas Resolusi
Seperti yang dinyatakan, Pixtral Large dilengkapi dengan pengekod penglihatan. Nah, pengekod itu boleh memproses imej pada resolusi yang berbeza-beza. Fleksibiliti ini membolehkan model menyesuaikan diri dengan pelbagai jenis tugas. Pemprosesan imej pantas atau analisis ketepatan tinggi… semuanya sama dengan model Pixtral ini.
Prestasi Terpiawai Dengan MM-MT-Bench
Mistral membangunkan penanda aras sumber terbuka yang dipanggil MM-MT-Bench. Matlamat alat ini adalah untuk menyediakan piawaian penilaian yang konsisten untuk model berbilang modal seperti Pixtral Large. Hasilnya, penyelidik boleh menilai sejauh mana prestasi Pixtral Large berbanding model lain.
Penaakulan Pelbagai Modal Lanjutan
Pixtral Large telah dilatih mengenai set data yang menggabungkan kedua-dua teks dan imej. Terlatih – dan diperhalusi. Ini membolehkannya mengikuti arahan kompleks yang melibatkan kedua-dua jenis data secara serentak. Contohnya, chatbot sokongan pelanggan boleh menganalisis kedua-dua imej produk yang rosak dan mesej pelanggan yang menerangkan isu itu pada masa yang sama. Pixtral Large akan membolehkannya memahami masalah dengan teliti dan mengekalkan konteks merentas berbilang pertukaran. Itu belum lagi juga menyediakan penyelesaian yang tepat pada akhirnya.
Kebolehskalaan Merentas Aplikasi
Dengan Pixtral Large, anda boleh menangani hampir semua tugas. Anda boleh melakukan sesuatu yang kecil dan khusus seperti menganalisis kontrak. Atau, Pixtral Large boleh membantu anda membina enjin carian berbilang modal untuk e-dagang. Ia sangat serba boleh. Fleksibiliti ini menjadikan model Pixtral ini ideal untuk pelbagai industri dan kes penggunaan. Contoh dunia sebenar yang biasa termasuk:
- Analisis dan pengurusan dokumen dalam industri perundangan dan kewangan
- Visualisasi dan analisis data dalam penyelidikan dan sains data
- Sokongan pelanggan dalam e-dagang dan teknologi
Bagaimanakah Pixtral Large Berbanding dengan Pesaing Multi-Modal Utama?
Mistral mungkin pemain yang agak baru dalam ruang AI. Walau bagaimanapun, ia sudah boleh bersaing dengan gergasi AI. Bukan itu sahaja, malah ia boleh mengatasi prestasi mereka.
Pixtral Large meneruskan aliran ini. Model Pixtral ini telah cemerlang dalam ujian penanda aras terhadap model berbilang modal teratas. Berikut adalah beberapa sorotan.

- Mengungguli Claude-3.5, Sonnet dan Llama-3.2 dalam penaakulan matematik dengan data visual
- Melepasi GPT-4o dan Gemini-1.5 Pro dalam memahami dan menaakul dengan carta, jadual dan dokumen yang diimbas
- Mengungguli Claude-3.5, Sonnet, Gemini-1.5 Pro dan GPT-4o dalam aplikasi pelbagai mod dunia sebenar dengan teks dan imej