อาลีบาบา คลาวด์ ธุรกิจด้านเทคโนโลยีดิจิทัลและหน่วยงานหลักด้านอินเทลลิเจนซ์ของอาลีบาบา กรุ๊ป เปิดให้ใช้งานโมเดล AI สำหรับการสร้างวิดีโอโดยไม่มีค่าใช้จ่าย นับเป็นหนึ่งในความมุ่งมั่นครั้งล่าสุด ของบริษัทฯ ในการสนับสนุนชุมชนโอเพ่นซอร์ส
โมเดลโอเพ่นซอร์สมีสี่โมเดลที่อยู่ในกลุ่ม Wan2.1 series ประกอบด้วยเวอร์ชันขนาด 14-พันล้านพารามิเตอร์ และ 1.3-พันล้านพารามิเตอร์ ทั้งนี้ Wan2.1 series เป็นรุ่นล่าสุดของ Tongyi Wanxiang (Wan) ซึ่งเป็นโมเดลวิดีโอพื้นฐานของบริษัทฯ
โมเดลทั้ง 4 ประกอบด้วย T2V-14B, T2V-1.3B, I2V-14B-720P และ I2V-14B-480P ออกแบบมาเพื่อสร้างภาพและวิดีโอคุณภาพสูงจากการอินพุทข้อความและรูปภาพ เปิดให้ดาวน์โหลดได้บน Model Scope ซึ่งเป็นชุมชนด้านโมเดล AI ของอาลีบาบา คลาวด์ และบนแพลตฟอร์ม Hugging Face ซึ่งเป็นแพลตฟอร์มการทำงานด้าน AI ที่เปิดให้นักวิชาการ นักวิจัย และสถาบันเชิงพาณิชย์ทั่วโลกทำงานร่วมกัน ทั้งนี้ภายในสัปดาห์แรกที่เปิดตัว โมเดล Wan2.1 ทั้งสี่รุ่น มียอดดาวน์โหลดรวมบน ModelScope และ Hugging Face ทะลุเกิน 1 ล้านครั้งแล้ว
Wan2.1 เป็นโมเดลสร้างวิดีโอรุ่นแรกที่รองรับการปรับเปลี่ยนข้อความทั้งภาษาจีนและภาษาอังกฤษที่เปิดตัวเมื่อต้นปี 2568 มีความสามารถเป็นเลิศในการสร้างภาพที่สมจริง โดยสามารถจัดการการเคลื่อนไหวที่ซับซ้อนได้อย่างแม่นยำ เพิ่มคุณภาพพิกเซล ดำเนินการตามหลักการทางกายภาพ และปรับความแม่นยำของการทำตามคำสั่งให้เหมาะสม ความแม่นยำในการทำตามคำสั่งต่าง ๆ ทำให้ Wan2.1 ก้าวขึ้นไปอยู่ในลำดับต้น ๆ ของ VBench leaderboard ซึ่งเป็นชุดเกณฑ์มาตรฐานด้านโมเดลการสร้างวิดีโอที่ครอบคลุม
คะแนนรวมของ Wan2.1 บน VBench อยู่ที่ 86.22% เป็นผู้นำในมิติสำคัญต่าง ๆ เช่น ระดับความเคลื่อนไหว ความสัมพันธ์เชิงพื้นที่ ความถูกต้องของสี และการจัดความสัมพันธ์ของอ็อบเจกต์หลายรายการ
การเทรนโมเดลพื้นฐานที่ใช้สร้างวิดีโอต่าง ๆ ต้องใช้ทรัพยากรการประมวลผลจำนวนมหาศาล และต้องมีข้อมูลที่จะใช้เทรนที่มีคุณภาพสูงจำนวนมาก การเปิดให้เข้าใช้งานได้โดยไม่มีค่าใช้จ่ายช่วยลดอุปสรรค และทำให้ธุรกิจต่าง ๆ ใช้ประโยชน์จาก AI ได้มากขึ้น สามารถสร้างภาพที่มีคุณภาพสูงและปรับให้ตรงกับความต้องการของตนได้ด้วยค่าใช้จ่ายที่เหมาะสม
Text prompt: 一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。English translation: “In a wide-angle, frontal shot, a man dives from the platform in red swim trunks, arms out and legs together. As the camera lowers, he leaps into the water, creating splashes, with the blue pool in the background.”
โมเดล T2V-14B เหมาะกับการสร้างภาพคุณภาพสูงที่มีไดนามิกของการเคลื่อนไหวสูง ในขณะที่โมเดล T2V-1.3B มีความสมดุลระหว่างคุณภาพในการสร้างภาพและพลังการประมวลผล จึงเหมาะสำหรับนักพัฒนาในวงกว้างที่ทำการพัฒนาต่อยอดจากของเดิม (secondary development) และการวิจัยทางวิชาการ เช่น โมเดล T2V-1.3B ช่วยให้ผู้ใช้งานใช้แล็ปท็อปส่วนตัวสร้างวิดีโอความยาว 5 วินาที ด้วยความละเอียดที่ 489p ได้ในเวลาเพียงประมาณ 4 นาที
นอกจากรองรับการแปลงข้อความเป็นวิดีโอแล้ว โมเดล I2V-14B-720P และ I2V-14B-480P ยังสามารถแปลงภาพเป็นวิดีโอได้ด้วย โดยผู้ใช้เพียงอินพุตภาพหนึ่งภาพพร้อมคำอธิบายเป็นข้อความสั้น ๆ เพื่อสร้างเนื้อหาวิดีโอเคลื่อนไหวได้ แพลตฟอร์มนี้รองรับการอินพุตภาพขนาดปกติได้ทุกมิติ
อาลีบาบา คลาวด์ เป็นหนึ่งในบริษัทด้านเทคโนโลยีรายใหญ่ของโลกรายแรก ๆ ที่เปิดโอเพ่นซอร์สโมเดล AI ขนาดใหญ่ที่บริษัทฯ พัฒนาขึ้นเอง โดยเปิดโอเพ่นโมเดล Qwen (Qwen-7B) เป็นครั้งแรกในเดือนสิงหาคม 2566 ทั้งนี้ Hugging Face Open LLM Leaderboards จัดให้โมเดลแบบเปิดของ Qwen อยู่ในอันดับสูงในเกณฑ์มาตรฐานการวัดประสิทธิภาพด้านต่าง ๆ มาโดยตลอด ด้วยประสิทธิภาพที่เทียบเท่ากับโมเดล AI ชั้นนำของโลก
ปัจจุบัน มีการพัฒนาโมเดลอนุพันธ์มากกว่า 100,000 รายการจากโมเดลในตระกูล Qwen บน Hugging Face ทำให้ Qwen เป็นหนึ่งในตระกูลโมเดล AI ที่ใหญ่ที่สุดในโลก