อาลีบาบา คลาวด์ (Alibaba Cloud) ธุรกิจด้านเทคโนโลยีดิจิทัล และหน่วยงานหลักด้านอินเทลลิเจนซ์ของอาลีบาบา กรุ๊ป ประกาศว่าได้ผสานการทำงานของ Tongyi Qianwen (ทงอี้ เชียนเวิ่น) ซึ่งเป็นโมเดลด้านภาษาขนาดใหญ่ (large language model: LLM) ของบริษัท เข้ากับ Tingwu (ทิงวู้) ซึ่งเป็นผู้ช่วยอัจริยะขับเคลื่อนด้วย AI ที่สามารถแปลงเสียง และวิดีโอเป็นข้อความได้แบบเรียลไทม์ซึ่งเป็นโซลูชันของอาลีบาบา คลาวด์เช่นกัน โดยมีจุดประสงค์เพื่อเพิ่มประสิทธิภาพให้กับการใช้งานส่วนบุคคลและในการทำงาน
โมเดลด้านภาษาขนาดใหญ่ (LLM) ที่เพิ่งเปิดตัวไปเมื่อเร็ว ๆ นี้ ช่วยให้ Tingwu เข้าใจและวิเคราะห์มัลติมีเดียคอนเทนต์ได้ด้วยความแม่นยำสูง และมีประสิทธิภาพสูง เช่น การสรุปคอนเทนต์จากไฟล์วิดีโอและไฟล์เสียงให้เป็นข้อความ การจับประเด็นสำคัญของผู้พูดแต่ละราย และการสร้างไทม์ไลน์ของไฟล์มัลติมีเดียด้วยการสรุปแต่ละส่วน
Tingwu ที่ขับเคลื่อนโดย LLM รู้จักกันในชื่อ “Tongyi Tingwu” (ทงอี้ ทิงวู้) เปิดให้ทดสอบสาธารณะแล้ว Tongyi Tingwu ยังผสานเข้ากับ DingTalk ซึ่งเป็นดิจิทัลแพลตฟอร์มสำหรับการทำงานร่วมกัน และเป็นแพลตฟอร์มสำหรับพัฒนาแอปพลิเคชันของอาลีบาบา เพื่อรองรับความต้องการใช้ AI นอกจากนี้ Tongyi Tingwu ยังใช้ได้กับแพลตฟอร์มมัลติมีเดียหลากหลายประเภท เพื่อเพิ่มประสิทธิภาพให้กับการทำงาน และตอบสนองต่อความต้องการแชร์ความรู้ต่าง ๆ ให้ได้เร็วและง่ายขึ้นซึ่งกำลังเป็นที่ต้องการเพิ่มขึ้นอย่างมาก ไม่ว่าจะเป็นการเรียนออนไลน์ การอบรม การสัมภาษณ์ การสตรีมสด พอดคาสต์ และวิดีโอสั้น
Jingren Zhou (จิงเหริน โจว) CTO of Alibaba Cloud Intelligence กล่าวว่า “เราอยู่ในช่วงเวลาที่มีการเสพคอนเทนต์ที่เป็นวิดีโอและเสียงในรูปแบบต่าง ๆ ที่เพิ่มจำนวนมากขึ้นทุกวัน Tongyi Tingwu ตั้งเป้าใช้โมเดลด้านภาษาขนาดใหญ่ ช่วยให้สามารถเข้าใจเนื้อหามัลติมีเดียได้เร็วขึ้นและดีขึ้น และสามารถแชร์ต่อได้ง่ายขึ้น เพื่อตอบสนองความต้องการนี้ เราทยอยนำโมเดล Tongyi Qianwen ไปผสานรวมให้ทำงานร่วมกับผลิตภัณฑ์และบริการต่าง ๆ ของเรา เราหวังว่าผู้ใช้งานจะสามารถใช้ประโยชน์จากนวัตกรรมด้าน AI ที่มีพลังดึงดูดที่น่าสนใจเหล่านี้กับการทำงาน การเรียน การละเล่น และการสื่อสารระหว่างกัน”
การใช้ประโยชน์จากโมเดลด้านเสียงและวิดีโอที่เป็นกรรมสิทธิ์และพัฒนาโดย DAMO ซึ่งเป็นสถาบันด้านการวิจัยของอาลีบาบา รวมถึง Paraformer โมเดลการรู้จำเสียงพูดที่พัฒนาตนเอง และโมเดลในการตรวจสอบผู้พูด CAM++ ร่วมกับ Tongyi Qianwen ช่วยให้ Tingwu ที่เปิดตัวใหม่นี้ สามารถถอดเสียงไฟล์วิดีโอและไฟล์เสียงได้ด้วยความแม่นยำสูง และพรั่งพร้อมด้วยฟีเจอร์ที่ใช้ AI จำนวนมาก ฟีเจอร์ AI ที่ Tongyi Tingwu นำเสนอเพิ่มเติมซึ่งจะพร้อมใช้งานปลายปีนี้ ประกอบด้วย การรวบรวมข้อความตอบกลับโดยอัตโนมัติ เพื่อจัดการกับคำถามของผู้ใช้ไฟล์เสียง/วิดีโอ, การสร้างบทสรุปตามสไลด์ PowerPoint ที่ดึงมาจากวิดีโอ และการแปลมัลติมีเดียคอนเทนต์ระหว่างภาษาอังกฤษและภาษาจีนแบบเรียลไทม์ผ่าน Tingwu ที่เป็นปลั๊กอินของ Chrome
ปัจจุบันได้เปิดให้สามารถเข้าทดลองใช้ผู้ช่วยที่ขับเคลื่อนด้วย AI ที่อัปเกรดแล้วทางออนไลน์ (tingwu.aliyun.com) ผู้ใช้จะได้สัมผัสประสบการณ์ความสามารถต่าง ๆ ของโมเดลนี้ผ่าน Alibaba Cloud account และใช้บริการถอดเสียงซึ่งเป็นส่วนหนึ่งของการทดลองแบบเปิด (open trial) โดยไม่มีค่าใช้จ่าย
Alibaba Cloud เปิดตัว Tongyi Qianwen เมื่อวันที่ 11 เมษายน และมีแผนจะผสานรวมเข้ากับธุรกิจต่าง ๆ ของอาลีบาบา เพื่อเพิ่มประสบการณ์ที่ดีให้กับลูกค้าในเร็ว ๆ นี้ ทั้งนี้ลูกค้าและนักพัฒนาของบริษัทต่าง ๆ จะสามารถเข้าใช้โมเดลนี้ในการสร้างฟีเจอร์ AI ตามความต้องการได้อย่างคุ้มค่า
Alibaba Cloud ยังได้เปิดตัว “Tongyi Qianwen Partnership Program” โดยมีเป้าหมายเพื่อร่วมสร้างโมเดลด้านภาษาขนาดใหญ่ที่ปรับให้เหมาะกับอุตสาหกรรมต่าง ๆ ร่วมกับพันธมิตรในภาคส่วนต่าง ๆ เช่น ปิโตรเคมี ไฟฟ้า การคมนาคมขนส่ง ธุรกิจบริการ บริการสำหรับองค์กร บริการโทรคมนาคม และภาคการเงิน