<匯港通訊> 阿里雲發布通義家族首個端到端全模態大模型Qwen2.5-Omni-7B。
該模型專為全模態感知設計,可處理文本、圖像、音頻、視頻等多模態輸入,並實時生成文本與自然語言應答,為在手機、筆記本電腦等終端設備部署多模態AI設立新標準。
儘管僅採用了輕量級的7B參數,Qwen2.5-Omni-7B仍展現出卓越的性能與強大的多模態能力,成為開發高效能、高性價比、且具使用價值的AI智能體的理想基座模型,在智能語音應用領域尤其具有前景。例如,透過即時語音導航協助視障者安全辨識周邊環境,分析視頻中的食材按步驟提供烹飪指導,及打造真正理解客戶需求的智能客服對話體驗。
該模型現已在Hugging Face與GitHub上開源,並可透過Qwen Chat及阿里雲開源社區ModelScope獲取。目前,阿里雲已開源超過200個生成式AI模型。 (LF)
新聞來源 (不包括新聞圖片): 滙港資訊