AI கருவி 'டீப்ஃபேக் குரல்களை' எனக்கூறி ப்ராஜெக்ட் -ஐ கைவிட்ட மைக்ரோசாப்ட்
ஒரு செயற்கை நுண்ணறிவு ஸ்பீச் ஜெனரேட்டரை உருவாக்கியுள்ளது. VALL-E 2, என பெயர்கொண்ட இந்த AI சாதனம், மிகவும் நம்பத்தகுந்த வகையில் மனித குரல்களைப் பிரதிபலிக்கும் திறன் கொண்டது எனக்கூறி, அதை பொதுமக்களுக்கு வெளியிட முடியாது என மைக்ரோசாப்ட் தெரிவித்துள்ளது. arXiv இல் வெளியிடப்பட்ட ஒரு ஆய்வறிக்கையின்படி, டெக்ஸ்ட் டு ஸ்பீச் (TTS) ஜெனரேட்டர் சில வினாடிகள் ஆடியோவைப் பயன்படுத்தி மனித பேச்சை மீண்டும் உருவாக்க முடியும். ஆராய்ச்சியாளர்கள் VALL-E 2 ஐ,"நரம்பியல் கோடெக் மொழி மாதிரிகளின் சமீபத்திய முன்னேற்றம், இது ஜீரோ-ஷாட் டெக்ஸ்ட்-டு-ஸ்பீச் தொகுப்பில் (TTS) ஒரு மைல்கல்லைக் குறிக்கிறது, முதல் முறையாக மனித சமநிலையை அடைகிறது." என தெரிவிக்கின்றனர்.
VALL-E 2 இன் செயல்திறனுக்கான முக்கிய காரணங்கள்
VALL-E 2 இன் உயர்தர பேச்சு தொகுப்பு இரண்டு முக்கிய அம்சங்களுக்குக் காரணம்: "Repetition Aware Sampling" மற்றும் "Grouped Code Modeling" முந்தையது, மொழி அலகுகள், ஒலிகளின் எல்லையற்ற சுழல்கள் மற்றும் சொற்றொடர்கள் ஆகியவற்றைத் தடுப்பதன் மூலம் AI இன் உரையை பேச்சாக மாற்றுவதை மேம்படுத்துகிறது. பிந்தையது, வரிசை நீளத்தைக் குறைப்பதன் மூலம் செயல்திறனை மேம்படுத்துகிறது. VALL-E 2 விரைவாக பேச்சை உருவாக்குவதிலும் மற்றும் நீண்ட ஒலிகளை செயலாக்குவதில் உள்ள சிரமங்களையும் நிர்வகிக்கிறது.
பேச்சுத் தொகுப்பில் VALL-E 2 முந்தைய AI அமைப்புகளை மிஞ்சுகிறது
VALL-E 2 இன் செயல்திறனை மதிப்பிடுவதற்கு LibriSpeech மற்றும் VCTK பேச்சு நூலகங்கள் மற்றும் ELLA-V, மதிப்பீட்டு கட்டமைப்பின் ஆடியோ மாதிரிகளை ஆராய்ச்சியாளர்கள் பயன்படுத்தினர். பேச்சு வலிமை, இயல்பான தன்மை மற்றும் பேச்சாளர் ஒற்றுமை ஆகியவற்றில் VALL-E 2 முந்தைய பூஜ்ஜிய-ஷாட் TTS அமைப்புகளை விஞ்சி, இந்த அளவுகோல்களில் மனித சமநிலையை அடைந்த முதல் நபராக இது அமைந்தது என்று அவர்கள் முடிவு செய்தனர். இருப்பினும், VALL-E 2 இன் வெளியீட்டின் தரமானது, பேச்சுத் தூண்டுதலின் நீளம் மற்றும் தரம் மற்றும் பின்னணி இரைச்சல் போன்ற சுற்றுச்சூழல் காரணிகளால் பாதிக்கப்படுகிறது.
தவறாகப் பயன்படுத்துவதைத் தடுக்க பொது வெளியீடு இல்லை என குறிப்பிட்டுள்ளது
பல திறன்கள் இருந்தபோதிலும், மைக்ரோசாப்ட் VALL-E 2 ஐ பொதுமக்களுக்கு வெளியிட வேண்டாம் என்று முடிவு செய்துள்ளது. இந்த முடிவு குரல் குளோனிங் மற்றும் டீப்ஃபேக் தொழில்நுட்பம் பற்றிய அதிகரித்து வரும் கவலைகளை எதிரொலிக்கிறது. ஆராய்ச்சியாளர்கள் ஒரு வலைப்பதிவு இடுகையில், "VALL-E 2 முற்றிலும் ஒரு ஆராய்ச்சித் திட்டம். தற்போது, VALL-E 2 ஐ ஒரு தயாரிப்பில் இணைக்கவோ அல்லது பொதுமக்களுக்கான அணுகலை விரிவுபடுத்தவோ எந்த திட்டமும் இல்லை." எனினும் கல்வி, பொழுதுபோக்கு, பத்திரிகை, அணுகல் அம்சங்கள், மொழிபெயர்ப்பு, ஊடாடும் குரல் பதில் அமைப்புகள் மற்றும் சாட்போட்களில் VALL-E 2 போன்ற AI பேச்சு தொழில்நுட்பத்திற்கான சாத்தியமான பயன்பாடுகளை ஆராய்ச்சியாளர்கள் பரிந்துரைத்துள்ளனர்.