Si të përdorni transkriptimin e AWS për të kthyer fjalimin në tekst
Transkriptimi i të folurit është një problem që zakonisht zgjidhet me punëtorë të shtrenjtë njerëzorë. Megjithatë, me mësimin e makinerive, kompjuterët janë kapur dhe Paketa e Veglave të Njohjes së të folurit e fuqizuar me AI të AWS tani është e disponueshme si një shërbim për t'u përdorur nga aplikacioni juaj.
AWS Transscribe konverton skedarët audio në S3
Transkriptimi është i thjeshtë—i jepni një skedar audio (të ruajtur në S3) dhe ai mund të kalojë përmes tij dhe t'ju japë një dalje. Ju tarifoheni në bazë të gjatësisë së audios, me një normë prej 0,0004 dollarë për sekondë. Një takim dy-orësh në sallën e bordit do të kushtonte 2,88 dollarë për të transkriptuar, por një video e shpejtë dy minutëshe kushton vetëm 0,06 dollarë.
Transkriptimi është mjaft i shpejtë, por nuk është i optimizuar me vonesë. Është i përshtatshëm për transkriptimin pas faktit, të tilla si transkriptimi i telefonatave të klientëve dhe titrimi i videos së ngarkuar. Nëse keni nevojë për transkriptim të fjalës në tekst në kohë reale, mund të përdorni AWS Lex, një shërbim për ndërtimin e robotëve të bisedës interaktive si Alexa.
Për të filluar, drejtohuni te paneli AWS Transscribe. Mund të shtypni Start Streaming për të regjistruar nga mikrofoni i pajisjes tuaj dhe për të testuar shërbimin. Është mjaft i zoti, por ka të ngjarë të kërkoni më shumë se kaq.
Nga shiriti anësor, zgjidhni Punët e transkriptimit dhe kliko Krijo punë. Puna shërben si një metodë e automatizimit të transkriptimit. Çdo punë punon në një skedar në një kohë; për të automatizuar transkriptimin e skedarëve të shumtë, duhet të krijoni një punë të veçantë për secilin nga linja e komandës.
Jepini Transkriptit një shteg për skedarin audio që dëshironi të konvertoni. Mund të zgjidhni opsionalisht manualisht formatin dhe shkallën e mostrës, megjithëse duhet të njohë automatikisht ato më të zakonshmet.
Pasi të klikoni krijo, fillon transkriptimi. Puna e krijuar rishtazi shfaqet në listë dhe pasi të ketë mbaruar, mund të shkarkoni tekstin e transkriptuar.
Ju ndoshta dëshironi të dini se si të punoni me Transkriptimin nga tastiera, pasi krijimi i vendeve të punës me dorë është i lodhshëm dhe i përshtatshëm vetëm nëse përpunoni një skedar audio të madh në të njëjtën kohë.
aws transcribe start-transcription-job
--transcription-job-name NewJob
--language-code en-US
--media MediaFileUri="s3://bucket/file.mp3"
Kjo fillon punën dhe nxjerr disa JSON që ju tregojnë nëse është krijuar me sukses. Ju mund të kontrolloni statusin e një pune në mënyrë programore me get-transcription-job
:
aws transcribe get-transcription-job --transcription-job-name NewJob
Nëse ka mbaruar, TranscriptionJob.TranscriptionJobStatus
caktohet në KOMPLETED dhe mund ta shkarkoni skedarin drejtpërdrejt me curl
dhe pak jq
përpunim:
curl $(aws transcribe get-transcription-job --transcription-job-name NewJob
| jq -r ".TranscriptionJob.Transcript.TranscriptFileUri")
| jq ".results.transcripts"
Vini re se skedari i transkriptit është JSON dhe përmban transkriptin e plotë plus një vlerësim të besueshmërisë së çdo fjale dhe alternativave. Nëse nuk dëshironi të gjitha vlerat e besimit, mund t'i filtroni ato me | përfundimtar jq \.results.transcripts\
deklarata.
Ju gjithashtu mund të transkriptoni automatikisht skedarët audio duke përdorur funksionet Lambda. Lambda është një shërbim që mund të ekzekutojë kodin në përgjigje të ngjarjeve AWS, siç janë artikujt e rinj që ngarkohen në S3. Është pa server dhe ju paguani vetëm për kohën e ekzekutimit; sepse Lambda nuk po bën përpunimin aktual, thjesht krijon një punë të re gjatë ngarkimit, kostoja duhet të jetë e parëndësishme.
Mund ta kodoni vetë nëse e keni përdorur Lambda më parë, por për fat ka një aplikacion të para-ndërtuar në depon e aplikacioneve pa server Lambda që mund të trajtojë pikërisht këtë punë për ju. Quhet s3-lambda-transcribe-audio-to-text-s3
dhe mund t'ju duhet të klikoni Trego aplikacionet që krijojnë role të personalizuara IAM për ta gjetur.
Krijoni një aplikacion të ri nga ky shabllon dhe specifikoni kovën e hyrjes dhe kovën e daljes. Sigurohuni që kova e daljes ekziston dhe se kova e hyrjes nuk ekziston, pasi aplikacioni do të krijojë kovën e hyrjes për ju.
Ju gjithashtu do të dëshironi të futni gjuhën e skedarit audio. en-SHBA
është anglisht e përgjithshme; për çdo gjë tjetër, mund ta gjeni kodin në dokumentet e AWS.
Vendosni aplikacionin dhe duhet të shihni një kovë të krijuar rishtazi. Nëse hidhni një skedar audio në këtë kovë, Lambda mund të krijojë një punë të re të Transkriptimit për ju.
Nëse aplikacioni nuk funksionon, sigurohuni që e keni aktivizuar për të krijuar rolin e tij IAM dhe sigurohuni që të ketë leje për të punuar me Transkriptimin dhe kovat S3 që i nevojiten.