[PetersWerkWiki] [TitleIndex] [WordIndex

zie ook: CategoryForcedAlignment

Boeken

geluid

spraak

R

Software

Data

Voor ieder wav-bestand is al een segmentatie gemaakt middels forced alignment in de TextGrid files.

Artikelen

Toelichting

MW: Qua aanpak heb ik op het moment de cognitieve methode gebruikt met discrete cues op basis van het akoestische signaal. Ik volg daarbij http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0174623 om de discrete cues te genereren.

MW: De forced alignment is gemaakt met ppfa (Penn Phonetics Forced Alignmer: https://web.sas.upenn.edu/phonetics-lab/facilities/). Vervolgens heb ik met het script NDL-cue-generation.R (in de bovenstaande map) de Textgrids van het short formaat naar het normale formaat geconverteerd (met https://github.com/bbTomas/rPraat) en met de functie CorpusCoder (https://cran.r-project.org/web/packages/AcousticNDLCodeR/AcousticNDLCodeR.pdf) naar cues omgezet. Het bestand analysis.Rmd tenslotte bevat de analyse en deze maakt gebruik van functies gedefinieerd in functions.R. judgeAccents.rda tenslotte, bevat de menselijke nativelikeness judgements van 286 sprekers, op basis waarvan de correlatie berekend wordt. Met Levenshtein is deze circa 0.8, met de akoestische methode circa 0.5-0.55.

MW: Ik heb ook een paper[1] bijgevoegd van een PhD student aan Penn. Zij heeft een andere aanpak gebruikt en krijgt ook behoorlijk goede resultaten (ca. -0.59). Dit paper van haar lijkt ook relevant (in TACL): https://www.transacl.org/ojs/index.php/tacl/article/download/1055/259

MW: Een andere aanpak die wij hebben gebruikt is voor het Nederlands (dus niet deze data) op basis van forced alignment met verschillende uitspraakvarianten een ruwe transcriptie te genereren, en dat als input te gebruiken voor Levenshtein. Ik weet niet hoe goed dat werkt voor deze data. Weer een andere aanpak is dat we een deel van het Soundnet neuraal netwerk (http://soundnet.csail.mit.edu/) gebruikt hebben en daarop een nieuwe laag hebben gezet die een classificatie maakt tussen native en non-native American English. Vervolgens hebben we gekeken naar de onderliggende probabilities/waardes per spreker, en die correleren ook ongeveer 0.55 met de menselijke beoordelingen.

[1] /net/aistaff/kleiweg/spraak/docs/richter_accent_052017.pdf

Pagina's


CategoryCategory