zie ook: CategoryForcedAlignment
Boeken
geluid
- 📖 Julius O. Smith III:
📖 Kihong Shin,‎ Joseph Hammond: Fundamentals of Signal Processing for Sound and Vibration Engineers
📖 William M. Hartmann: Signals, Sound, and Sensation
📖 Steven W. Smith: The Scientist & Engineer's Guide to Digital Signal Processing
📖 Federico Miyara: Software-Based Acoustical Measurements
📖 Theodoros Giannakopoulos,‎ Aggelos Pikrakis: Introduction to Audio Analysis: A MATLAB® Approach (gekocht)
📖 Michael Parker: Digital Signal Processing 101: Everything You Need to Know to Get Started
📖 Mark Owen: Practical Signal Processing, Reprint Edition
📖 Sharad R Laxpati,‎ Vladimir Goncharoff: Practical Signal Processing and Its Applications: With Solved Homework Problems
📖 Richard J. Tervo: Practical Signals Theory with MATLAB Applications
- 📖 John W. Leis: Digital Signal Processing Using MATLAB for Students and Researchers (eBook UB)
📖 Mark Wickert: Signals and Systems For Dummies (gekocht)
📖 Sophocles J. Orfanidis: Introduction to Signal Processing — compleet online
spraak
📖 J. M. Pickett: The Acoustics of Speech Communication: Fundamentals, Speech Perception Theory, and Technology
📖 Stephen Levinson: Mathematical Models for Speech Technology
📖 Raymond D. Kent: Acoustic Analysis of Speech, second edition
📖 Ronald J. Baken,‎ Robert F. Orlikoff: Clinical Measurement of Speech & Voice, 2nd Edition
📖 Xuedong Huang,‎ Alex Acero,‎ Hsiao-Wuen Hon: Spoken Language Processing: A Guide to Theory, Algorithm and System Development (UB)
📖 Ben Gold,‎ Nelson Morgan,‎ Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, 2nd Edition
📖 Dan Jurafsky, James H. Martin: Speech and Language Processing — gedeeltelijke online
R
tuneR — Analysis of Music and Speech
signal — Signal Processing
AcousticNDLCodeR — Coding Sound Files for Use with NDL
seewave — Sound Analysis and Synthesis
ndl — Naive Discriminative Learning
Software
aubio — C library
Speech Signal Processing Toolkit (SPTK) — command line
Yaafe - audio features extraction — command line, Python, Matlab, C++ API zonder documentatie
openSMILE — werkt niet
Kaldi — veel te moeilijk
Marsyas (Music Analysis, Retrieval and Synthesis for Audio Signals)
Data
bron: http://accent.gmu.edu/
wav-bestanden: /net/aistaff/wieling/Experiments/forced-alignment
Voor ieder wav-bestand is al een segmentatie gemaakt middels forced alignment in de TextGrid files.
Artikelen
de prestatie met een cognitieve methode — met discrete cues op basis van transcripties
Toelichting
MW: Qua aanpak heb ik op het moment de cognitieve methode gebruikt met discrete cues op basis van het akoestische signaal. Ik volg daarbij http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0174623 om de discrete cues te genereren.
MW: De forced alignment is gemaakt met ppfa (Penn Phonetics Forced Alignmer: https://web.sas.upenn.edu/phonetics-lab/facilities/). Vervolgens heb ik met het script NDL-cue-generation.R (in de bovenstaande map) de Textgrids van het short formaat naar het normale formaat geconverteerd (met https://github.com/bbTomas/rPraat) en met de functie CorpusCoder (https://cran.r-project.org/web/packages/AcousticNDLCodeR/AcousticNDLCodeR.pdf) naar cues omgezet. Het bestand analysis.Rmd tenslotte bevat de analyse en deze maakt gebruik van functies gedefinieerd in functions.R. judgeAccents.rda tenslotte, bevat de menselijke nativelikeness judgements van 286 sprekers, op basis waarvan de correlatie berekend wordt. Met Levenshtein is deze circa 0.8, met de akoestische methode circa 0.5-0.55.
MW: Ik heb ook een paper[1] bijgevoegd van een PhD student aan Penn. Zij heeft een andere aanpak gebruikt en krijgt ook behoorlijk goede resultaten (ca. -0.59). Dit paper van haar lijkt ook relevant (in TACL): https://www.transacl.org/ojs/index.php/tacl/article/download/1055/259
MW: Een andere aanpak die wij hebben gebruikt is voor het Nederlands (dus niet deze data) op basis van forced alignment met verschillende uitspraakvarianten een ruwe transcriptie te genereren, en dat als input te gebruiken voor Levenshtein. Ik weet niet hoe goed dat werkt voor deze data. Weer een andere aanpak is dat we een deel van het Soundnet neuraal netwerk (http://soundnet.csail.mit.edu/) gebruikt hebben en daarop een nieuwe laag hebben gezet die een classificatie maakt tussen native en non-native American English. Vervolgens hebben we gekeken naar de onderliggende probabilities/waardes per spreker, en die correleren ook ongeveer 0.55 met de menselijke beoordelingen.
[1] /net/aistaff/kleiweg/spraak/docs/richter_accent_052017.pdf
Pagina's
- PetersWerkWiki/2018-01-24
- PetersWerkWiki/2018-01-31
- PetersWerkWiki/2018-02-07
- PetersWerkWiki/2018-02-28
- PetersWerkWiki/2018-03-07
- PetersWerkWiki/2018-03-14
- PetersWerkWiki/2018-03-21
- PetersWerkWiki/2018-04-11
- PetersWerkWiki/2018-04-18
- PetersWerkWiki/2018-04-25
- PetersWerkWiki/2018-05-02
- PetersWerkWiki/2018-05-16
- PetersWerkWiki/2018-05-23
- PetersWerkWiki/2018-05-30
- PetersWerkWiki/2018-06-06
- PetersWerkWiki/2018-06-13
- PetersWerkWiki/2018-06-20
- PetersWerkWiki/2018-08-22
- PetersWerkWiki/2018-08-29
- PetersWerkWiki/2018-09-05
- PetersWerkWiki/2018-09-12