This dataset was recorded by 20 speakers with authentic pronunciation and diverse vocal qualities (10 males and 10 females) in a professional recording studio. The recorded texts cover all phonemes, and the annotators have a professional linguistic background, ensuring the data meets the research and development needs for voice synthesis.
Да что это с ним - Ну, может мы, хотя бы, сядем - состроила умоляющие глазки.
Здесь сразу три зоны на Ближнем и Среднем Востоке и в Юго-Восточной Азии.
Казалось, в непроглядной, вязкой тьме тонут даже звуки, вообще всё ненужное, неважное, постороннее.
Полиция выяснила, что горе-террорист является местным безработным, да еще и психически неуравновешенным.
People also searched for
Chinese American English Synthesis Corpus
This datasets contains 80 speakers, with a balanced gender ratio, approximately 1.5 hours of data per speaker.
Existing labeling stages: Pronunciation, Prosody
Ongoing labeling: Phoneme boundaries
Overview: Focuses on common/fundamental language, includes everyday dialogue in a natural style