Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга

Авторы

DOI:

https://doi.org/10.31261/pr.12741

Ключевые слова:

интернет-корпус новостей, моделирование языка, распознавание речи, ASR, медиа-мониторинг

Аннотация

Автор статьи использовал открытые корпусы NewsRu и Taiga, собирающие тексты интерет-новостей, для создания N-граммных языковых моделей для систем автоматического распознавания речи. Модели подверглись комплексной оценке (perplexity, WER, распознавание имен собственных, сравнение с базовой моделью и Google ASR). Автор использовал также рекурсивные нейронные сети для так называемого рескорина N-граммных моделей. Эффективность моделей оценивалась путем распознавания речи с новостного канала Россия 24 (оценке подверглись 37 файлов общей продолжительностью 1,5 часа). Выбор тестовых данных связан с основной целью статьи – распознаванием речи в рамках так называемого медиа-мониторинга.

Биография автора

Daniel Borysowski, Uniwersytet Opolski

Adiunkt w Katedrze Języków Słowiańskich Instytutu Językoznawstwa na Wydziale Filologicznym Uniwersytetu Opolskiego. Tekstolog i frazeograf, autor lub współautor kilku działów Podręcznego idiomatykonu polsko-rosyjskiego oraz współautor Polsko-rosyjskiego słownika par przekładowych. Autor monografii Teksty zespolone a problemy leksykografii przekłądowej. Od kilku lat zajmuje się zagadnieniam z obszaru korpusologii – przede wszystkim kwestią gromadzenia i przetwarzania danych tekstowych, modelowania języka na potrzeby systemów automatycznego rozpoznawania mowy.

Библиографические ссылки

Borysowski, Daniel. “Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych.” Prace Językoznawcze 2021, Vol. XXIII/3: 87–104.

Federico, Marcello, and Bertoldi, Nicola, and Cettolo, Mauro. IRSTLM: an Open Source Toolkit for Handling Large Scale Language Models. Proceedings of Interspeech. Brisbane 2008: 1618–1621.

James, William. Talks to Teachers on Psychology: And to Students on Some of Life’s Ideals. New York: Holt, 1889.

Jurafsky, Dan, and Martin, James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Third Edition draft, 2021 <https://web.stanford.edu/~jurafsky/slp3/ed3book_sep212021.pdf>.

Justo, Raquel, and Saz, Oscar, and Miguel, Antonio, and Torres, M.I., and Lleida, Eduardo. “Improving Language Models in Speech-Based Human-Machine Interaction.” International Journal of Advanced Robotic Systems 2013, Vol. 10 (87): 1–11 <https://www.researchgate.net/publication/258225996_Improving_Language_Models_in_Speech-Based_Human-Machine_Interaction>.

Karpov, Alexey, and Markov, Konstantin, and Kipyatkova, Irina, and Vazhenina, Daria, and Ronzhin, Andrey. “Large vocabulary Russian speech recognition using syntactico-statistical language modeling.” Speech Communication 2013, Vol. 56: 213–228.

Kipyatkova, Irina and Karpov, Alexey. “Study of Morphological Factors of Factored Language Models for Russian ASR.” Ronzhin, Andrey et al. (eds.). Speech And Computer. Switzerland: Springer, 2014, 451–458.

Kipyatkova, Irina, and Karpov, Alexey. “Recurrent Neural Network-based Language Modeling for an Automatic Russian Speech Recognition System.” Balandin, Sergey et al. (eds.). Proceedings of AINL-ISMW FRUCT Conference. St. Petersburg, 2015, 33–38.

Laptev, Aleksandr, and Korostik, Roman, and Svischev, Aleksey, and Andrusenko, Andrei, and Medennikov, Ivan, and Rybin, Sergey. You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation, 2020 <https://arxiv.org/abs/2005.07157v2>.

Mikolov, Tomas et al. Distributed Representations of Words and Phrases and their Compositionality, 2013 <https://arxiv.org/abs/1310.4546v1>.

Mikolov, Tomas et al. Efficient Estimation of Word Representations in Vector Space, 2013 <https://arxiv.org/abs/1301.3781v3>.

O’Shaughnessy, Douglas. “Invited paper: Automatic speech recognition: History, methods and challenges.” Pattern Recognition 2008, 41: 2966–2967 <https://www.sciencedirect.com/science/article/abs/pii/S0031320308001799>.

Raffel, Collin, and Shazeer, Noam, and Roberts, Adam, and Lee, Katherine, and Narang, Sharan, and Matena, Michael, and Zhou, Yanqi, and Li, Wei, and Liu, Peter J. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” Journal of Machine Learning Research 2020, Vol. 21: 1–67.

Schneider, Steffen, and Baevski, Alexei, and Collobert, Ronan, and Auli, Michael. wav2vec: Unsupervised Pre-training for Speech Recognition, 2019 <https://arxiv.org/abs/1904.05862v4>.

Shavrina, Tatiana, and Shapovalova, Olga. “To the Methodology of Corpus Construction for Machine Learning: Taiga Syntax Tree Corpus and Parser.” Zakharov, Viktor Pavlovich. Khokhlova, Mariya Vladimirovna (eds.). Proceedings of the International Conference „Corpus Linguistics–2017”. St. Petersburg, 2017, 78–84.

Tampel', Ivan Borisovich, and Karpov, Aleksey Anatol'yevich. Avtomaticheskoye raspoznavaniye rechi. Uchebnoye posobiye. Sankt-Peterburg: Universitet ITMO, 2017 [Тампель, Иван Борисович, and Карпов, Алексей Анатольевич. Автоматическое распознавание речи. Учебное пособие. Санкт-Петербург: Университет ИТМО, 2017].

Tampel', Ivan Borisovich. “Avtomaticheskoye raspoznavaniye rechi – osnovnyye etapy 50 za let.” Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki 2015, Vol. 15, No. 6: 957–968 [Тампель, Иван Борисович. “Aвтоматическое распознавание речи – основные этапы за 50 лет.” Научно-технический вестник информационных технологий, механики и оптики 2015, Vol. 15, No. 6: 957–968].

Vaswani, Ashish (et al.). Attention Is All You Need, 2017 <https://arxiv.org/abs/1706.03762v5>.

Wolf, Thomas (et al.). Transformers: State-of-the-Art Natural Language Processing, 2020 <https://aclanthology.org/2020.emnlp-demos.6.pdf>.

Yakovenko, Olga, and Bondarenko, Ivan, and Borovikova, Mariya, and Vodolazsky, Daniil. “Algorithms for automatic accentuation and transcription of russian texts in speech recognition systems.” Karpov, Alexey, and Jokisch, Oliver, and Potapova, Rodmonga (eds.). Speech And Computer. Switzerland: Springer, 2018: 768–777.

Ziółko, Bartosz, and Ziółko, Mariusz. Przetwarzanie mowy. Kraków: Wydawnictwa AGH, 2011.

Загрузки

Опубликован

2022-03-14

Как цитировать

Borysowski, D. (2022). Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга. Przegląd Rusycystyczny [Русское обозрение], (1(177). https://doi.org/10.31261/pr.12741

Выпуск

Раздел

Artykuły