Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów

Daniel Borysowski

doi:10.31261/pr.12741

Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга

Авторы

Daniel Borysowski Uniwersytet Opolski https://orcid.org/0000-0001-6594-9047

DOI:

https://doi.org/10.31261/pr.12741

Ключевые слова:

интернет-корпус новостей, моделирование языка, распознавание речи, ASR, медиа-мониторинг

Аннотация

Автор статьи использовал открытые корпусы NewsRu и Taiga, собирающие тексты интерет-новостей, для создания N-граммных языковых моделей для систем автоматического распознавания речи. Модели подверглись комплексной оценке (perplexity, WER, распознавание имен собственных, сравнение с базовой моделью и Google ASR). Автор использовал также рекурсивные нейронные сети для так называемого рескорина N-граммных моделей. Эффективность моделей оценивалась путем распознавания речи с новостного канала Россия 24 (оценке подверглись 37 файлов общей продолжительностью 1,5 часа). Выбор тестовых данных связан с основной целью статьи – распознаванием речи в рамках так называемого медиа-мониторинга.

Биография автора

Daniel Borysowski, Uniwersytet Opolski

Adiunkt w Katedrze Języków Słowiańskich Instytutu Językoznawstwa na Wydziale Filologicznym Uniwersytetu Opolskiego. Tekstolog i frazeograf, autor lub współautor kilku działów Podręcznego idiomatykonu polsko-rosyjskiego oraz współautor Polsko-rosyjskiego słownika par przekładowych. Autor monografii Teksty zespolone a problemy leksykografii przekłądowej. Od kilku lat zajmuje się zagadnieniam z obszaru korpusologii – przede wszystkim kwestią gromadzenia i przetwarzania danych tekstowych, modelowania języka na potrzeby systemów automatycznego rozpoznawania mowy.

Библиографические ссылки

Borysowski, Daniel. “Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych.” Prace Językoznawcze 2021, Vol. XXIII/3: 87–104.

Federico, Marcello, and Bertoldi, Nicola, and Cettolo, Mauro. IRSTLM: an Open Source Toolkit for Handling Large Scale Language Models. Proceedings of Interspeech. Brisbane 2008: 1618–1621.

James, William. Talks to Teachers on Psychology: And to Students on Some of Life’s Ideals. New York: Holt, 1889.

Jurafsky, Dan, and Martin, James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Third Edition draft, 2021 <https://web.stanford.edu/~jurafsky/slp3/ed3book_sep212021.pdf>.

Justo, Raquel, and Saz, Oscar, and Miguel, Antonio, and Torres, M.I., and Lleida, Eduardo. “Improving Language Models in Speech-Based Human-Machine Interaction.” International Journal of Advanced Robotic Systems 2013, Vol. 10 (87): 1–11 <https://www.researchgate.net/publication/258225996_Improving_Language_Models_in_Speech-Based_Human-Machine_Interaction>.

Karpov, Alexey, and Markov, Konstantin, and Kipyatkova, Irina, and Vazhenina, Daria, and Ronzhin, Andrey. “Large vocabulary Russian speech recognition using syntactico-statistical language modeling.” Speech Communication 2013, Vol. 56: 213–228.

Kipyatkova, Irina and Karpov, Alexey. “Study of Morphological Factors of Factored Language Models for Russian ASR.” Ronzhin, Andrey et al. (eds.). Speech And Computer. Switzerland: Springer, 2014, 451–458.

Kipyatkova, Irina, and Karpov, Alexey. “Recurrent Neural Network-based Language Modeling for an Automatic Russian Speech Recognition System.” Balandin, Sergey et al. (eds.). Proceedings of AINL-ISMW FRUCT Conference. St. Petersburg, 2015, 33–38.

Laptev, Aleksandr, and Korostik, Roman, and Svischev, Aleksey, and Andrusenko, Andrei, and Medennikov, Ivan, and Rybin, Sergey. You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation, 2020 <https://arxiv.org/abs/2005.07157v2>.

Mikolov, Tomas et al. Distributed Representations of Words and Phrases and their Compositionality, 2013 <https://arxiv.org/abs/1310.4546v1>.

Mikolov, Tomas et al. Efficient Estimation of Word Representations in Vector Space, 2013 <https://arxiv.org/abs/1301.3781v3>.

O’Shaughnessy, Douglas. “Invited paper: Automatic speech recognition: History, methods and challenges.” Pattern Recognition 2008, 41: 2966–2967 <https://www.sciencedirect.com/science/article/abs/pii/S0031320308001799>.

Raffel, Collin, and Shazeer, Noam, and Roberts, Adam, and Lee, Katherine, and Narang, Sharan, and Matena, Michael, and Zhou, Yanqi, and Li, Wei, and Liu, Peter J. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” Journal of Machine Learning Research 2020, Vol. 21: 1–67.

Schneider, Steffen, and Baevski, Alexei, and Collobert, Ronan, and Auli, Michael. wav2vec: Unsupervised Pre-training for Speech Recognition, 2019 <https://arxiv.org/abs/1904.05862v4>.

Shavrina, Tatiana, and Shapovalova, Olga. “To the Methodology of Corpus Construction for Machine Learning: Taiga Syntax Tree Corpus and Parser.” Zakharov, Viktor Pavlovich. Khokhlova, Mariya Vladimirovna (eds.). Proceedings of the International Conference „Corpus Linguistics–2017”. St. Petersburg, 2017, 78–84.

Tampel', Ivan Borisovich, and Karpov, Aleksey Anatol'yevich. Avtomaticheskoye raspoznavaniye rechi. Uchebnoye posobiye. Sankt-Peterburg: Universitet ITMO, 2017 [Тампель, Иван Борисович, and Карпов, Алексей Анатольевич. Автоматическое распознавание речи. Учебное пособие. Санкт-Петербург: Университет ИТМО, 2017].

Tampel', Ivan Borisovich. “Avtomaticheskoye raspoznavaniye rechi – osnovnyye etapy 50 za let.” Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki 2015, Vol. 15, No. 6: 957–968 [Тампель, Иван Борисович. “Aвтоматическое распознавание речи – основные этапы за 50 лет.” Научно-технический вестник информационных технологий, механики и оптики 2015, Vol. 15, No. 6: 957–968].

Vaswani, Ashish (et al.). Attention Is All You Need, 2017 <https://arxiv.org/abs/1706.03762v5>.

Wolf, Thomas (et al.). Transformers: State-of-the-Art Natural Language Processing, 2020 <https://aclanthology.org/2020.emnlp-demos.6.pdf>.

Yakovenko, Olga, and Bondarenko, Ivan, and Borovikova, Mariya, and Vodolazsky, Daniil. “Algorithms for automatic accentuation and transcription of russian texts in speech recognition systems.” Karpov, Alexey, and Jokisch, Oliver, and Potapova, Rodmonga (eds.). Speech And Computer. Switzerland: Springer, 2018: 768–777.

Ziółko, Bartosz, and Ziółko, Mariusz. Przetwarzanie mowy. Kraków: Wydawnictwa AGH, 2011.

Загрузки

pdf (Język Polski)

Опубликован

2022-03-14

Как цитировать

Borysowski, D. (2022). Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга. Przegląd Rusycystyczny [Русское обозрение], (1(177). https://doi.org/10.31261/pr.12741

Скачать ссылку

Выпуск

№ 1(177) (2022): Przegląd Rusycystyczny

Раздел

Artykuły

Лицензия

Właściciele praw autorskich do nadesłanych tekstów udzielają Czytelnikowi prawa do korzystania z dokumentów pdf zgodnie z postanowieniami licencji Creative Commons 4.0 International License: Attribution-Share-Alike (CC BY-SA 4.0). Użytkownik może kopiować i redystrybuować materiał w dowolnym medium lub formacie oraz remiksować, przekształcać i wykorzystywać materiał w dowolnym celu.

1. Licencja

Wydawnictwo Uniwersytetu Śląskiego zapewnia natychmiastowy otwarty dostęp do treści swoich czasopism na licencji Creative Commons BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0/). Autorzy publikujący w tym czasopiśmie zachowują wszelkie prawa autorskie i zgadzają się na warunki wyżej wymienionej licencji CC BY-SA 4.0.

2. Oświadczenie Autora

Autor deklaruje, że artykuł jest oryginalny, napisany przez niego (i współautorów), nie był wcześniej publikowany, nie zawiera stwierdzeń niezgodnych z prawem, nie narusza praw innych osób, jest przedmiotem praw autorskich, które przysługują wyłącznie autorowi i jest wolny od wszelkich praw osób trzecich, a także, że autor uzyskał wszelkie niezbędne pisemne zgody na cytowanie z innych źródeł.

Jeśli artykuł zawiera materiał ilustracyjny (rysunki, zdjęcia, wykresy, mapy itp.), Autor oświadcza, że wskazane dzieła są jego dziełami autorskimi, nie naruszają niczyich praw (w tym osobistych, m.in. prawa do dysponowania wizerunkiem) i posiada do nich pełnię praw majątkowych. Powyższe dzieła udostępnia jako część artykułu na licencji „Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Międzynarodowe”.

UWAGA! Bez określenia sytuacji prawnej materiału ilustracyjnego oraz załączenia stosownych zgód właścicieli majątkowych praw autorskich publikacja nie zostanie przyjęta do opracowania redakcyjnego. Autor/autorka oświadcza równocześnie, że bierze na siebie wszelką odpowiedzialność w przypadku podania nieprawidłowych danych (także w zakresie pokrycia kosztów poniesionych przez Wydawnictwo UŚ oraz roszczeń finansowych stron trzecich).

3. Prawa użytkownika

Zgodnie z licencją CC BY-SA 4.0 użytkownicy mogą udostępniać (kopiować, rozpowszechniać i przekazywać) oraz adaptować (remiksować, przekształcać i tworzyć na podstawie materiału) artykuł w dowolnym celu, pod warunkiem, że oznaczą go w sposób określony przez autora lub licencjodawcę.

4. Współautorstwo

Jeśli artykuł został przygotowany wspólnie z innymi autorami, osoba zgłaszająca niniejszy formularz zapewnia, że została upoważniona przez wszystkich współautorów do podpisania niniejszej umowy w ich imieniu i zobowiązuje się poinformować swoich współautorów o warunkach tej umowy.

Oświadczam, że w przypadku nieuzgodnionego z redakcją i/lub wydawcą czasopisma wycofania przeze mnie tekstu z procesu wydawniczego lub skierowania go równolegle do innego wydawcy zgadzam się pokryć wszelkie koszty poniesione przez Uniwersytet Śląski w związku z procedowaniem mojego zgłoszenia (w tym m.in. koszty recenzji wydawniczych).