ПАРАЛЛЕЛЬНЫЕ ПОДКОРПУСЫ В СТРУКТУРЕ НАЦИОНАЛЬНОГО КОРПУСА УЗБЕКСКОГО ЯЗЫКА: ДИАГНОСТИКА ТЕКУЩЕГО ЭТАПА И ГОРИЗОНТЫ ТРАНСФОРМАЦИИ

Authors

  • Нигматова Лолахон Хамидовна доктор филологических наук (DSc), профессор Бухарский государственный университет, кафедра русского языка и литературы nigmatovalolaxon@gmail.com Author

Keywords:

Национальный корпус узбекского языка, параллельные подкорпусы, корпусная лингвистика, нейронный машинный перевод, обработка агглютинативных языков с низкими ресурсами, большие языковые модели.

Abstract

Настоящее исследование проводит всестороннюю диагностику позиций параллельных подкорпусов в архитектуре Национального корпуса узбекского языка (НКУЯ), интерпретируя его как опорный элемент для корпусной лингвистики и инфраструктуры обработки естественного языка в условиях агглютинативных систем с ограниченными ресурсами. Опираясь на эмпирику платформы uzbekcorpus.uz и инновационные проекты 2024–2025 годов, раскрываются прорывы в алгоритмизированной аннотации, межъязыковой синергии с предобученными архитектурами и аппликации в трансляционных конвейерах. Уделяется внимание системным барьерам, вытекающим из дефицита данных, и стратегическим осям эволюции: диверсификация многоязычных конфигураций (русско-узбекская, англо-узбекская, тюрко-узбекская), механизация семантического выравнивания на сегментном и фразовом уровнях, а также имплантация в академические, индустриальные и государственные NLP-платформы. Формулируются операциональные стратегии по конструированию адаптивной инфраструктуры, способствующей глобальному цифровому продвижению узбекского языка в эру искусственного интеллекта.

References

1. Abdurakhmonova N. Architectural Foundations of Uzbek Digital Corpus. Tashkent, 2021.

2. Karshiev A., Tursunov M. Processing Pipeline for Agglutinative Languages in Uzbekcorpora.uz. 2022.

3. Uzbek-Kazakh Parallel Framework for Neural MT: Methodologies and Evaluations. ACL Anthology, 2024.

4. Mengliyev B. Conceptual Blueprint of National Uzbek Corpus. 2018.

5. Abdurakhmonova N. Morphosyntactic Annotation Strategies for Uzbek. 2022.

6. Formal Paradigms in Uzbek Digital Corpus. 2021.

7. Pedagogical Dimensions of Uzbek Subcorpora: Architecture and Efficacy. 2023.

8. Parallel Structures in Translation Ecosystem Development. 2024.

9. Problems and Resolutions in Uzbek National Corpus Construction. ResearchGate, 2025.

10. Multimedia Integration in Uzbek Language Corpus. Conference Proceedings, 2024.

11. Named Entity Recognition Dataset for Uzbek NLP. Mendeley Data, 2024.

12. Stemming Library for Uzbek Morphological Processing. Patent, 2024.

13. Syntactic Parser for Uzbek Sentence Decomposition. Patent, 2024.

14. Terminological Platform Based on Parallel Corpora. Patent, 2024.

Downloads

Published

2026-04-30