В Таджикистане создан первый в истории страны искусственный интеллект, который понимает и обрабатывает таджикский язык. Разработкой занималась команда исследователей из компании zehnlab.ai.
Как сообщает команда zehnlab.ai, модель SoroLLM – первая нейросеть, созданная специально для таджикской речи и множества ее диалектов.
25 июня проект представили президенту Эмомали Рахмону во время открытия первого Центра вычислительных ресурсов для ИИ в стране.
Это событие стало заметным шагом в цифровом развитии Таджикистана и обозначило важность локальных технологий. До этого таджикский язык практически не был представлен в крупных языковых моделях вроде GPT или LLaMA.
Soro, в отличие от них, строилась с учетом особенностей таджикской речи – нестандартного синтаксиса, редкой лексики и разных вариантов произношения.
«Нам важно, чтобы модель не просто распознавала таджикский, а улавливала всё его разнообразие – от северных говоров до памирских», – говорят разработчики.
Проект продолжает развиваться. В ближайших планах – внедрение мультимодальных функций, которые позволят работать не только с текстом, но и с аудио- и видеоданными.
Команда также приглашает жителей страны принять участие в улучшении нейросети – для этого достаточно перейти по ссылке и заполнить короткую Google-форму, рассказав о своем диалекте.
Этим летом оставайтесь с нами в Telegram, Facebook, Instagram, Яндекс.Дзен, OK и ВК