В Таджикистане создан первый в истории страны искусственный интеллект, который понимает и обрабатывает таджикский язык. Разработкой занималась команда исследователей из компании zehnlab.ai.

Как сообщает команда zehnlab.ai, модель SoroLLM – первая нейросеть, созданная специально для таджикской речи и множества ее диалектов.

25 июня проект представили президенту Эмомали Рахмону во время открытия первого Центра вычислительных ресурсов для ИИ в стране.

Это событие стало заметным шагом в цифровом развитии Таджикистана и обозначило важность локальных технологий. До этого таджикский язык практически не был представлен в крупных языковых моделях вроде GPT или LLaMA.

Soro, в отличие от них, строилась с учетом особенностей таджикской речи – нестандартного синтаксиса, редкой лексики и разных вариантов произношения.

«Нам важно, чтобы модель не просто распознавала таджикский, а улавливала всё его разнообразие – от северных говоров до памирских», – говорят разработчики.

Проект продолжает развиваться. В ближайших планах – внедрение мультимодальных функций, которые позволят работать не только с текстом, но и с аудио- и видеоданными.

Команда также приглашает жителей страны принять участие в улучшении нейросети – для этого достаточно перейти по ссылке и заполнить короткую Google-форму, рассказав о своем диалекте.

Этим летом оставайтесь с нами в Telegram, Facebook, Instagram, Яндекс.Дзен, OK и ВК