«Привет, Akylai». Зачем в Кыргызстане учат нейросеть кыргызскому языку?

По

17.04.2023 10:04

В Кыргызстане появится голосовой помощник на кыргызском языке Akylai. Над этим проектом уже работает команда кыргызстанцев со всего мира и тестовую рабочую модель они обещают представить через год. Как это будет работать и зачем вообще учить голосового помощника кыргызскому языку CABAR.asia рассказали сооснователи The Cramer Project Тимур Туратали и Улан Абдуразаков.

Для начала давайте определимся с понятиями. Искусственный интеллект, нейросеть и машинное обучение – в чем различие? И к какой из этих категорий относятся голосовые помощники?

Тимур Туратали: Искусственный интеллект, на мой взгляд, – маркетинговый термин. На самом деле никакого искусственного интеллекта пока не существует в том плане, в котором мы с вами представляем.

Timur turatali e1681369398537 «привет, akylai». Зачем в кыргызстане учат нейросеть кыргызскому языку? — *Тимур Туратали*

Data science – это большая область по тому, как достать из данных инсайты и использовать их во благо бизнеса. Например, ритейл компания, используя данные, может понять, кто у нее покупает больше «Сникерсов» и в какое время дня.

Машинное обучение – это подобласть data science, которая занимается созданием машин без явного программирования. Это терминология Стэнфордского университета. Оно имитирует поведение и интеллект человека в базовом представлении.

А нейросети – это область машинного обучения, которая последние 10 лет на хайпе, потому что это новый и алгоритм машинного обучения. Идея заключается в том, чтобы смоделировать работу человеческого мозга.

То есть голосовые помощники относятся к нейросети?

Т.Т.: Да. Data science делится на области. Например, мы с вами говорим на языке NLP, обработке естественного языка. Это и есть голосовые помощники, чат-боты, тот же самый ChatGPT. Лучшим инструментом для создания таких NLP-проектов являются нейросети.

Также есть computer vision, это обработка изображений неподвижных и движущихся объектов при помощи компьютерных средств. Есть классическое машинное обучение, на старых эффективных алгоритмах, которые были изобретены еще в ХХ веке.

А кому из вас пришло в голову создать голосового помощника на кыргызском языке?

Т.Т.: Мне кажется, путем брейншторма мы пришли к этой идее.

Тут нужно понимать, у нас была цель – создать проект для поддержания сообщества. В рамках этого направления мы выбрали и разработали проект Akylai. Решили натренировать с нуля голосового помощника – собрать данные, обучить его простым моделям, затем сложным -кыргызскому языку.

Зачем вообще учить нейросеть кыргызскому языку?

Т.Т.: Большая проблема сейчас, которую мы видим на рынке, – отсутствие инструментов для кыргызского языка.

Кыргызский язык с каждым годом все больше и больше используется в интернете. Многие мои знакомые, в том числе из сферы медиа, говорят о проблеме нехватки инструментов. То есть у них есть текст, его нужно обработать с точки зрения data science, но они не могут это сделать. Мы решили, что это проблема и нужно ее решать.

Ulan abdurazakov e1681369493748 «привет, akylai». Зачем в кыргызстане учат нейросеть кыргызскому языку? — Улан Абдуразаков

Улан Абдуразаков: В целом, кыргызский разговорный язык очень сильно отличается от литературного. С помощью проекта мы хотим популяризировать литературный кыргызский язык, чтобы люди могли что-то на нем писать и говорить. Тем самым это будет способствовать развитию самого языка.

То есть голосовой помощник Akylai будет говорить на литературном кыргызском языке?

У.А.: И на литературном, и на разговорном. Но помощник точно будет знать литературные слова.

Наш разговорный кыргызский – это частично кыргызские, частично русские слова. Akylai будет говорить только на кыргызском?

У.А.: Мы постараемся сделать так, чтобы она максимально использовала кыргызские слова. Может быть, она даже сможет придумывать какие-то аббревиатуры, чтобы это напоминало настоящие кыргызские слова.

На каких данных вы обучаете нейросеть кыргызскому языку? Я так полагаю, что массив данных на кыргызском, тем более на литературном кыргызском, не очень большой.

Т.Т.: Да, это правда. Но мы почти весь интернет спарсили уже и сейчас оцифровываем все книги, которые есть.

У.А.: Мы делаем это в партнерстве с Кыргызским техническим университетом, Парком высоких технологий. И Kloop.kg нам тоже помогал, они предоставили нам свои данные.

Т.Т.: Есть еще компания Inkubasia. Они помогли нам найти хороших экспертов западных рынков из Америки, которые занимаются NLP уже лет 20.

То есть получается, вы обучаете Akylai на кыргызской литературе и том, что есть в интернете на кыргызском языке?

У.А.: По сути, используем все, что есть на кыргызском в интернете. «Википедию» мы тоже выгрузили.

Насколько большая команда работает над проектом?

Т.Т.: Сейчас у нас в команде примерно человек десять – это экспертный совет. Мы обычно прикидываем план, что нам делать, как нам пошагово идти к этой цели. Разбиваем это на задачи и у каждого в команде есть своя подзадача. Раз в неделю мы созваниваемся, делимся наработками.

Еще у нас есть волонтеры, 40-50 человек, которые изъявили желание участвовать. Но мы будем привлекать их к работе позже, когда подойдем ближе к разработке самой модели.

Сколько девушек в вашей команде, которые работают над проектом?

Т.Т.: У нас в экспертном совете две девушки. Но среди волонтеров – примерно 50 на 50. Проблема в том, что мало девушек-специалистов представлены в искусственном интеллекте, среди инженеров и дата сайентистов.

В целом, проект звучит очень масштабно. Десять человек – это не маленькая команда для работы над таким большим проектом?

Т.Т.: И да, и нет. Нужно понимать, что чем больше людей, тем сложнее скооперироваться друг с другом. Потому что у каждого участника команды есть своя основная работа. Этот проект больше волонтерский, мы хотим сделать полезное дело. Поэтому сейчас команда маленькая, но мы планируем расширяться.

В рамках это проекта мы много делаем того, что западные университеты делали в течение 50-70 лет. Проект мы поделили на этапы. Первый этап – создание корпуса. Это совокупность всех данных на кыргызском языке.

Идея следующая: сначала мы должны собрать данные, на которых будем обучать. И мы собираем максимально большой корпус, который возможно. Мы почти закончили.

У.А.: Если вы какое-то кыргызское слово туда забьете, корпус выдаст предложение, где это слово было впервые использовано, в какой книге.

Akylai – это open source проект. Все данные мы выгрузим, чтобы у всех был к проекту открытый доступ. Мы сделаем сайт, назовем его «Корпус кыргызского языка» и туда выложим все те данные, которые мы собираем. Он будет доступен любому человеку.

У вас есть дорожная карта проекта?

Т.Т.: Примерная дорожная карта у нас есть, но нужно понимать, что мы движемся к цели не по прямой линии, а тернистыми путями.

Первый этап – это создание корпуса. Затем мы приступим к созданию простых моделей языка, language model. Это будет на основе модели BERT (Bidirectional Encoder Representations from Transformers, языковая модель для автоматической обработки языка – прим. ред.).

А затем мы приступим к более сложным моделям на основе трансформеров. И дальше мы уже придем к синтезу речи, обработке языка.

В течение примерно какого времени нам ожидать готовую модель?

Т.Т.: Не раньше одного года.

У.А.: На разработку текстовых ответов понадобится примерно год. А чтобы Akylai говорила, как «Алиса» – на это еще год уйдет. Мы думаем, к тому времени мы наберем больший пул партнеров.

Кто ваша целевая аудитория? Для кого вы делаете проект?

Т.Т.: Так как это open source проект, то мы делаем это для всех людей. Это будет достоянием кыргызстанцев, чтобы у них была возможность использовать кыргызский язык в цифровом мире.

У.А.: На данный момент этим интересуются информационные новостные агентства и бизнесу это тоже интересно.

Этот проект полностью альтруистский? Где вы берете средства для проекта?

Т.Т.: Вся наша команда – кыргызстанцы, наши соотечественники, некоторые из которых работают за рубежом на хороших позициях, специалисты ML/AI, и они открыты к таким проектам.

Вся наша команда уже трудоустроена, но мы можем уделить пару часов в день проекту. И мы считаем, что он будет полезен во многих аспектах – в обучении, развитии языка, развитии искусственного интеллекта для кыргызскоязычных.

То есть никто не получает зарплату?

Т.Т.: Нет, это полностью волонтерский проект. Но мы предлагаем взамен другое. В процессе работы над проектом, мы будем писать научные статьи, публикации. В мире искусственного интеллекта высоко ценятся такие исследования. Этим мы привлекаем людей. Это ценится больше денежного эквивалента, потому что вы оставляете наследие: вы первым создали корпус, кыргызскую модель.

У.А.: Для них это хорошее резюме, портфолио, которое поможет в карьере.

Как вы считаете, каким образом ваш проект может повлиять на развитие кыргызского языка? Потому что многие годы мы говорим о важности развития кыргызского, но сильно дело никуда не сдвинулось. Может ли ваш проект помочь дать толчок этому?

Т.Т.: Да, мы однозначно считаем, что это очень сильно поможет и будет частью этого развития. Потому что сейчас кыргызский язык не представлен в цифровом мире. Например, когда вы пользуетесь Iphone и Android, там есть автоподсказки на русском языке. У кыргызского этого нет. Нет хорошего словаря, нет хороших моделей языка, на которых можно обучаться. Для других языков все уже сделано. На русском и английском давно есть обработка языка.

И мы считаем, что наш проект должен помочь развитию кыргызского языка. То есть больше людей смогут пользоваться кыргызским.

Когда вы делаете исследование, вы должны иметь данные. Но у нас проблема в том, что нет данных, они неподготовленные. Мы сейчас решаем самую большую задачу на рынке, чтобы потом другие дата-сайентисты или исследователи машинного обучения могли пользоваться нашими данными и быстрее проявлять свои гипотезы, создавать модели.

У.А.: Ну и те же дата-сайентисты, если захотят что-то еще сделать, смогут использовать наш корпус как отправную точку в своих начинаниях.

Вы уже затронули тему синтеза речи. Чьим голосом будет говорить Akylai? Это будет женский или мужской голос?

У.А.: Мы все еще ищем голос. Так как имя женское, соответственно, и голос будет женский.

А будет ли опция мужского голоса? Например, я хотела бы, чтобы мой помощник говорил мужским голосом.

Т.Т: Почему бы и нет. Этому можно обучить.

А как у Akylai будут обстоять дела с этическими нормами, толерантностью? Можно ли от нее будет ожидать сексизма, расизма? Мне кажется, что данные, на которых вы обучаете помощника, содержат много подобного.

Т.Т.: Как обычно поступают компании, когда создают подобные проекты. Они сначала выпускают бета-версию, потом, прислушиваясь к экспертным мнениям, дорабатывают. Например, тот же ChatGPT. Его потом анализирует группа специалистов.

Мы тоже сначала откроем бета-версию, попробуем дать поработать, соберем фидбеки и благодаря им улучшим проект. Но, учитывая факт, что у нас в стране не все хорошо с сексизмом, феминизмом и другими «измами», то вероятнее всего мы получим ассистента, который, обучившись на этих данных, будет вести себя также.

А кто будет работать над тем, чтобы ликвидировать подобные нетолерантные вещи?

Т.Т.: Это последняя фаза разработки, и там мы будем привлекать больше людей извне, которые не знают код, но могут подсказать, где что-то не так.

А что с чувством юмора? Оно тоже будет?

Т.Т.: Вероятнее всего, на первых этапах этого не будет. Будет только функция вопроса-ответа. Но в дальнейшем, когда мы будем добавлять синтез речи, понимание голоса, диалектов, возможно, и юмор подключим.

Те данные, которые пользователи будут предоставлять Akylai – запросы, тексты, прочая информация? – это будет собираться? Что вы будете делать с ними?

У.А.: Мы будем использовать внесенные пользователями данные, но это будет обезличенный процесс. Мы не будем собирать личные данные. Нам нужны тексты и их оценка – насколько хорошо они были сгенерированы.

Планируете ли вы получать какую-то прибыль от этого проекта?

Т.Т.: Насчет коммерциализации мы пока не думали, но на нас уже выходили некоторые компании, заинтересованные в сотрудничестве. Но пока серьезно мы об этом не думали.

То есть Akylai – бесплатный проект?

Т.Т.: Пока планируется, что он бесплатный и open source.

У.А.: Но Akylai можно обучить скиллам, как «Алексу» (голосовой помощник Amazon – прим. ред.). Например, телефонные звонки, обработка клиентов – это узконаправленные скиллы и они, скорее всего, будут платными. А основная версия, конечно, будет бесплатной.

Как вы считаете, насколько перспективна коммерциализация этого проекта? Учитывая, что это только кыргызский язык и значит, только рынок Кыргызстана, а он не очень большой.

У.А.: На самом деле, это вопрос подхода. Если есть данные, допустим, на казахском языке, можно то же самое сделать на казахском языке.

То есть у вас есть планы поработать и с другими языками Центральной Азии?

У.А.: Пока нет, но в принципе это возможно.

С другими языками легче будет работать? Или надо будет начинать все заново для каждого языка?

Т.Т.: Мне кажется, самая большая проблема – собрать данные. А все остальное будет намного легче после Akylai.

Q93 cabe629ec9b52faa744d4e24a9ed991685e85334d9f4b82b28766c29f7287889 «привет, akylai». Зачем в кыргызстане учат нейросеть кыргызскому языку?

Есть ли в долгосрочных планах у вас делать для Akylai умную колонку, станцию? Сможет ли она, например, подключиться к «умному дому»?

У.А.: Я думаю, что да. Нам уже предложили сделать колонку в форме юрты. Когда у нас будет готова основная модель, нам легче будет включаться в остальное.

С какими сервисами планируется сотрудничество? Сможет ли Akylai работать с Google, Spotify и другими сервисами?

Т.Т.: Мы пока на этот счет не думали. У нас была идея предложить сотрудничество государственным каналам, порталам, где есть ведущие. Чтобы Akylai могла вести какую-то часть передачи. Например, в России часть телевизионных передач ведет робот, особенно те, что связаны с прогнозом погоды. Как вариант, мы можем это предложить.

Но по поводу сотрудничества с другими компаниями – Google, Spotify, Amazon, – мы еще не думали. Это пока в очень долгосрочной перспективе.

Akylai cможет частично заменить журналиста?

Т.Т.: Частично, да

У.А.: Ну, скорее она не заменит, а будет помогает.

Каким вы видите будущее Akylai?

Т.Т.: Если смотреть прям далеко вперед, то, мне кажется, Akylai будет классным проектом, который поможет развитию кыргызского языка и людям, желающим выучить кыргызский язык. То есть, говоря с колонкой в форме юрты, человек выучиться кыргызскому. Akylai будет своего рода учителем.

У Akylai будет функция русского языка?

Т.Т.: Будет функция кыргызского, русского, английского языков.

А как это будет работать?

Т.Т.: На английском языке данных много. Обучить ему будет проще простого. Мы просто сделаем так, чтобы Akylai могла переводить и передавать смысл.

Будут ли в нее заложены какие-то программы обучения кыргызскому языку? На основе чего?

У.А.: У кыргызского языка нет TOEFL, нет уровней А1, В1, С1. Поэтому здесь нам понадобится помощь экспертного сообщества, лингвистов. Что хорошо – все люди открытые, готовы помочь. Поэтому необходимо разработать стандарт, что-то вроде кыргызского TOEFL.

Мне кажется, в таких проектах нужна поддержка государства, чтобы все получилось в масштабах всей страны, если мы говорим о развитии языка. Как вы считаете, насколько власти открыты к такому?

У.А.: Мы активно сотрудничаем с Парком высоких технологий, это госструктура. Они очень открытые, поддерживают нас. Мы сотрудничаем с университетами, вузами. Пока что нас устраивает. Я не скажу, что нам нужны деньги от государства. А вот информационная, медиаподдержка, помощь с предоставлением и сбором данных нужны.

Источник: CABAR.asia

«Привет, Akylai». Зачем в Кыргызстане учат нейросеть кыргызскому языку?

В Кыргызстане построят завод по производству вакцин для животных

Из-за состояния Орто-Сайского рынка лишились кресел три бишкекских чиновника, среди них аким

В Бишкеке временно закроют участок улицы Аалы Токомбаева

В Чуйской области задержан подозреваемый в распространении экстремистских материалов

В Бишкеке на проспекте Жибек Жолу после реконструкции открыли мост

Нефтяная «витрина» и скрытые потоки: эксперт объяснил, почему аргументы Тай-Мураса Ташиева не выдерживают критики

Выпускники школ могут бесплатно готовиться к Общереспубликанскому тестированию через мобильное приложение «Булак»