В Кыргызстане появится голосовой помощник на кыргызском языке Akylai. Над этим проектом уже работает команда кыргызстанцев со всего мира и тестовую рабочую модель они обещают представить через год. Как это будет работать и зачем вообще учить голосового помощника кыргызскому языку CABAR.asia рассказали сооснователи The Cramer Project Тимур Туратали и Улан Абдуразаков.
Для начала давайте определимся с понятиями. Искусственный интеллект, нейросеть и машинное обучение – в чем различие? И к какой из этих категорий относятся голосовые помощники?
Тимур Туратали: Искусственный интеллект, на мой взгляд, – маркетинговый термин. На самом деле никакого искусственного интеллекта пока не существует в том плане, в котором мы с вами представляем.
Data science – это большая область по тому, как достать из данных инсайты и использовать их во благо бизнеса. Например, ритейл компания, используя данные, может понять, кто у нее покупает больше «Сникерсов» и в какое время дня.
Машинное обучение – это подобласть data science, которая занимается созданием машин без явного программирования. Это терминология Стэнфордского университета. Оно имитирует поведение и интеллект человека в базовом представлении.
А нейросети – это область машинного обучения, которая последние 10 лет на хайпе, потому что это новый и алгоритм машинного обучения. Идея заключается в том, чтобы смоделировать работу человеческого мозга.
То есть голосовые помощники относятся к нейросети?
Т.Т.: Да. Data science делится на области. Например, мы с вами говорим на языке NLP, обработке естественного языка. Это и есть голосовые помощники, чат-боты, тот же самый ChatGPT. Лучшим инструментом для создания таких NLP-проектов являются нейросети.
Также есть computer vision, это обработка изображений неподвижных и движущихся объектов при помощи компьютерных средств. Есть классическое машинное обучение, на старых эффективных алгоритмах, которые были изобретены еще в ХХ веке.
А кому из вас пришло в голову создать голосового помощника на кыргызском языке?
Т.Т.: Мне кажется, путем брейншторма мы пришли к этой идее.
Тут нужно понимать, у нас была цель – создать проект для поддержания сообщества. В рамках этого направления мы выбрали и разработали проект Akylai. Решили натренировать с нуля голосового помощника – собрать данные, обучить его простым моделям, затем сложным -кыргызскому языку.
Зачем вообще учить нейросеть кыргызскому языку?
Т.Т.: Большая проблема сейчас, которую мы видим на рынке, – отсутствие инструментов для кыргызского языка.
Кыргызский язык с каждым годом все больше и больше используется в интернете. Многие мои знакомые, в том числе из сферы медиа, говорят о проблеме нехватки инструментов. То есть у них есть текст, его нужно обработать с точки зрения data science, но они не могут это сделать. Мы решили, что это проблема и нужно ее решать.
Улан Абдуразаков: В целом, кыргызский разговорный язык очень сильно отличается от литературного. С помощью проекта мы хотим популяризировать литературный кыргызский язык, чтобы люди могли что-то на нем писать и говорить. Тем самым это будет способствовать развитию самого языка.
То есть голосовой помощник Akylai будет говорить на литературном кыргызском языке?
У.А.: И на литературном, и на разговорном. Но помощник точно будет знать литературные слова.
Наш разговорный кыргызский – это частично кыргызские, частично русские слова. Akylai будет говорить только на кыргызском?
У.А.: Мы постараемся сделать так, чтобы она максимально использовала кыргызские слова. Может быть, она даже сможет придумывать какие-то аббревиатуры, чтобы это напоминало настоящие кыргызские слова.
На каких данных вы обучаете нейросеть кыргызскому языку? Я так полагаю, что массив данных на кыргызском, тем более на литературном кыргызском, не очень большой.
Т.Т.: Да, это правда. Но мы почти весь интернет спарсили уже и сейчас оцифровываем все книги, которые есть.
У.А.: Мы делаем это в партнерстве с Кыргызским техническим университетом, Парком высоких технологий. И Kloop.kg нам тоже помогал, они предоставили нам свои данные.
Т.Т.: Есть еще компания Inkubasia. Они помогли нам найти хороших экспертов западных рынков из Америки, которые занимаются NLP уже лет 20.
То есть получается, вы обучаете Akylai на кыргызской литературе и том, что есть в интернете на кыргызском языке?
У.А.: По сути, используем все, что есть на кыргызском в интернете. «Википедию» мы тоже выгрузили.
Насколько большая команда работает над проектом?
Т.Т.: Сейчас у нас в команде примерно человек десять – это экспертный совет. Мы обычно прикидываем план, что нам делать, как нам пошагово идти к этой цели. Разбиваем это на задачи и у каждого в команде есть своя подзадача. Раз в неделю мы созваниваемся, делимся наработками.
Еще у нас есть волонтеры, 40-50 человек, которые изъявили желание участвовать. Но мы будем привлекать их к работе позже, когда подойдем ближе к разработке самой модели.
Сколько девушек в вашей команде, которые работают над проектом?
Т.Т.: У нас в экспертном совете две девушки. Но среди волонтеров – примерно 50 на 50. Проблема в том, что мало девушек-специалистов представлены в искусственном интеллекте, среди инженеров и дата сайентистов.
В целом, проект звучит очень масштабно. Десять человек – это не маленькая команда для работы над таким большим проектом?
Т.Т.: И да, и нет. Нужно понимать, что чем больше людей, тем сложнее скооперироваться друг с другом. Потому что у каждого участника команды есть своя основная работа. Этот проект больше волонтерский, мы хотим сделать полезное дело. Поэтому сейчас команда маленькая, но мы планируем расширяться.
В рамках это проекта мы много делаем того, что западные университеты делали в течение 50-70 лет. Проект мы поделили на этапы. Первый этап – создание корпуса. Это совокупность всех данных на кыргызском языке.
Идея следующая: сначала мы должны собрать данные, на которых будем обучать. И мы собираем максимально большой корпус, который возможно. Мы почти закончили.
У.А.: Если вы какое-то кыргызское слово туда забьете, корпус выдаст предложение, где это слово было впервые использовано, в какой книге.
Akylai – это open source проект. Все данные мы выгрузим, чтобы у всех был к проекту открытый доступ. Мы сделаем сайт, назовем его «Корпус кыргызского языка» и туда выложим все те данные, которые мы собираем. Он будет доступен любому человеку.
У вас есть дорожная карта проекта?
Т.Т.: Примерная дорожная карта у нас есть, но нужно понимать, что мы движемся к цели не по прямой линии, а тернистыми путями.
Первый этап – это создание корпуса. Затем мы приступим к созданию простых моделей языка, language model. Это будет на основе модели BERT (Bidirectional Encoder Representations from Transformers, языковая модель для автоматической обработки языка – прим. ред.).
А затем мы приступим к более сложным моделям на основе трансформеров. И дальше мы уже придем к синтезу речи, обработке языка.
В течение примерно какого времени нам ожидать готовую модель?
Т.Т.: Не раньше одного года.
У.А.: На разработку текстовых ответов понадобится примерно год. А чтобы Akylai говорила, как «Алиса» – на это еще год уйдет. Мы думаем, к тому времени мы наберем больший пул партнеров.
Кто ваша целевая аудитория? Для кого вы делаете проект?
Т.Т.: Так как это open source проект, то мы делаем это для всех людей. Это будет достоянием кыргызстанцев, чтобы у них была возможность использовать кыргызский язык в цифровом мире.
У.А.: На данный момент этим интересуются информационные новостные агентства и бизнесу это тоже интересно.
Этот проект полностью альтруистский? Где вы берете средства для проекта?
Т.Т.: Вся наша команда – кыргызстанцы, наши соотечественники, некоторые из которых работают за рубежом на хороших позициях, специалисты ML/AI, и они открыты к таким проектам.
Вся наша команда уже трудоустроена, но мы можем уделить пару часов в день проекту. И мы считаем, что он будет полезен во многих аспектах – в обучении, развитии языка, развитии искусственного интеллекта для кыргызскоязычных.
То есть никто не получает зарплату?
Т.Т.: Нет, это полностью волонтерский проект. Но мы предлагаем взамен другое. В процессе работы над проектом, мы будем писать научные статьи, публикации. В мире искусственного интеллекта высоко ценятся такие исследования. Этим мы привлекаем людей. Это ценится больше денежного эквивалента, потому что вы оставляете наследие: вы первым создали корпус, кыргызскую модель.
У.А.: Для них это хорошее резюме, портфолио, которое поможет в карьере.
Как вы считаете, каким образом ваш проект может повлиять на развитие кыргызского языка? Потому что многие годы мы говорим о важности развития кыргызского, но сильно дело никуда не сдвинулось. Может ли ваш проект помочь дать толчок этому?
Т.Т.: Да, мы однозначно считаем, что это очень сильно поможет и будет частью этого развития. Потому что сейчас кыргызский язык не представлен в цифровом мире. Например, когда вы пользуетесь Iphone и Android, там есть автоподсказки на русском языке. У кыргызского этого нет. Нет хорошего словаря, нет хороших моделей языка, на которых можно обучаться. Для других языков все уже сделано. На русском и английском давно есть обработка языка.
И мы считаем, что наш проект должен помочь развитию кыргызского языка. То есть больше людей смогут пользоваться кыргызским.
Когда вы делаете исследование, вы должны иметь данные. Но у нас проблема в том, что нет данных, они неподготовленные. Мы сейчас решаем самую большую задачу на рынке, чтобы потом другие дата-сайентисты или исследователи машинного обучения могли пользоваться нашими данными и быстрее проявлять свои гипотезы, создавать модели.
У.А.: Ну и те же дата-сайентисты, если захотят что-то еще сделать, смогут использовать наш корпус как отправную точку в своих начинаниях.
Вы уже затронули тему синтеза речи. Чьим голосом будет говорить Akylai? Это будет женский или мужской голос?
У.А.: Мы все еще ищем голос. Так как имя женское, соответственно, и голос будет женский.
А будет ли опция мужского голоса? Например, я хотела бы, чтобы мой помощник говорил мужским голосом.
Т.Т: Почему бы и нет. Этому можно обучить.
А как у Akylai будут обстоять дела с этическими нормами, толерантностью? Можно ли от нее будет ожидать сексизма, расизма? Мне кажется, что данные, на которых вы обучаете помощника, содержат много подобного.
Т.Т.: Как обычно поступают компании, когда создают подобные проекты. Они сначала выпускают бета-версию, потом, прислушиваясь к экспертным мнениям, дорабатывают. Например, тот же ChatGPT. Его потом анализирует группа специалистов.
Мы тоже сначала откроем бета-версию, попробуем дать поработать, соберем фидбеки и благодаря им улучшим проект. Но, учитывая факт, что у нас в стране не все хорошо с сексизмом, феминизмом и другими «измами», то вероятнее всего мы получим ассистента, который, обучившись на этих данных, будет вести себя также.
А кто будет работать над тем, чтобы ликвидировать подобные нетолерантные вещи?
Т.Т.: Это последняя фаза разработки, и там мы будем привлекать больше людей извне, которые не знают код, но могут подсказать, где что-то не так.
А что с чувством юмора? Оно тоже будет?
Т.Т.: Вероятнее всего, на первых этапах этого не будет. Будет только функция вопроса-ответа. Но в дальнейшем, когда мы будем добавлять синтез речи, понимание голоса, диалектов, возможно, и юмор подключим.
Те данные, которые пользователи будут предоставлять Akylai – запросы, тексты, прочая информация? – это будет собираться? Что вы будете делать с ними?
У.А.: Мы будем использовать внесенные пользователями данные, но это будет обезличенный процесс. Мы не будем собирать личные данные. Нам нужны тексты и их оценка – насколько хорошо они были сгенерированы.
Планируете ли вы получать какую-то прибыль от этого проекта?
Т.Т.: Насчет коммерциализации мы пока не думали, но на нас уже выходили некоторые компании, заинтересованные в сотрудничестве. Но пока серьезно мы об этом не думали.
То есть Akylai – бесплатный проект?
Т.Т.: Пока планируется, что он бесплатный и open source.
У.А.: Но Akylai можно обучить скиллам, как «Алексу» (голосовой помощник Amazon – прим. ред.). Например, телефонные звонки, обработка клиентов – это узконаправленные скиллы и они, скорее всего, будут платными. А основная версия, конечно, будет бесплатной.
Как вы считаете, насколько перспективна коммерциализация этого проекта? Учитывая, что это только кыргызский язык и значит, только рынок Кыргызстана, а он не очень большой.
У.А.: На самом деле, это вопрос подхода. Если есть данные, допустим, на казахском языке, можно то же самое сделать на казахском языке.
То есть у вас есть планы поработать и с другими языками Центральной Азии?
У.А.: Пока нет, но в принципе это возможно.
С другими языками легче будет работать? Или надо будет начинать все заново для каждого языка?
Т.Т.: Мне кажется, самая большая проблема – собрать данные. А все остальное будет намного легче после Akylai.
Есть ли в долгосрочных планах у вас делать для Akylai умную колонку, станцию? Сможет ли она, например, подключиться к «умному дому»?
У.А.: Я думаю, что да. Нам уже предложили сделать колонку в форме юрты. Когда у нас будет готова основная модель, нам легче будет включаться в остальное.
С какими сервисами планируется сотрудничество? Сможет ли Akylai работать с Google, Spotify и другими сервисами?
Т.Т.: Мы пока на этот счет не думали. У нас была идея предложить сотрудничество государственным каналам, порталам, где есть ведущие. Чтобы Akylai могла вести какую-то часть передачи. Например, в России часть телевизионных передач ведет робот, особенно те, что связаны с прогнозом погоды. Как вариант, мы можем это предложить.
Но по поводу сотрудничества с другими компаниями – Google, Spotify, Amazon, – мы еще не думали. Это пока в очень долгосрочной перспективе.
Akylai cможет частично заменить журналиста?
Т.Т.: Частично, да
У.А.: Ну, скорее она не заменит, а будет помогает.
Каким вы видите будущее Akylai?
Т.Т.: Если смотреть прям далеко вперед, то, мне кажется, Akylai будет классным проектом, который поможет развитию кыргызского языка и людям, желающим выучить кыргызский язык. То есть, говоря с колонкой в форме юрты, человек выучиться кыргызскому. Akylai будет своего рода учителем.
У Akylai будет функция русского языка?
Т.Т.: Будет функция кыргызского, русского, английского языков.
А как это будет работать?
Т.Т.: На английском языке данных много. Обучить ему будет проще простого. Мы просто сделаем так, чтобы Akylai могла переводить и передавать смысл.
Будут ли в нее заложены какие-то программы обучения кыргызскому языку? На основе чего?
У.А.: У кыргызского языка нет TOEFL, нет уровней А1, В1, С1. Поэтому здесь нам понадобится помощь экспертного сообщества, лингвистов. Что хорошо – все люди открытые, готовы помочь. Поэтому необходимо разработать стандарт, что-то вроде кыргызского TOEFL.
Мне кажется, в таких проектах нужна поддержка государства, чтобы все получилось в масштабах всей страны, если мы говорим о развитии языка. Как вы считаете, насколько власти открыты к такому?
У.А.: Мы активно сотрудничаем с Парком высоких технологий, это госструктура. Они очень открытые, поддерживают нас. Мы сотрудничаем с университетами, вузами. Пока что нас устраивает. Я не скажу, что нам нужны деньги от государства. А вот информационная, медиаподдержка, помощь с предоставлением и сбором данных нужны.
Источник: CABAR.asia