EnglishРусский中文

Урок 3. Голосовой ассистент#

Зачем это нужно#

Представьте: вы идёте за кофе, а ваш AI-агент работает на компьютере. Он просит разрешение отредактировать файл. Вместо того чтобы доставать телефон и печатать, вы просто говорите: «Да, разрешаю». Или диктуете новую задачу голосом.

Голосовой ассистент HAPI — это возможность управлять AI-агентом голосом через технологию ElevenLabs Conversational AI.


Что умеет голосовой ассистент#

  • 🎤 Разговаривать с агентом — давать задания, задавать вопросы голосом
  • Одобрять действия голосом — скажите «да» или «нет» вместо нажатия кнопок
  • 📢 Сообщать о результатах — ассистент расскажет, когда задача выполнена или если произошла ошибка

Что понадобится#

  • Аккаунт на ElevenLabs с доступом к API
  • Работающий Hub с доступом через интернет (например, с --relay)

ElevenLabs — компания, которая создаёт технологии синтеза и распознавания речи. Их сервис превращает вашу речь в текст, а текст — в естественно звучащую речь.

API (Application Programming Interface) — способ, которым программы общаются друг с другом. API-ключ — это как пароль, который подтверждает, что у вас есть доступ к сервису.


Пошаговая настройка#

Шаг 1. Получите API-ключ ElevenLabs#

  1. Зайдите на elevenlabs.io и зарегистрируйтесь (или войдите)
  2. Перейдите в настройки: API Keys
  3. Нажмите Create API Key (Создать API-ключ)
  4. Скопируйте ключ — он понадобится на следующем шаге

⚠️ Храните API-ключ в секрете! Это как пароль — если кто-то его узнает, он сможет использовать ваш аккаунт.

Шаг 2. Настройте Hub#

Перед запуском Hub задайте переменную окружения с вашим ключом:

export ELEVENLABS_API_KEY="ваш-api-ключ"
hapi hub --relay

Переменная окружения — это настройка, которую вы передаёте программе перед запуском. Команда export сохраняет её на время текущей сессии терминала.

При первом запуске Hub автоматически создаст голосового агента «Hapi Voice Assistant» в вашем аккаунте ElevenLabs. Ничего дополнительно настраивать не нужно!

Шаг 3. Начните голосовую сессию#

  1. Откройте сессию в Web App (в браузере телефона)
  2. Нажмите на кнопку микрофона 🎤 в нижней части экрана (в области ввода сообщений)
  3. Разрешите доступ к микрофону, когда браузер попросит
  4. Начните говорить!

Голосовые команды#

Вам не нужно запоминать специальные команды — говорите естественно:

Что сказать Что произойдёт
«Попроси Claude рефакторить модуль авторизации» Ваш запрос передаётся AI-агенту
«Создай новый файл для тестов» Запрос на создание файла
«Да» / «Разрешаю» / «Давай» Одобрение ожидающего разрешения
«Нет» / «Отклоняю» / «Отмена» Отклонение разрешения
«Что сейчас делает агент?» Ассистент ответит сам, если может

Как это работает внутри#

Голосовое общение проходит через несколько этапов:

Ваш голос → Микрофон → Браузер → WebRTC → ElevenLabs → Текст
                                                          │
                                                     Hub → CLI → AI-агент
                                                          │
Ответ агента ← Голос ← ElevenLabs ← Текст ←──────────────┘

WebRTC (Web Real-Time Communication) — технология для передачи аудио и видео в реальном времени через браузер. Это то же, что используется в видеозвонках.

Автоматическая синхронизация контекста#

Голосовой ассистент автоматически «знает» о том, что происходит:

  • Когда вы открываете сессию — ему загружается вся история
  • Когда агент отправляет сообщения — ассистент получает обновления
  • Когда приходят запросы на разрешения — ассистент может рассказать о них
  • Когда задача завершена — ассистент сообщит

Вам не нужно спрашивать «что нового» — ассистент сам расскажет о важных изменениях.


Полезные советы#

  1. Будьте конкретны — чем точнее запрос, тем лучше результат. Вместо «сделай что-нибудь с кодом» скажите «добавь обработку ошибок в функцию login»

  2. Подождите завершения — пока агент работает, ассистент молчит. Когда задача выполнена, он сам расскажет о результате

  3. Используйте наушники — это уменьшит эхо и улучшит распознавание речи

  4. Одна сессия за раз — для самого чёткого контекста работайте с одной сессией


Продвинутая настройка (необязательно)#

Если вы хотите использовать собственного агента ElevenLabs (например, с другим голосом или настройками):

export ELEVENLABS_AGENT_ID="id-вашего-агента"

Это полезно, если вы настроили агента с особым голосом или инструкциями на сайте ElevenLabs.


Решение проблем#

Проблема Решение
«ElevenLabs API key not configured» Убедитесь, что переменная ELEVENLABS_API_KEY задана и Hub перезапущен
Микрофон не работает Проверьте разрешения браузера, убедитесь, что микрофон не используется другой программой
Ассистент не отвечает Проверьте подключение к сессии (зелёная точка в статусной строке)
Плохое качество звука Используйте наушники, уменьшите фоновый шум
«Failed to create ElevenLabs agent» Проверьте API-ключ и квоту на аккаунте ElevenLabs

Итоги урока#

  • Голосовой ассистент позволяет управлять AI-агентом голосом — без клавиатуры
  • Для работы нужен API-ключ ElevenLabs и Hub с доступом через интернет
  • Настройка занимает 5 минут: получить ключ → задать переменную → запустить Hub
  • Говорите естественным языком — специальных команд нет
  • Ассистент сам следит за обновлениями и сообщает о важных событиях