Урок 3. Голосовой ассистент#
Зачем это нужно#
Представьте: вы идёте за кофе, а ваш AI-агент работает на компьютере. Он просит разрешение отредактировать файл. Вместо того чтобы доставать телефон и печатать, вы просто говорите: «Да, разрешаю». Или диктуете новую задачу голосом.
Голосовой ассистент HAPI — это возможность управлять AI-агентом голосом через технологию ElevenLabs Conversational AI.
Что умеет голосовой ассистент#
- 🎤 Разговаривать с агентом — давать задания, задавать вопросы голосом
- ✅ Одобрять действия голосом — скажите «да» или «нет» вместо нажатия кнопок
- 📢 Сообщать о результатах — ассистент расскажет, когда задача выполнена или если произошла ошибка
Что понадобится#
- Аккаунт на ElevenLabs с доступом к API
- Работающий Hub с доступом через интернет (например, с
--relay)
ElevenLabs — компания, которая создаёт технологии синтеза и распознавания речи. Их сервис превращает вашу речь в текст, а текст — в естественно звучащую речь.
API (Application Programming Interface) — способ, которым программы общаются друг с другом. API-ключ — это как пароль, который подтверждает, что у вас есть доступ к сервису.
Пошаговая настройка#
Шаг 1. Получите API-ключ ElevenLabs#
- Зайдите на elevenlabs.io и зарегистрируйтесь (или войдите)
- Перейдите в настройки: API Keys
- Нажмите Create API Key (Создать API-ключ)
- Скопируйте ключ — он понадобится на следующем шаге
⚠️ Храните API-ключ в секрете! Это как пароль — если кто-то его узнает, он сможет использовать ваш аккаунт.
Шаг 2. Настройте Hub#
Перед запуском Hub задайте переменную окружения с вашим ключом:
export ELEVENLABS_API_KEY="ваш-api-ключ"
hapi hub --relayПеременная окружения — это настройка, которую вы передаёте программе перед запуском. Команда
exportсохраняет её на время текущей сессии терминала.
При первом запуске Hub автоматически создаст голосового агента «Hapi Voice Assistant» в вашем аккаунте ElevenLabs. Ничего дополнительно настраивать не нужно!
Шаг 3. Начните голосовую сессию#
- Откройте сессию в Web App (в браузере телефона)
- Нажмите на кнопку микрофона 🎤 в нижней части экрана (в области ввода сообщений)
- Разрешите доступ к микрофону, когда браузер попросит
- Начните говорить!
Голосовые команды#
Вам не нужно запоминать специальные команды — говорите естественно:
| Что сказать | Что произойдёт |
|---|---|
| «Попроси Claude рефакторить модуль авторизации» | Ваш запрос передаётся AI-агенту |
| «Создай новый файл для тестов» | Запрос на создание файла |
| «Да» / «Разрешаю» / «Давай» | Одобрение ожидающего разрешения |
| «Нет» / «Отклоняю» / «Отмена» | Отклонение разрешения |
| «Что сейчас делает агент?» | Ассистент ответит сам, если может |
Как это работает внутри#
Голосовое общение проходит через несколько этапов:
Ваш голос → Микрофон → Браузер → WebRTC → ElevenLabs → Текст
│
Hub → CLI → AI-агент
│
Ответ агента ← Голос ← ElevenLabs ← Текст ←──────────────┘WebRTC (Web Real-Time Communication) — технология для передачи аудио и видео в реальном времени через браузер. Это то же, что используется в видеозвонках.
Автоматическая синхронизация контекста#
Голосовой ассистент автоматически «знает» о том, что происходит:
- Когда вы открываете сессию — ему загружается вся история
- Когда агент отправляет сообщения — ассистент получает обновления
- Когда приходят запросы на разрешения — ассистент может рассказать о них
- Когда задача завершена — ассистент сообщит
Вам не нужно спрашивать «что нового» — ассистент сам расскажет о важных изменениях.
Полезные советы#
-
Будьте конкретны — чем точнее запрос, тем лучше результат. Вместо «сделай что-нибудь с кодом» скажите «добавь обработку ошибок в функцию login»
-
Подождите завершения — пока агент работает, ассистент молчит. Когда задача выполнена, он сам расскажет о результате
-
Используйте наушники — это уменьшит эхо и улучшит распознавание речи
-
Одна сессия за раз — для самого чёткого контекста работайте с одной сессией
Продвинутая настройка (необязательно)#
Если вы хотите использовать собственного агента ElevenLabs (например, с другим голосом или настройками):
export ELEVENLABS_AGENT_ID="id-вашего-агента"Это полезно, если вы настроили агента с особым голосом или инструкциями на сайте ElevenLabs.
Решение проблем#
| Проблема | Решение |
|---|---|
| «ElevenLabs API key not configured» | Убедитесь, что переменная ELEVENLABS_API_KEY задана и Hub перезапущен |
| Микрофон не работает | Проверьте разрешения браузера, убедитесь, что микрофон не используется другой программой |
| Ассистент не отвечает | Проверьте подключение к сессии (зелёная точка в статусной строке) |
| Плохое качество звука | Используйте наушники, уменьшите фоновый шум |
| «Failed to create ElevenLabs agent» | Проверьте API-ключ и квоту на аккаунте ElevenLabs |
Итоги урока#
- Голосовой ассистент позволяет управлять AI-агентом голосом — без клавиатуры
- Для работы нужен API-ключ ElevenLabs и Hub с доступом через интернет
- Настройка занимает 5 минут: получить ключ → задать переменную → запустить Hub
- Говорите естественным языком — специальных команд нет
- Ассистент сам следит за обновлениями и сообщает о важных событиях