Как перевести аудио звук или видео ролик в печатный текст. мой опыт транскрибирования

Google Переводчик

На странице онлайн переводчика от Google присутствует возможность голосового ввода текста. Это может стать альтернативным и в то же время бесплатным вариантом, если требуется надиктовать запись с микрофона. Для начала ввода достаточно нажать на соответствующий значок.

Чуть более сложная задача стоит перед пользователем, если требуется выполнить перевод аудио в текст. Тем не менее зарубежные юзеры придумали решение – нужно установить специальный драйвер в систему и настроить вход микрофона на него. По итогу запущенный в плеере файл будет передаваться как голос, который поступает с микрофона. Это позволяет «обмануть» Google Переводчик и произвести транскрибацию с аудиофайла.

Настройка приложения «Горыныч»

Заходим в приложение. Для работы обязательно должен быть подключен микрофон. Если он не подключен, то сделайте. Затем открываем «Словарь», в котором не очень много слов (около 5000). Мы открыли «Словарь» и добавляем одно слово – «Проверка». Теперь нужно проговорить слово, которое мы выбрали («Проверка»), чтобы голосовой помощник смог запомнить и в дальнейшем распознавать голос пользователя. Проговаривать нужно четко и ясно, без дефектов речи. Все, программа готова к пользованию.

Не работает приложение, ошибки в приложении

Огромным минусом данного приложения является маленький словарный набор слов. Зачастую у пользователя возникает неполадка в то время, когда он говорит голосовому помощнику команду, а приложение не распознает задачу. Это частая ошибка у голосового помощника «Горыныч». Причинами такой ошибки могут быть отсутствие подключения микрофона к персональному компьютеру, отсутствие звуковой карты или же плохое произношение слов из-за возможных дефектов речи.

Какие языки поддерживает голосовой помощник Горыныч?

Голосовой помощник «Горыныч» создан российскими разработчиками и является первой подобной программой, которая была создана в России. Еще программа, помимо русского языка, поддерживает английский язык.

Веб-сервисы и приложения для голосового ввода

Для использования голосового ввода от случая к случаю можно обойтись без  установки на компьютер специальных программ. Скорее всего, вам будет достаточно возможностей веб-сервисов и расширений для браузера.

Google Docs

Простой инструмент голосового ввода есть в Google Docs — сервисе для работы с текстовыми документами. Для его использования достаточно иметь аккаунт почты Gmail.

Как пользоваться голосовым вводом в Google Docs:

  1. Откройте сайт поисковой системы Google.
  2. Авторизуйтесь под своей учётной записью Google или зарегистрируйте новый профиль.
  3. Кликните по квадрату из точек, чтобы раскрыть меню с сервисами.
  4. Нажмите «Ещё», чтобы увидеть полный список.
  5. Перейдите в «Документы».
  6. В поле «Создать документ» нажмите «Пустой файл».

На экране появится текстовый редактор Google. Чтобы включить голосовой ввод, раскройте меню «Инструменты» и выберите соответствующую опцию. Слева появится виджет с микрофоном. Выберите в нём язык, на котором вы будете говорить, а затем нажмите на иконку микрофона, чтобы включить распознавание. Значок должен стать красным. Если браузер запросит разрешение на использование микрофона, дайте его.

Запуск голосового ввода доступен также с помощью сочетания клавиш Ctrl+Shift+S. Функция запускается с языком, установленным по умолчанию.

После настройки начинайте говорить — Google Docs будет распознавать речь и превращать её в текст. Знаки препинания и новую строку проговаривайте словами, чётко произносите окончания слов — в противном случае исправлять текст придётся очень долго.

Speechpad

Speechpad — бесплатный сервис, который работает только в браузере Chrome. Выше мы рассказали, как настроить его интеграцию с Windows. Однако для набора небольшого фрагмента текста в этом нет необходимости — с задачей отлично справится веб-интерфейс голосового блокнота.

  1. Откройте сайт Speechpad.ru.
  2. Пролистните главную страницу до окна редактора.
  3. Выберите язык ввода.
  4. Нажмите на кнопку «Включить запись» и разрешите использование микрофона.
  5. Диктуйте текст.

Возле кнопки «Включить запись» вы увидите поле предварительного показа. В нём отображается то, что будет добавлено в документ.

Расставлять знаки препинания и переходить на новую строку можно голосом или кнопками, которые находятся между полем предварительного просмотра и редактором. При наведении на каждую кнопку появляется текст голосовой команды, к которой она применяется — например, «вопросительный знак» или «открыть скобку».

Итоговый документ доступен для скачивания в формате TXT.

VoiceNote

VoiceNote — ещё один сервис для преобразования голоса в текст, который работает только в Google Chrome. При попытке запустить его в другом браузере появляется сообщение об ошибке.

Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.

Как пользоваться VoiceNote:

  1. Откройте редактор.
  2. Нажмите на значок в виде земного шара и выберите язык ввода.
  3. Кликните по иконке микрофона.
  4. Разрешите использование записывающего устройства.
  5. Диктуйте текст.

Правила ввода здесь стандартные: знаки препинания можно проговаривать словами, а также голосом отправлять текст на новую строчку.

Полученный документ доступен для сохранения в формате TXT.

TalkTyper

TalkTyper — онлайн-редактор для голосового ввода. Главное его достоинство — поддержка 37 языков. Однако TalkTyper, как и предыдущие сервисы, работает только в Google Chrome.

Принцип ввода текста в этом редакторе не отличается от других: вы указываете язык, нажимаете на значок микрофона и разрешаете его использование. Знаки препинания и новая строка проговариваются словами.

Результат обработки текста в TalkTyper можно сохранить в виде документа в формате TXT, скопировать в буфер обмена, распечатать, отправить по почте, твитнуть и перевести на другой язык.

Voice Notepad

Voice Notepad — ещё один сервис для преобразования голоса в текст, работающий только в Chrome. Он поддерживает больше 120 языков ввода. В остальном функциональность у него такая же, как у сервисов, перечисленных выше: расстановка знаков препинания голосом, сохранение документа в формате TXT, копирование в буфер обмена, отправка по почте или на печать и т.д.

Особенность онлайн-сервисов заключается в том, что все они работают только в Google Chrome. Это связано с тем, что в их основе лежит лицензионная гугловская технология распознавания речи. Другие браузеры её не поддерживают или поддерживают с ограничениями. Например, Speechpad можно запускать в Яндекс.Браузере, однако в чужеродной среде он часто работает с ошибками. Так что если вы не пользуетесь Google Chrome, проще всего установить одну из программ для голосового ввода на компьютер и забыть про неудобства.

Проверка и настройка микрофона

Google Keep — заметки и списки

Программы для перевода аудио в текст

Как мы поняли, транскрибация, это перевод речи в текст. То есть, мы должны записать все то, что нам говорят.

Для этой цели существуют как элементарные, так и профессиональные программы.

Текстовый редактор Microsoft Word

Самый банальный способ осуществить перевод аудио в текст, это воспользоваться:

  1. Запустить аудио или видео файл.
  2. Открыть текстовый редактор.
  3. Слушать и набирать текст.

Изначально, в этом разделе планировал писать про Word, но поразмыслив, решил, что подойдет любой текстовый редактор: блокнот, Word, Google Документы, LibreOffice Writer и другие. Главное, чтобы была возможность набирать текст с клавиатуры.

Банальность данного способа заключается в том, что вам придется по несколько раз прослушивать один и тот же участок аудио, если конечно вы не обладаете фантастической скоростью печатания.

И все же, этот способ имеет право на существование.

Профессиональная программа для транскрибации Express Scribe

Решили заняться переводом аудио в текст? Лучшее что можно предложить, это программа Express Scribe.

Данная программа позволяет набирать текст непосредственно работая с аудио или видео файлом в соседнем окне. Работает следующим образом:

  1. Закачиваете в саму программу аудио или видео файл.
  2. При помощи горячих клавиш, настраиваете функции воспроизведения или остановки ролика.
  3. В соседнем окне набираете текст.

Разработчики предоставляют платную и немного урезанную бесплатную версию. Как по мне, если вы не занимаетесь профессионально транскрибацией, достаточно будет бесплатной версии.

Из минусов: она на английском и русификатора нет. Хотя, интерфейс на столько понятен, что языковой барьер не должен стать преградой.

Из плюсов:

  • Для набора текста, не нужно переключаться между программами.
  • В зависимости от скорости печатания, можно подстроить под себя, скорость проигрывания записи.
  • Предусмотрено огромное количество настраиваемых горячих клавиш, которые помогут в работе с программой.
  • Имеется возможность расстановки тайм-кодов.

Скачать Express Scribe.

Плеер для расшифровщиков LossPlay

Плеер LossPlay, представляет из себя модернизированный проигрыватель аудио и видео файлов. В основе идеи функционала, был взят известный плейер Winamp.

Транскрибация происходит по следующему принципу:

  1. Запустите плеер LossPlay.
  2. Добавьте аудио или видео файл.
  3. Откройте любой текстовый редактор, в котором будем набирать текст.
  4. Начните воспроизведение файла.

Чем же отличается этот способ, от способа предложенным самым первым?

По сути, да, идея та же самая. И все же есть свои нюансы. Дело в том, что при запуске аудио или видео файла, есть возможность свернуть плеер и работать только в текстовом редакторе. К плееру, можно обращаться по средством горячих клавиш, которым можно:

  • запустить воспроизведение;
  • остановить воспроизведение;
  • замедлить воспроизведение;
  • установить тайм-код;
  • и многое другое.

По заявлению разработчика, LossPlay идеально подойдет для перевода аудио в текст. Продукт, по функционалу, стоит на равное с профессиональными разработками, но имеет преимущество в меньшем расходе системных требований компьютера.

Скачать LossPlay

Установка библиотек

Объяснение демонстрационной программы подразумевает, что все необходимые речевые библиотеки установлены на вашем компьютере. Чтобы создавать и запускать демонстрационные программы, нужно установить четыре пакета: SDK (обеспечивает возможность создания демонстраций в Visual Studio), исполняющую среду (выполняет демонстрации после их создания), распознаваемый и синтезируемый (произносимый программой) языки.

Чтобы установить SDK, поищите в Интернете по словосочетанию «Speech Platform 11 SDK». Это приведет вас на нужную страницу в Microsoft Download Center (рис. 4). Щелкнув кнопку Download, вы увидите варианты, показанные на рис. 5. SDK поставляется в 32- и 64-разрядной версиях. Я настоятельно советую использовать 32-разрядную версию независимо от разрядности вашей системы. 64-разрядная версия не взаимодействует с некоторыми приложениями.

Рис. 4. Основная страница установки SDK в Microsoft Download Center

Рис. 5. Установка Speech SDK

Вам не нужно ничего, кроме одного файла .msi под x86 (для 32-разрядных систем). Выбрав этот файл и щелкнув кнопку Next, вы можете запустить программу установки прямо отсюда. Речевые библиотеки не дают особой обратной связи насчет того, когда установка закончена, поэтому не ищите никаких сообщений об успешном завершении.

Далее вы должны установить исполняющую среду. Найдя основную страницу и щелкнув кнопку Next, вы увидите варианты, показанные на рис. 6.

Рис. 6. Установка исполняющей среды

Крайне важно выбрать ту же версию платформы (в демонстрации — 11) и разрядность (32 или 64 ), что и у SDK. И вновь я настоятельно советую 32-разрядную версию, даже если вы работаете в 64-разрядной системе

Затем можно установить распознаваемый язык (recognition language). Страница скачивания приведена на рис. 7. В демонстрационной программе используется файл MSSpeech_SR_en-us_TELE.msi (English-U.S.). SR расшифровывается как распознавание речи (speech recognition), а TELE — как телефония; это означает, что распознаваемый язык предназначен для работы с низкокачественным аудиовходом, например от телефона или настольного микрофона.

Рис. 7. Установка распознаваемого языка

Наконец, вы можете установить язык и голос для синтеза речи. Страница скачивания приведена на рис. 8. Демонстрационная программа использует файл MSSpeech_TTS_en-us_Helen.msi. TTS (text-to-speech), по сути, является синонимом синтеза речи (speech synthesis)

Обратите внимание на два доступных голоса English, U.S. Есть и другие голоса English, но не U.S

Создание файлов языка синтеза — задача весьма сложная. Однако можно приобрести и установить другие голоса от множества компаний.

Рис. 8. Установка голоса и языка синтеза

Любопытно, что, хотя язык распознавания речи и голос/язык синтеза речи на самом деле являются совершенно разными вещами, оба пакета являются вариантами на одной странице скачивания. Download Center UI позволяет отметить как язык распознавания, так и язык синтеза, но попытка одновременной их установки оказалась для меня катастрофичной, поэтому я рекомендую устанавливать их по отдельности.

Лучшее программное обеспечение для распознавания голоса для пользователей Android: Google Assistant

Google Assistant — это сопровождающий AI, который поставляется бесплатно с телефонами на базе Android, а также с несколькими планшетами Chromebook и умными динамиками. Существует несколько способов использования возможностей программного обеспечения для поиска в Интернете, диктовки заметок и управления приложениями. Он также имеет самый мощный механизм распознавания речи из всех помощников AI. Он идеально подходит для пользователей Android, которым нужна помощь AI при выполнении рутинных рабочих задач и напоминаний.

Цены на Google Assistant

Google Assistant поставляется бесплатно с любой версией Android после 6.0 (Marshmallow). Он также включен в ряд интеллектуальных устройств, таких как динамики, телевизоры, автомобильные панели и многое другое. Просто скажите «Привет, Google», чтобы использовать программное обеспечение. Это очень похоже на работу Siri с устройствами Apple.

Функции Google Assistant

Google Assistant позволяет вам диктовать и использовать общие функции на вашем смартфоне без использования рук, такие как обмен текстовыми сообщениями и использование программного обеспечения для перевода ваших слов на более чем 150 языков. Хотя есть приложение для iOS, его функциональность очень ограничена по сравнению с версией, найденной на телефонах Android. Например, его нельзя использовать для открытия и закрытия других приложений на продукте Apple, но эта функция доступна в версии Android.

Функции Google Assistant включают в себя:

диктант

Google Assistant позволяет вам диктовать заметки на вашем телефоне. Просто скажите «Привет, Google, сделай заметку». Помощник спросит тебя, что это за заметка, и ты сможешь диктовать. Затем вы можете просмотреть свой текст в приложении Notes вашего телефона. Это работает так же, как Сири и Кортана. Тем не менее, он не позволяет создавать и редактировать документы, как вы можете с помощью Dragon на ПК, что делает Google Assistant более удобным для мобильных пользователей, которые хотят записывать заметки на своем телефоне.

автоматизация

Автоматизация задач — вот где Google Assistant превосходит другие. Google Assistant позволяет быстро и легко выполнять такие действия, как установка таймеров, получение информации о погоде и отправка текстовых сообщений. Многие приложения предлагают интеграцию с Google Assistant, так что вы можете пообщаться с Uber или заказать ланч для офиса с помощью Seamless с помощью своего голоса. Это надежнее, чем другие умные помощники. Это отлично подходит для пользователей, которые не хотят иметь дело с открытием приложений и набором текста.

точность

Google Assistant достаточно точен и будет понимать вас большую часть времени, даже если вы не говорите четко или используете много «гм» ​​и «ах» в своих командах. Однако его точность лишь немного выше, чем у других доступных умных помощников, и окружающий шум иногда может сбить с толку помощника.

Языковая поддержка

В настоящее время Google Assistant доступен на датском, голландском, английском, французском, немецком, хинди, итальянском, японском, корейском, норвежском, испанском и шведском языках. Кроме того, он может понимать и переводить более 150 языков. Это одна из самых мощных языковых программ поддержки распознавания голоса на сегодняшний день. Google Assistant полезен для пользователей, которые часто ведут бизнес на международном уровне.

Чего не хватает в Google Assistant?

Google Assistant не понимает более сложные голосовые команды для редактирования заметок. Вы также не можете использовать помощника для форматирования текста в таких службах, как Google Docs. Также нет возможности использовать Google Assistant на рабочем столе вне Chromebook. И хотя есть версия для iOS, она не встроена в ОС, поэтому вы не сможете управлять другими приложениями или изменять системные настройки.

Что пользователи думают о Google Assistant

Google Assistant обычно считается лучшим смартфоном на сегодняшний день. Он лучше понимает речь и может интегрироваться с большим количеством приложений, чем Siri или Cortana, и система работает невероятно быстро. Тем не менее, пользователи сообщают, что система трудно использовать при наличии фонового шума.

Где найти Google Assistant

Google Assistant — это очень надежный ИИ, который можно найти на любом современном устройстве Android. Программное обеспечение имеет возможность прослушивать ваши заметки и устанавливать напоминания, а также может использоваться для доступа к вашим любимым приложениям без необходимости прикасаться к экрану. Проверьте Google Assistant сегодня.

Посетите Google

Решения завтрашнего дня

Виртуальные ассистенты

Сегодня на рынке присутствует огромное количество разнообразных приложений – помощников, готовых проконсультировать владельца девайса по самым разным вопросам с помощью голоса, текстового запроса или сканирования объекта или штрих-кода, если речь идет о ритейле. Но будущее, по мнению консультантов Accenture, — за помощниками, которым не нужен специальный интерфейс. Согласно данным Accenture, к 2024 г. большинство интерфейсов не будут иметь экрана, виртуальные помощники будут интегрированы в ежедневные задачи, а к 2027 г. цифровые помощники будут круглосуточно работать в фоновом режиме на рабочих местах сотрудников.

Российские эксперты также ожидают бурного роста этого сегмента рынка. По оценкам Кирилла Петрова, основателя и управляющего директора Just AI, к 2022 г. в мире будет более 500 млн. умных колонок, а к 2025 г. их количество превысит миллиард. Такие прогнозы основываются, в частности, на ожиданиях близкого эффекта от синергии нескольких факторов: развития биометрических технологий, повышения качества распознавания речи, совершенствования алгоритмов NLU вкупе с тенденцией интеграция ассистентов B2C-сервисы из «реального мира».

Голографические ассистенты

Отдельное интересное направление – применение в реальных сервисах помощников голографического изображения, что придает ралистичную «человечинку» девайсу с компьютерной платой. Это то направление, по которому хайтек-индустрия устремилась несколько лет назад. И сегодня голографических сотрудников можно встретить в аэропортах разных стран мира, а также за прилавками торговых центров. Например, в решении Accenture для ритейла 3D-проекция продавца разговаривает с покупателем, шевеля губами и выражая эмоции.

Первых пассажиров аэропорта «Симферополь», отрывшегося в 2018 г., встречали не только реальные сотрудники, но и голограмма

На проекции также может отображаться дополнительная информация, например, интересующий товар или навигация по окружающему пространству. Специальное ПО устраняет лишние шумы, мешающие распознаванию голоса покупателя в реальной обстановке.

Между тем, голографические помощники продолжают свое движение в частный сектор. Сегодня они пытаются устроиться на журнальном столике в гостиной в виде изящной безделушки, чаще всего, в виде «говорящего» цилиндра. А вот для виртуального помощника Obexx AI Box одноименной китайской компании, специализирующейся на разработке инновационных голосовых ассистентов, владелец может сам создать образ персонального аватара – соответствующий инструмент встроен в приложение помощника.

Голографический виртуальный ассистент Obexx AI Box имеет свой визуальный образ, который можно менять

«Говорящие» помощники – голограммы становятся элементами современного интерьера

Впрочем, чтобы стать «настоящим человеком», этой «говорящей голограмме» еще предстоит приобрести целый ряд навыков и интегрировать их в единую среду общения – единый контекст, в котором необходимо выделять ряд важных аспектов: настроение, специфика окружающей обстановки, предсказание желаний пользователя и т.д.

Заказ перевода аудио в текст у специалистов

Вообще, мне достаточно часто нужна услуга по расшифровке аудиозаписей в текст. Нужно переводить в текст мои видеоуроки. Иногда я сначала наговариваю мысли для статьи на диктофон, а потом транскрибирую. Можно конечно заниматься этим самостоятельно с помощью программ, но это отнимает много времени. Почему? Потому что программы для транскрибации не всегда верно расшифровывают слова и приходится долго править полученный текст, форматировать его, вставлять знаки препинания и таймкоды.

Поэтому я нанимаю фрилансеров. Но.. И тут есть “засады”! Очень сложно найти “правильного” фрилансера, который бы делал все четко и в срок. И особенная проблема в том, что фрилансеры (особенно молодые) плохо дружат с русским языком. И часто делают еще больше ошибок, чем программы 🙁 Поэтому я стал искать специализированный сервис, который занимается ручным переводом аудио в текст. И чтобы качественно и недорого. И… Я похоже, нашел такую фирму.

Сейчас я расскажу, чем мне приглянулся данный сервис. Итак, смотрим. Кстати, Все картинки увеличиваются по клику…

Это пока единственный российский сервис по транскрибации аудио с личными кабинетами, который “заточен” под бизнесменов, журналистов, юристов и т.п. То есть, для тех людей, для которых качество и скорость расшифровки аудиофайлов являются самыми важными факторами.

Из “приятных плюшек” хочу отметить еще три, особо мне понравившихся.

  • Тестовый заказ. Бесплатный. Для проверки качества работы этого сервиса. Можете попробовать, если не уверены в качестве расшифровки.
  • Работа с PayPal. Это означает, что с сервисом могут работать “забугорные” люди. Кстати, проблема с платежами, нередка в случае когда пытаются оплатить услуги российского сервиса из-за рубежа. Ну и PayPal дополнительно защищает Ваши покупки.
  • Работа с аудиозаписями из судов. Для меня это ничего не говорит, но мой друг, юрист, говорит, что это крутая фишка..

Короче, не буду навязывать Вам этот сервис. Лучше сами посмотрите и решите, стоит ли с ним работать.

Ну и как обещал выше, рекомендую посмотреть это видео, где я подробней разбираю этот сайт.

А вот и подоспели итоги полной расшифровки моего видеоролика. Посмотрим, что получилось!

Связь 1С и виртуальной АТС (Мегафон). Звонки из 1С. Журнал звонков сотрудников и клиентов

Связка 1С и виртуальной АТС (от Мегафон) позволит четко ответить на вопросы: кто звонил, когда звонил, кому звонил, сколько говорил, сколько ждал на линии, что особо актуально при удаленной работе операторов и менеджеров, о чем говорили, результат разговора, обработаны ли пропущенные звонки, прослушать сам разговор, запланировать встречу, звонок, напоминание по результатам разговора. Возможность позвонить клиенту прямо из 1С одной кнопкой, оставить комментарий о звонке, посмотреть по каждому партнеру и клиенту, контакту клиента историю его звонков и взаимоотношений.

8000 руб.

«Dragon Professional» — расшифровка аудиозаписей в текст

На момент написания данного материала цифровой англоязычный продукт Dragon Professional Individual» является одним из мировых лидеров по качеству распознаваемых текстов. Программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на Android и iOS), обладает высоким качеством распознавания голоса, умеет выполнять ряд голосовых команд. При этом данный продукт имеет исключительно платный характер (цена за основную программу составляет 300 долларов США, а за «домашнюю» версия продукта «Dragon Home» покупателю придётся выложить 75 американских долларов).

Для своей работы данный продукт от «Nuance Communications» требует создания своего профиля, который призван адаптировать возможности программы под специфику вашего голоса. Кроме непосредственной диктовки текста, вы можете обучить программу выполнять ряд команд, тем самым делая своё взаимодействие с компьютером ещё более конгруэнтным и удобным.

Оцените статью
Рейтинг автора
5
Материал подготовил
Андрей Измаилов
Наш эксперт
Написано статей
116
Добавить комментарий