Перевод аудио в текст

Программы транскрибаторы

Переходим к программам помощникам, которые
значительно сокращают время на редактирование и расшифровку материалов. Данных
программ достаточно много одни идут на платной основе, другие можно скачать
даром и активно использовать в работе

Уделим внимание трем часто применяемым
транскрибаторами

Программа Express Scribe Transcription Software описание

Программа Express Scribe популярна в кругу почитателей заработка по расшифровки видео – аудио записей. Не имеет русского перевода, все идет на английском. Но составлена она таким образом, что интуитивно можно сориентироваться и понять систему работы. Бесплатное скачивание и пользование программой. Выделяя преимущества, стоит отметить:

  • встроенное поле набора текста не нужно переключать на видео и обратно, открываются синхронно;
  • можно менять скорость проигрывания видеодорожки, для успешной записи;
  • горячие клавиши воспроизведения, остановки и перемотки;
  • адаптированная система к работе с Вордом;
  • расставляет тайм-коды.

Недостатков крайне мало, и они не
существенные, кроме как отсутствие русскоязычной версии.

Голосовой блокнот Speechpad описание

Сервис функционирует в онлайн режиме, предназначен для распознавания речи. Дает возможность надиктовать материал и далее редактировать, сделав перенос в текстовый документ. Плюсами стали:

  • сокращение времени печати;
  • взаимодействие с редактором;
  • перенос в Word.

Минусов на настоящий момент не обнаружено.

Программа LossPlay описание

Простая, бесплатная система в виде плеера,
расшифровывающая видео и аудио в текст. Преимуществами
являются:

  • настраивание горячих клавиш;
  • распределение тайм-кодов;
  • подходит для работы в Word;
  • настройка откатов после паузы.

Недостаток периодически возникает
необходимость переключать окна для полноценной работы.

В завершении данной статьи, можно отметить, что занятие транскрибацией достаточно интересное, разностороннее и прибыльное. Каждый может реализоваться, нужно проявить смекалку, усидчивость и освоить новые знания. Ну а дополнительные программы – расшифровщики помогут упростить процесс работы и достичь полноценных результатов.

Speechtotext

Этот сервис бесплатно расшифровывает лишь десять минут аудиозаписи. Далее час распознавания речи обойдётся в 150 рублей.

Кроме того, у этого сервиса есть бот в Telegram. Правда, по времени он также ограничен десятью минутами. Бот поддерживает файлы до 20 МБ. Расшифровка занимает до 20 минут.

Пока что сервис работает только с русским языком. Однако команда разработчиков заверяет, что скоро добавит и другие языки. При этом Speechtotext стабильно выпускает обновления для улучшения сервиса. Кроме того, здесь предусмотрена служба поддержки, которая помогает пользователям решать проблемы с платформой.

Отличие транскрибации от смежных направлений

По сути, транскрибатор работает с текстом, набирая его на клавиатуре или внося правки в текст, который ему выдает программа по транскрибации. Но есть и другие профессии, которые напрямую связаны с текстом, их не нужно путать друг с другом.

Наборщик текста – этот человек, который перепечатывает текст с фотографий и  сканов документов, записей, сделанных вручную, архивных материалов. В онлайн-образовании это могут быть, например, фотографии договоров, отсканированные страницы книг и учебных программ. Когда у владельца онлайн-школы нет времени или желания набирать текст самому, то он может делегировать эту задачу наборщику текста.

Рерайтер – он работает с SEO показателями текста и сервисами уникальности. Смысл профессии в том, что специалисту даются несколько готовых текстов из интернета, и на основе этого материала он должен написать свой текст, который будет отвечать требованиям уникальности, например, не менее 90%. У владельцев онлайн-школ есть сайты проекта, куда они размещают контент. В интернете запрещено размещать чьи-либо материалы без разрешения автора, иначе сайт могут заблокировать, и дело может дойти до суда. Чтобы исключить вероятность плагиата, владельцы онлайн-школ пользуются услугами рерайтера (чаще всего, это написание статей на тему из ТЗ).

Копирайтер – эта профессия пересекается с рерайтом, но она значительно шире. Копирайтер – это творческий человек, который пишет собственный текст, что называется «из головы». Владельцы онлайн-школ обращаются к нему за написанием текстовой рекламы, сценария для видеоролика, поста для соцсетей, промо и анонсов и т.д.

Таким образом, каждая из названных профессий имеет свои особенности и отличается от профессии транскрибатора.

Бесплатная технология распознавания речи от VК

Крупнейшая российская соцсеть предоставляет бесплатную услугу расшифровки речи с помощью технологии ASR на базе нейросетей. В ВК технология Automatic Speech Recognition используется для распознавания голосовых и генерации субтитров. Интересно, что можно выбрать тип речи: спонтанная — живая речь со сленгом, нецензурной лексикой и междометиями, нейтральная — разборчивая, более формальная речь, как в подкасте или на ТВ. В сутки можно транскрибировать до 100 минут. 

Функционал:

  • расшифровка готовых аудио- и видеозаписей в текст;
  • транскрибация речи в режиме реального времени;
  • выбор стиля речи: спонтанная или нейтральная;
  • удаление шумов и пауз;
  • автоматические расставление знаков препинания и деление текста на предложения;
  • понимает сленг и неразборчивую речь.

Стоимость: бесплатно.

Способ 3. Speechpad.ru

Это онлайн блокнот, позволяющий переводить речь в текст. Работать можно как с регистрацией, так и без. Зарегистрированные пользователи могут сохранять сформированные тексты в упорядоченном виде, настраивать интерфейс блокнота, использовать голосовые команды. Приятно, что разработчики записали подробную инструкцию по голосовому вводу текста, которая находится прямо на главной странице сайта:

А с помощью кнопки «Транскрибация» можно записать текст с аудио, видеофайлов или с Youtube-хостинга.

Плюсы блокнота:

  • работа и с микрофоном, и с медиа файлами
  • набор текста происходит синхронно диктовке, поэтому правки в текст можно вносить сразу
  • сохранение готового текста в файл

Минус

пользователи отметили лишь один, и он несущественный — корректно блокнот работает только в браузере Google Chrome.

Рассмотрим транскрибацию видеоролика с Youtube.

Шаг 1. В строке поиска вводим speechpad.ru и попадаем на главную страницу блокнота.

Шаг 2. Прокрутив страницу до конца, нажимаем кнопку «+Транскрибацию».

Шаг 3. В открывшейся панели транскрибации отмечаем медиа тип «Youtube video»

Шаг 4. В поле «ID файла для проигрывания» вносим ID того ролика, который хотим транскрибировать.

ID ролика находится в адресной строке Youtube после знака «=».

Нажимаем кнопку «Обновить».

Шаг 5. Включаем воспроизведение видео и нажимаем кнопку «Включить запись»

Шаг 6. Проверяем текст, исправляем ошибки. Кнопка «Скачать» позволяет сохранить результат в формате текстового документа.

Что такое транскрибация и как она выполняется

Процесс транскрибации подразумевает под собой восприятие аудиоконтента и его последующее преобразование в текст. Причем необходимо преобразование слово в слово. 

Эта методика используется в профессиональной деятельности, например, когда нужно подготовить отчет о прошедшей встрече, интервью или онлайн-конференции в Zoom в текстовом виде, если необходимы субтитры к лекции для более удобного восприятия или же при адаптации материалов для людей с нарушениями слуха. 

Раньше для упрощения этой процедуры готовили специалистов-стенографов, которые с помощью особых методик сокращения текста могли, не отставая от говорящего, перевести в текст каждое его слово. Сейчас же этим чаще занимаются не в реальном времени, а в записи, и на помощь приходит продвинутое программное обеспечение. Отсюда и новая профессия – расшифровщик, транскрибатор или транскрайбер, как вам угодно. Но о ней поговорим позже.

Автоматическая транскрибация

Почти любое мобильное устройство или компьютер позволяет автоматизировать транскрибацию. Можно просто включить диктовку на Айфоне, и гаджет трансформирует всю услышанную речь в буквы. Крупные корпорации в духе Google и Яндекс задействуют нейросети, чтобы анализировать речь людей в аудио- или видеофайлах и превращать их в текст. 

Проблема такого метода в том, что без продвинутого ИИ не получится соблюсти правила грамматики и четко разграничить речь двух, трех и более людей. Поэтому автоматизировать процесс полностью куда сложнее, и для этого обычной телефонной «диктовки» не хватит. Понадобится более продвинутое и платное ПО, но и оно может не справиться, если исходная запись имеет плохое качество с тяжело распознаваемой речью.

Ручная расшифровка

Это та, в которой задействован человек. Сидит сотрудник, обученный для работы с устной речью, и превращает ее в текст, прослушивая записи различного качества.

Человек нужен в большинстве случаев, так как работать чаще приходится с записями низкого качества. Компьютер ошибается при попытке правильно распознать искаженную артефактами речь. А человек, ввиду более абстрактного мышления, может додумать фразу из контекста или попросту нормально расслышать то, что не может расслышать ИИ. 

Транскрибаторы получают за свой труд оплату. Это отдельная профессия, пользующаяся спросом в интернете среди тех, кто хочет зарабатывать, не покидая квартиры. То есть для начинающих фрилансеров. 

Комьюнити теперь в Телеграм

Подпишитесь и будьте в курсе последних IT-новостей

Подписаться

2 лучших плеера для транскрибатора

Если не брать в расчет сервисы распознавания речи, у которых пока скорее больше минусов, чем плюсов для специалиста-транскрибатора, можно значительно оптимизировать свою работу, используя удобные программы.

При переводе голоса в текстовый формат нужны удобный плеер и текстовый редактор.

Если с текстовыми редакторами все более-менее очевидно – Word и его бесплатные аналоги пока вне конкуренции, то с плеерами вопрос открыт.

Бесплатные плееры можно скачать в сети и опытным путем решить, с каким работать удобнее. Остановимся на функциях плеера, которые значительно упростят работу транскрибатора.

  • Поддержка разнообразных видео- и аудиоформатов. Заказчики присылают файлы во всех возможных существующих форматах. Удобно, когда не нужно колдовать над ними, переводя в тот, который поддерживает ваш плеер.
  • Эквалайзер. Может пригодиться для выделения того звукового сигнала, с которым вы работаете, ослабляя шумы, посторонние звуки и проч.
  • Регулировка скорости воспроизведения. Очень полезная функция. Если качество исходного материала хорошее, а ваша скорость печати высокая, то уменьшив скорость воспроизведения, можно набирать текст практически синхронно с говорящим.
  • Настройка глобальных горячих клавиш. Это незаменимая функция для транскрибатора. Такие клавиши работают независимо от того, какое приложение активно, вам не нужно переключаться между текстовым редактором и плеером, чтобы нажать паузу, отмотать назад или сделать погромче.

Среди дешифровщиков популярен плеер, созданный русскоговорящими транскрибаторами для своей работы. Автор этого продукта – Дмитрий Дворкин. Очень рекомендую его сайт dvorkin.by, на котором можно узнать много полезных примочек профессионального транскрибатора.

LossPlay

Плеер для расшифровки голоса. Удобный инструмент, в котором собраны все нужные функции для транскрибации, он обладает уникальной и очень полезной фишкой – автоматической вставкой тайм-кода (цифрового сигнала с указанием точного времени записи).

Среди преимуществ этого плеера целый ряд возможностей:

  • поддержка многих форматов аудио- и видеозаписей;
  • возможность индивидуальной настройки глобальных горячих клавиш;
  • 4 отдельных плейлиста с закладками и возможностью переключения между ними;
  • замедление и ускорение записи, при этом звук не ухудшается;
  • управление плеером без выхода из текстового редактора;
  • плеер создавался под работу в текстовом редакторе Word, поэтому корректно работает с ним в связке.

Конечно, это не все преимущества программы – она мало весит, быстро запускается на компьютере и при всех своих достоинствах еще и бесплатна. Авторы предусмотрели возможность добровольного пожертвования, но это на усмотрение пользователя.

Бесплатно скачать плеер LossPlay можно на сайте автора.

Программа популярна, поэтому по работе в ней много уроков, инструкций и мастер-классов в интернете.

Express Scribe

Еще одна программа, наиболее часто используемая транскрибаторами.

Это плеер, совмещенный с текстовым редактором Word, так авторы решили проблему лишних движений при переключении между программами, раскрытыми в разных окнах. Правда, проверка грамотности здесь не работает.

Если вам необходима эта функция, то придется скопировать текст в полноценный Word и там уже использовать привычный инструмент.

Внимание! Если вы случайно удалите текст в плеере, то он нигде не сохранится. Это может стать причиной сильного нервного потрясения. Будьте бдительны!

Будьте бдительны!

Плеер создан иностранными специалистами и не имеет русскоязычного интерфейса, но разобраться в настройках легко, рабочее пространство программы интуитивно понятно даже новичку.

Преимущества Express Scribe:

  • возможность набирать текст непосредственно в плеере;
  • настройка горячих клавиш воспроизведения, перемотки и остановки записи, по умолчанию работают клавиши:
  • возможность проставлять закладки в нужных местах аудиофайла;
  • мини-формат Scribe Mini, с которым можно работать прямо в Word;
  • помощь в улучшении качества звука – снижение фонового шума, увеличение громкости голоса, фильтрация высоких частот;
  • для решивших профессионально заниматься транскрибацией программа совместима со специальным оборудованием – ножной педалью.

Из-за популярности программы к ней составлена масса инструкций и видеоуроков, которые легко найти в интернете.

Сам плеер можно бесплатно скачать на сайте разработчика.

Бесплатная версия не поддерживает видеофайлы. Перед работой вам придется извлечь звуковую дорожку с помощью специальных программ, например Freemake Video Converter.

Как сделать транскрибацию видео и аудио в текст

Существует три способа перевести аудио в текст:

  1. Автоматическое распознавание программами. Специальные онлайн-сервисы и программы, которые позволяют загрузить аудиофайл и получить на выходе его текстовую версию. Готовый результат нуждается в дополнительной доработке: исправить ошибки, расставить знаки препинания, разбить на предложения и абзацы. Но скорость работы увеличится в несколько раз. Есть платные и бесплатные программы для распознавания, часть из них рассмотрена ниже.
  2. Голосовой набор текста. Пользователи с низкой скоростью набора текста могут воспользоваться специальными программами для надиктовки текста. Включите наушники, поставьте невысокую скорость воспроизведения аудио, и в микрофон повторяйте фразы диктора. Говорите громко, четко, сразу проставляйте знаки препинания и новые строки. Иногда стоит остановиться и подождать программу. Набирать текст голосом можно даже в Google Docs – в нем есть подобная функция.
  3. Профессиональный ручной набор текста. Используйте специальные плееры для воспроизведения аудио и видео, чтобы горячими клавишами запускать, останавливать и возвращаться на пару секунд назад. Слушайте голос и быстро набирайте текст на клавиатуре. При необходимости можно немного замедлить скорость воспроизведения, чтобы успевать за скоростью диктора.

При любом варианте набора текста всегда перечитывайте и перепроверяйте текст. Займет некоторое время, зато заказчик не оставит негативный отзыв из-за ошибок и опечаток.

Недостатки автоматического перевода речи в текст

Главная проблема машинного перевода — несовершенство алгоритмов анализа. Пока даже хорошие языковые модели допускают ошибки и пишут не те слова. Обычно такое происходит, когда:

  • Говорящий имеет заметные дефекты речи, из-за чего произношение сильно отличается от эталонного.

  • Запись имеет плохое качество: сильные хрипы, много постороннего шума, которые не позволяют вычленить речь и разделить её на отдельные звуки.

  • Человек использует незнакомые слова. Например, метафоры, нераспространённые термины, которые ИИ не знает. Такое особенно часто происходит во время интервью с экспертами.

В большинстве случаев промах со словом не станет проблемой, читатель исправит ошибки и поймёт мысль. Однако в сложных нишах опечатки в тексте способны кардинально изменить смысл.

Пока на 100% доверять автоматическим сервисам нельзя. Если есть фоновый шум, частота ошибок увеличивается до 40–70% в зависимости от качества записи. При этом у ИИ нет механизмов самопроверки. Единственный способ устранить ошибки распознавания речи — привлечение редактора или самого спикера, которые исправят статью.

На графике представлены результаты проверки точности 10 транскрибаторов. Основная метрика — Word Error Rate (WER) — процент неправильно распознанных слов.

На нём синяя линия — это идеальное соотношение WER и уверенности ИИ.

Предполагается, что если ИИ уверен в результате на 80%, то WER должен быть 20%. Однако большинство инструментов не соответствует этому требованию. Исследователи обнаружили, что ИИ ошибается слишком часто и при этом имеет высокую уверенность в результате. Только AssemblyAI показывает идеальное соотношение. У Whisper и Microsoft всё наоборот: при низкой уверенности они допускают меньше ошибок.

Этот график показывает, что технология ещё недостаточно хорошо развита. Даже сервисы, созданные корпорациями, далеки от идеала. Поэтому при внедрении транскрибатора для обработки аудио учитывайте возможные погрешности и вручную корректируйте результаты, если требуется 100%-я точность перевода.

Удаленная транскрибация, стоит ли ей заниматься?

Новичкам может показаться, что перевод звука в текст – это
простая работа. Однако, перед тем как искать заказы, стоит взвесить все за и
против. У такой деятельности полно отрицательных моментов:

  • Огромная конкуренция.
  • Низкая оплата.
  • Незначительный карьерный рост.
  • Постоянный поиск заказов.
  • Монотонная и скучная работа.

Да, удается начать удаленную работу без вложений и особых
знаний. Если повезет, то встретишь постоянного клиента, который обеспечит тебя
заказами. Только не всех устроит доход. Чтобы перепечатать час видеоролика, мне
потребовалось почти 5 часов, а оплата вышла меньше 1000 рублей.

ОБЩИЕ ПОНЯТИЯ О ТРАНСКРИБАЦИИ

Рассказать о ней в
«двух словах» проще «пареной репы», но результата от такого рассказа вы не
получите. Поэтому, я расскажу о транскрибации много, но, по существу.

Транскрибация — это
перевод аудио или видео форматов в текст. Чем-то отдалённо напоминает
стенографию. В настоящее время услуга очень востребована.

Транскрибация делится
на три вида:

Первый – это просто
голос.

Например, журналист
наговаривает себе на диктофон запись или студент записывает на диктофон лекцию,
которую впоследствии нужно будет перевести в текст.

Если есть возможность
подключить к микрофону программу для автоматической транскрибации, то тогда она
будет сразу же переводить голос в текст, который после небольшой правки будет
полностью готов к дальнейшему использованию.

Но если такой
возможности нет, то тогда используют сначала диктофон, а потом с диктофона
через микрофон наговаривают текст с использованием программы. Используется этот
вид довольно редко и у заказчиков особой популярностью не пользуется.

Второй – аудиофайлы.

Они позволяют
производить расшифровку полностью или частично, в зависимости от качества
аудиозаписи. После некоторой правки результат можно сразу отправлять заказчику.

Огромный плюс этого
вида — все программы по автоматической или полуавтоматической транскрибации
имеют широкий набор типов аудиофайлов и расширений.

Но имеются и минусы:
не видно действий, места, времени, количество участников, событий. Совершенно
непонятна суть происходящего.

Если запись чёткая, то
ещё полбеды, а если плохая, да к тому с несколькими участниками, то над
переводом придётся изрядно попотеть.

Третий – видеофайлы.

Начну сразу с плюсов.
При плохой записи звука, можно без труда догадаться о сути происходящих
событий, по артикуляции и жестикуляции действий героев.

Но один серьёзный
недостаток сразу портит всю картину — не все программы для автоматической
транскрибации имеют возможность принимать видеофайлы.

В большинстве случаев
требуется разделять файлы на два отдельных формата: аудио и видео, т.е.
разделять дорожки, а это уже дополнительная проблема, так как для этого
требуется дополнительное время.

От того, в каком
формате получен первоначальный файл от заказчика и в каком виде его нужно
предоставить ему обратно зависит:

  1. Объём выполняемой работы.
  2. Время, потраченное на его выполнение.
  3. Уровень сложности.
  4. Требование к корректуре.
  5. Ваше итоговое вознаграждение.

Иногда, корректировка
текста может занимать гораздо больше времени, чем непосредственная расшифровка
самой записи.

Рассмотрим три
основных формата корректировки:

Без корректуры, т.е. сразу после расшифровки файла программой текст «один в
один» передаётся заказчику. Этот вид считается самым простым, поэтому и
оплачивается очень дёшево.

Для примера, возьмём
первый попавшийся ролик на Ютуб.

Помимо видео просмотра
в любой момент можно посмотреть текст. Для этого достаточно нажать на (1),
далее на (2) и тут же открывается сам текст (3).

Базовая корректировка, т.е. требуется привести текст к читабельному виду:
строчки должны быть расположены на всю ширину листа и проставлены все
необходимые знаки препинания. Для выполнений такой корректировки нужно
потратить n-е количество времени, следовательно, оплата уже идёт выше, чем за
«голую» расшифровку.

Улучшенная корректировка, т.е. требуется добавить форматирование. Какое
именно, заказчик указывает сам. Это могут быть заголовки, шрифты, таблицы,
абзацы и т.д. Соответственно и стоимость за этот формат самая высокая.

Называться эти форматы
могут, абсолютно, по-разному, поэтому очень важно уточнять у заказчика
скрупулёзно все детали, вплоть до самых незначительных мелочей. Если изначально упустить этот
момент из виду, то придётся переделывать работу до «колючих ёжиков». Ведь,
исходя из объёма и сложности работы, зависит окончательная цена

Ведь,
исходя из объёма и сложности работы, зависит окончательная цена

Если изначально упустить этот
момент из виду, то придётся переделывать работу до «колючих ёжиков». Ведь,
исходя из объёма и сложности работы, зависит окончательная цена.

Очень часто заказчики
пытаются обмануть своих исполнителей, не договаривая того, что они хотят
получить в итоге, а потом просто не оплачивают работу до тех пор, пока не
выполнишь все их требования.

Например, вы в «общих
чертах» договорились с заказчиком о базовой корректировки текста, а он стал
требовать от вас, за те же деньги, с форматированием. И так бывает «часто и
густо».

Так что будьте
внимательны.

Программы, которые помогут увеличить заработок транскрибатора

Облегчают и ускоряют транскрибацию текста специальные программы в помощь транскрибатору. Рассмотрим основные.

Express Scribe

Основные полезные функции — возможность уменьшать скорость воспроизведения текста и отматывать запись с помощью залипаюших клавиш. Последняя позволяет тратить меньше времени, чем при кликании мышкой в плеере.

Transcriber-pro

Набор полезных функций:

  • горячие клавиши управления плеером;
  • возможность вставлять в траскрибируемый текст имена собеседников и именные метки;
  • функция автотекста;
  • набор специальных меток, которые позволяют делать корректуру текста, не прослушивая запись повторно.

Минус — программа платная. Впрочем, годовая лицензия в 2019 году стоит 640 рублей.

LossPlay

  • Плеер, который команда разработчиков создала специально для транскрибации текста.
  • Максимально адаптирован к работе с MsWord. Система горячих клавиш позволяет работать, не переключаясь между окнами, а в настойках ввода можно предусмотреть основные вордовские шрифты.
  • Можно вставлять тайм-коды и совмещать вставку их и текста одним нажатием клавиши.
  • Занимает немного места на жёстком диске компьютера.

Если возникнут сложности в работе, можно посмотреть бесплатный курс видеоуроков.

VOCO

Программа для автоматического распознавания речи и преобразования в печатный текст. В версиях Voco.Professional и Voco.Enterprise предусмотрена возможность работы с аудиофайлами.

Как заверяет производитель, словарный запас программы — 85 тысяч слов, предусмотрена возможность его расширения. Для этого надо указать документы, которые послужат источником недостающей лексики. Другие особенности:

  • При распознавании аудиофайлов автоматически расставляет знаки препинания.
  • Программа платная.
  • Производитель заверяет, что с помощью программы аудио трансформируется в текст в 1,5–2 раза быстрее, чем при расшифровке записи вручную.

Но полагаться на умную программу целиком не стоит. По завершении работы сверка с записью и корректура обязательны, а это всё равно время.

RealSpeker

Ещё одна программа — распознаватель текста, способная работать с любым онлайн или оффлайн текстовым редактором.

Среди полезных функций:

  • начало и завершение распознавания по команде голосом;
  • голосовые команды редактирования текста и знаков препинания;
  • возможность фильтрации неверных результатов;
  • автоматический переключатель заглавных букв.

Но, как и за любым распознавателем, нужен глаз да глаз, что и не позволяет откзаться от участия человека в транскрибации.

Понравилась статья? Поделиться с друзьями:
Бизнес-Триатлон
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: