запустить программу, вывести фрагмент текста и сгенерировать временные отрезки для субтитров или транскрипции:
... но было бы безрассудно оставить ее в покое и позволить ей транскрибировать без второго сканирования человеком для выявления ошибок. Я был там, и был там.
Я видел, как окончательная транскрипция отлично справляется с правильной расстановкой заглавных букв в именах, странной и непонятной пунктуацией и разбиением абзацев. Я также видел, как она испортила мой нью-йоркский акцент и недвусмысленные фразы, а также ужасно угадала мое придуманное слово «Cowicature». Алгоритм работает хорошо, но есть исключения.
Здесь мы подходим к фразе, с которой я привык, которая является другим способом сказать, что ИИ — это «алгоритмическая интенсивность». Потребность людей в том, чтобы давать машинам жизнь и волю, стара; но большинство людей, которые видели код, стоящий за механизмами, согласятся, что это просто код. Единственное отличие в том, что объем вычислительной мощности и данных, доступных для получения результатов сегодня, намного база данных линий больше того, что люди считали недостижимым десять или два года назад.
И скорость не имеет себе равных — Whisper потребовалось около четырех часов, чтобы полностью расшифровать пять лет моих еженедельных подкастов, и это заняло так много времени только потому, что это было установлено как низкоприоритетная операция в системе очередей. Немного сложно сказать, сколько времени заняли все мои загруженные подкасты в этой коллекции, но моя предварительная оценка такова, что это эквивалентно двум с половиной полным дням моих разговоров о технологиях и эмоциях, от программирования и компиляторов до летнего лагеря и семьи. Я могу вам обещать одно — я не буду расшифровывать эти подкасты в ближайшее время и не буду просить кого-то другого делать это. Хотя я горжусь своей работой, у меня нет навыков, чтобы записать четыре подкаста за месяц и создать из них несколько абзацев текста.
Или, если на то пошло, описательные резюме.
Это заставило меня задуматься о недавних текущих улучшениях в инструментах и средах для анализа отснятого материала с помощью алгоритмов. Я начал использовать большую языковую модель, чтобы просматривать сгенерированные транскрипции и создавать резюме заданных эпизодов подкаста.
Универсальный алгоритмический доступ к силе находится в разработке уже более двух лет, но это все еще очень грубая, причудливая попытка колдовства. Мой запрос читается не как просьба «резюмировать этот текст», а скорее как текст директора школы или игры Dungeons & Dragons: