[CULTURA DIGITAL] Voz, a próxima fronteira da disrupção tecnológica?

Relegado a uma posição obscura no começo da revolução tech, o som se torna a próxima etapa de um processo que está amalgamando nossa existência com as ferramentas online: a palavra.

Alexandre Adoglio

6 min

Relegado a uma posição obscura no começo da revolução tech, o som se torna a próxima etapa de um processo que está amalgamando nossa existência com as ferramentas online: a palavra.

No princípio era o Verbo, e o Verbo estava com Deus, e o Verbo era Deus. Ele estava no princípio com Deus. Todas as coisas foram feitas por ele, e sem ele nada do que foi feito se fez. João 1:1-3

Com esta abertura no primeiro capítulo do Evangelho de João, extraído do livro mais lido de todos os tempos, temos a narração do evangelista retomando o tema da criação do mundo, também mencionado no início do livro de Gênesis 1.3: “Disse Deus: "Haja luz", e houve luz.”

Milênios depois, a tecnologia digital criada pela humanidade como sendo a próxima etapa da nossa evolução volta seus olhos para uma das maiores virtudes do nosso aparato biológico: a voz. Tendo sido relegado a uma posição obscura no começo da revolução tech, que priorizou o sentido da visão como usabilidade ao usuário, o som proferido por nosso aparelho vocal se torna a próxima etapa de um processo que está amalgamando nossa existência com as ferramentas online: a palavra.

Steve Jobs, ao apresentar o iPhone em 2007, favoreceu o uso de dedos nas telas sensíveis ao toque como a melhor forma de se conectar aos smartphones e tudo mais que estava por vir. Mas com a ascensão do lar como centro de controle da economia conectada, até mesmo tocar em uma tela pode ficar desatualizado em favor de consumidores que usam suas vozes. De acordo com uma pesquisa sobre Economia Conectada no mundo, 26% dos consumidores possuem um dispositivo com um assistente controlado por voz e 30% criaram listas de compras usando dispositivos ativados por voz.

VOICE CONTROL, BEGINNING

Embora pareça que o reconhecimento e o controle de voz sejam uma tecnologia nova, ela está em desenvolvimento desde meados do século XX. Somente nos últimos cinco a oito anos a tecnologia de reconhecimento de voz ganhou apelo de massa. No entanto, nem é preciso dizer que o reconhecimento de voz percorreu um longo caminho antes de chegar aonde está hoje.

O caminho para o reconhecimento de voz começou com um sistema chamado Audrey, criado pela Bell Laboratories em 1952, que era bastante rudimentar e capaz de entender apenas números falados por pessoas específicas. Uma década depois, veio a máquina Shoebox da IBM, que conseguia entender 16 palavras faladas apenas em inglês por um palestrante designado. Essas limitações provaram ser problemáticas para o pleno desenvolvimento desta tecnologia e só aumentaram os céticos que se opunham ao reconhecimento de voz como um novo padrão para a indústria.

A partir da década de 1950 ocorreram novas abordagens para o reconhecimento de voz que pouco fizeram para o avanço do software. No entanto, no início dos anos 1980, surgiu o Modelo Oculto de Markov (HMM), uma nova abordagem estatística que alterou drasticamente o desenvolvimento de um software de reconhecimento de voz que fosse viável. Por meio do HMM, o reconhecimento de voz passou do uso de modelos para a compreensão de palavras para um método estatístico que mede a probabilidade de sons desconhecidos serem palavras. Isso permitiu que o número de palavras compreensíveis passasse de algumas centenas para alguns milhares, tornando possível um número ilimitado de palavras para o futuro.

Em 1990, vimos o lançamento do primeiro produto de reconhecimento de voz para o consumidor: Dragon Dictate, com preço de US$ 9.000 (US$ 20.000 atuais). Depois disso, seu sucessor Dragon Naturally Speaking, lançado em 1997, foi o primeiro programa de reconhecimento de voz comercial que conseguia entender a fala natural de até 100 palavras por minuto. Em 1997 vimos o lançamento do VAL da BellSouth, o primeiro "portal de voz". VAL era um sistema interativo que podia responder a perguntas por telefone, estabelecendo as bases para a mesma tecnologia que alimenta os menus ativados por voz que você ouve hoje ao ligar para seu banco ou ISP.

Mas depois de mais de 40 anos de avanço na tecnologia de reconhecimento de voz, os desenvolvimentos no campo estagnaram até o final dos anos 2000. Na época, os programas de reconhecimento de voz atingiram um teto de cerca de 80% de precisão no reconhecimento de palavras faladas. Mas foi só no final de 2010 que a tecnologia chegou às mãos do público, quando inovação em hardware e software estavam em um lugar que fazia sentido para as empresas disponibilizarem a tecnologia de voz para o mercado de massa.

Com o número de usuários de smartphones crescendo, foi com o lançamento do primeiro iPhone da Apple em 2008 que o Google começou ver sentindo em desenvolver um aplicativo de busca por voz, utilizando dados para aprimorar sua tecnologia de gravação a partir dos bilhões de consultas de pesquisa que recebia, a fim de prever melhor o que você provavelmente estava dizendo.

Os smartphones provaram ser o campo de prova ideal para a nova onda de tecnologia de reconhecimento de voz. A voz é simplesmente um método de entrada mais fácil e eficiente em dispositivos com telas e teclados tão pequenos, o que incentivou o desenvolvimento da tecnologia mãos livres. Ainda mais significativo, os princípios de design que o Google estabeleceu com a pesquisa por voz em 2008 continuam a definir a tecnologia de reconhecimento de voz até hoje: o poder de processamento necessário para o reconhecimento de voz pode ser descarregado para os data centers em nuvem, permitindo a escalabilidade de alto volume de dados com uma análise capaz de armazenar padrões de fala humana e combinar palavras com precisão.

A abordagem do Google foi então aperfeiçoada pela Apple em 2011 com o lançamento do Siri, uma tecnologia de assistente pessoal baseada em IA que também depende da computação em nuvem para prever o que você está dizendo. Em muitos aspectos, o Siri é um excelente exemplo de como a Apple fez o que faz de melhor: pegando a tecnologia existente e aplicando um bom perfume nela. A interface fácil de usar da Siri combinada com sua "personalidade" brilhante e o marketing especializado da Apple para o iPhone ajudaram a tornar o programa quase onipresente

Continue lendo aqui

Learn

Support

More Options