Cada vez mais nos comunicamos com gadgets por voz. Assistentes familiares como Alexa e Siri se juntaram a interfaces de voz no carro Apple CarPlay e Android Auto. Existem até aplicativos que são sensíveis à biometria de voz. E se você também criar novos produtos usando comandos de voz?
Este poderia ser o ponto de partida para a programação de voz, uma abordagem para o desenvolvimento de software em que os desenvolvedores usam sua voz para escrever código em vez de teclado e mouse. Os comandos que eles emitem são usados para manipular o código e criar novos comandos que mantêm e automatizam o fluxo de trabalho.
A programação de voz não é tão fácil quanto pode parecer. Existe uma complexa tecnologia de múltiplas camadas por trás disso. O aplicativo de codificação de voz Serenade tem um mecanismo de reconhecimento de voz dedicado integrado. Ele trabalha com código, e esta é sua principal diferença em relação à soluçãoGoogle, que reconhece a linguagem falada. Assim que o programador fala o texto do programa, o Serenade o passa para o mecanismo de processamento de linguagem natural (PNL). Seus modelos de aprendizado de máquina são treinados para detectar e traduzir tokens de programação comuns em código sintaticamente correto.
Em 2020, a Serenade arrecadou US $ 2,1 milhões em uma rodada de sementes . A empresa apareceu um ano antes, quando seu fundador foi diagnosticado com a síndrome do túnel:
« Quora . : , , .»
— Serenade
Em 2017, Ryan Heilman também deixou o emprego de programador devido a dores nos braços e começou a construir a Talon , uma plataforma de digitação sem teclado. “A ideia por trás do Talon é substituir completamente o teclado e o mouse para todos”, diz ele.
O Talon inclui vários componentes: reconhecimento de voz, rastreamento ocular e reconhecimento de ruído. A transcrição de fala do Talon é baseada na API Wav2letter do Facebook, à qual Heilman adicionou comandos para gerar código. O rastreamento ocular e a detecção de ruído permitem simular a operação do mouse. Os olhos movem o cursor pela tela e os cliques acontecem quando o usuário clica na língua:
“Esse som é fácil de reproduzir. É fácil e reconhecível sem demora, por isso é uma maneira rápida e não verbal de clicar com o mouse que não causa estresse vocal. ”
- Criador do Talon, Ryan Heilman
Em 2019, Emily Shea mostrou como é trabalhar na Talon. Visto de fora, a programação neste ambiente soa como uma conversa em uma língua estrangeira. O vídeo é preenchido com comandos de voz como "tapa" (pressione Enter), "desfazer" (excluir), "primavera 3" (vá para a terceira linha do arquivo) e "nome da frase op é igual a cobra extrair palavra paren mad" ( que deve criar esta linha de código: name = extract_word (m)).
Programar no Serenade é mais natural. Você pode dizer "delete import" para remover a instrução import na parte superior do arquivo ou "build" para iniciar uma compilação. Você também pode dizer "adicionar fatorial de função" para criar uma função que calcula fatorial em JavaScript. O aplicativo cuida da sintaxe - incluindo a palavra-chave "função", parênteses e chaves - para que você não precise pronunciar todos os elementos.
Os modelos Serenade são treinados para trabalhar com o som de um microfone de laptop. Idealmente, no entanto, você precisa de um bom microfone para ajudar a eliminar ruídos de fundo desnecessários.
Se você planeja trabalhar com o Talon e usar o rastreamento ocular, precisará de um equipamento especial, embora o ambiente funcione bem sem ele. Plataformas de reconhecimento de voz de código aberto como Aenea e Caster são gratuitas, mas movidas pelo mecanismo Dragon , que é vendido separadamente. No entanto, Caster suporta a ferramenta de reconhecimento de fala de código aberto Kaldi e Windows Speech Recognition, que são pré-instalados no Windows.
Os resultados falam por si:
"Descrever em palavras o que você quer fazer é muito mais fácil do que usar o teclado: basta dizer 'mover essas três linhas para baixo' ou 'duplicar este método'."
- Co-fundador do Serenade Labs, Tommy McWilliam
A programação de fala permite que pessoas com lesões ou doenças crônicas continuem a trabalhar em sua área favorita. “A capacidade de usar a voz e remover as mãos do circuito de equação tornou mais fácil controlar o computador”, diz Emily Shea. Além disso, a programação de voz diminuirá a barreira de entrada no desenvolvimento de software.
"Se as pessoas puderem pensar sobre um programa de maneira lógica e compreensível, o aprendizado de máquina pode assumir a tarefa de transformar os pensamentos de uma pessoa em código sintaticamente correto."
- Co-fundador do Serenade Labs, Tommy McWilliam
A programação de fala ainda está em sua infância. Sua ampla adoção depende de quão difícil será para os engenheiros de software abandonar o teclado e o mouse. A codificação sem esses dispositivos também abre possibilidades para as interfaces cérebro-computador transformarem os pensamentos humanos em código ou mesmo em software de prateleira.