Estudos de movimento ocular para melhorar a saúde e acessibilidade

imagem




Um exemplo de rastreamento ocular para um participante sem fadiga (esquerda) e com fadiga mental (direita) ao rastrear um objeto seguindo um caminho circular.



O movimento dos olhos é amplamente estudado por profissionais de visão , linguagem e usabilidadedesde os anos 1970. Além da pesquisa básica, uma melhor compreensão do movimento dos olhos pode ser útil em uma ampla variedade de aplicações, incluindo pesquisa de usabilidade e experiência do usuário, jogos, direção e interações baseadas no olhar para acessibilidade à saúde. No entanto, o progresso foi limitado porque a maioria das pesquisas anteriores se concentrou em rastreadores oculares de hardware especializados que eram caros e difíceis de escalar.



Em «a pesquisa acelerando o movimento ocular Via um rastreamento ocular preciso e acessível de um smartphone» , publicado na Nature Communications , e « o Digital um biomarcador de mental, não fadiga », publicado em npj Digital Medicine , estamos introduzindo o rastreamento ocular preciso do smartphone e o aprendizado de máquina que tem o potencial de desbloquear novas pesquisas de aplicativos nas áreas de visão, acessibilidade, saúde e bem-estar, ao mesmo tempo em que permite escalabilidade para diferentes populações em todo o mundo, todos com o uso câmera frontal em seu smartphone. Também estamos discutindo o uso potencial dessa tecnologia como um biomarcador digital para fadiga mental, que pode ser útil para melhorar o bem-estar.



Visão geral do modelo



O núcleo do nosso modelo de olhar era uma rede neural convolucional multicamadas feed-forward (ConvNet) treinada no conjunto de dados MIT GazeCapture . O algoritmo de detecção de rosto selecionou uma área do rosto com pontos de referência correspondentes nos cantos dos olhos, que foram usados ​​para cortar imagens apenas na área dos olhos. Esses quadros cortados foram passados ​​por duas torres ConvNet idênticas com o mesmo peso. Cada camada convolucional foi seguida por uma camada intermediária de fusão . Os marcos nos cantos dos olhos foram mesclados com a saída das duas torres por meio de camadas totalmente conectadas. Unidades lineares endireitadas (ReLU) foi usado para todas as camadas, exceto o último nível de saída totalmente conectado (FC6), que não foi ativado.



imagem




A arquitetura do modelo de olhar não personalizado. As áreas dos olhos extraídas da imagem da câmera frontal servem como entrada para a rede neural convolucional. Camadas totalmente vinculadas (FC) combinam a saída com pontos de referência nos cantos do olho para gerar as coordenadas X e Y na tela por meio da camada de saída de regressão múltipla.



A precisão do modelo de olhar não personalizado foi aprimorada por meio de ajuste fino e personalização para cada participante. Para o último, um modelo de regressão leve foi ajustado à penúltima camada do modelo ReLU e dados para um participante específico.



Avaliação de modelo



Para avaliar o modelo, coletamos dados de participantes concordantes do estudo quando eles viram pontos que apareceram em locais aleatórios em uma tela em branco. O erro do modelo foi calculado como a distância (em cm) entre o local do estímulo e a previsão do modelo. Os resultados mostram que, embora o modelo não personalizado tenha uma alta margem de erro, a personalização com ~ 30 segundos de dados de calibração resultou em uma redução de mais de quatro vezes no erro (de 1,92 cm para 0,46 cm). Com uma distância de visualização de 25–40 cm, isso corresponde a uma precisão de 0,6–1 °, que é uma melhoria significativa em relação aos 2,4–3 ° relatados em trabalhos anteriores [1, 2].



Experimentos adicionais mostram que a precisão do modelo do rastreador ocular do smartphone é comparável à precisão dos rastreadores oculares modernos, tanto quando o telefone é colocado no suporte do dispositivo, quanto quando os usuários seguram livremente o telefone em suas mãos quase na frente do sua cabeça. Ao contrário do equipamento de rastreamento ocular especializado com múltiplas câmeras infravermelhas perto de cada olho, lançar nosso modelo usando uma única câmera RGB frontal em um smartphone é significativamente mais econômico (cerca de 100 vezes mais barato) e mais escalonável.



Usando esta tecnologia de smartphone, fomos capazes de replicar as principais descobertas de pesquisas anteriores do movimento ocular em neurociência e psicologia, incluindo tarefas oculomotoras padrão (para compreender as funções cerebrais visuais básicas) e compreensão natural de imagens. Por exemplo, em um problema de prosaccade simples que testa a capacidade de uma pessoa de mover seus olhos rapidamente na direção de um estímulo que aparece na tela, descobrimos que o atraso médio de sacada (tempo para mover os olhos) era consistente com o trabalho anterior.para saúde oftálmica básica (210 ms versus 200-250 ms). Em tarefas de busca visual guiada, fomos capazes de reproduzir os principais resultados, como os efeitos da visibilidade do alvo e desordem nos movimentos dos olhos.



imagem




Exemplos de trajetórias de varredura do olhar mostram o efeito da visibilidade do alvo (isto é, contraste de cor) na eficácia da pesquisa visual. Menos fixações são necessárias para encontrar um alvo de alta assinatura (esquerda) (diferente de distratores), enquanto mais fixações são necessárias para encontrar um alvo de baixa assinatura (direita) (semelhante a distratores).



Para estímulos complexos, como imagens naturais, descobrimos que a distribuição do olhar (calculada pela agregação das posições do olhar em todos os participantes) de nosso rastreador ocular de smartphone era semelhante à obtida de rastreadores oculares volumosos e caros que usavam configurações rigidamente controladas, como sistemas de foco de laboratório para o queixo. Embora os mapas de calor do olhar em um smartphone sejam mais difundidos (ou seja, parecem mais "borrados") do que os rastreadores oculares de hardware, eles são altamente correlacionados tanto no nível do pixel (r = 0,74) quanto no nível do objeto (r = 0, 90) . Esses resultados sugerem que esta tecnologia pode ser usada para dimensionar a análise do olhar para estímulos complexos, como imagens naturais e médicas (por exemplo, radiologistas revisam exames de ressonância magnética / PET).



imagem




Mapa térmico do olhar ao usar nosso smartphone em comparação com o rastreador ocular mais caro (100x) ( conjunto de dados OSIE )



Descobrimos que um smartphone também pode ajudar a detectar dificuldades de compreensão de leitura. Os participantes que leram passagens passaram muito mais tempo procurando passagens relevantes quando responderam corretamente. No entanto, à medida que a dificuldade de compreensão aumentava, eles gastavam mais tempo estudando passagens irrelevantes do texto antes de encontrar uma passagem adequada contendo a resposta. A proporção de tempo de olhar gasto na passagem relevante foi um bom indicador de compreensão e fortemente correlacionado negativamente com a dificuldade de compreensão (r = -0,72).



Biomarcador digital de fadiga mental



A detecção de olhar é uma ferramenta importante para determinar o estado de alerta e saúde, e é amplamente estudada na medicina, pesquisa do sono e condições críticas, como operações médicas, segurança de vôo, etc. No entanto, os testes de fadiga existentes são subjetivos e geralmente demoram. Em nosso artigo recente publicado na npj Digital Medicine, demonstramos que o olhar do smartphone é significativamente prejudicado devido à fadiga mental e pode ser usado para rastrear o início e a progressão da fadiga.



Um modelo simples prevê de forma confiável a fadiga mental usando dados do olhar dos participantes em uma tarefa em apenas alguns minutos. Validamos esses resultados em dois experimentos diferentes, uma tarefa de rastreamento de objetos independente do idioma e uma tarefa de validação dependente do idioma. Conforme mostrado a seguir, na tarefa de rastrear um objeto, o olhar dos participantes primeiro segue a trajetória circular do objeto, mas quando estão cansados, o olhar mostra grandes erros e desvios. Dada a onipresença dos telefones, esses resultados sugerem que olhar para um smartphone pode servir como um biomarcador digital escalonável para fadiga mental.



imagem




Um exemplo de rastreamento ocular para um participante sem fadiga (esquerda) e com fadiga mental (direita) ao rastrear um objeto seguindo um caminho circular.



imagem




A progressão correspondente das estimativas de fadiga (confiança) e a previsão do modelo em função do tempo de execução da tarefa.



Além de se sentir bem, olhar para um smartphone também pode fornecer um fenótipo digital para triagem ou monitoramento de condições de saúde, como transtorno do espectro do autismo , dislexia , concussão , etc. Isso poderia permitir uma intervenção oportuna e precoce, especialmente para países com acesso limitado aos serviços de saúde.



Outra área que pode ser de grande benefício é a acessibilidade. Em pessoas com doenças como ALS , síndrome da pessoa encarceradae derrame, fala e habilidades motoras são prejudicadas. Olhar para um smartphone pode fornecer uma maneira poderosa de simplificar as tarefas diárias usando o olhar para interagir, como demonstrado recentemente com Look to Speak .



Considerações éticas



A pesquisa ocular requer consideração cuidadosa, incluindo o uso correto de tal tecnologia - os aplicativos devem receber aprovação total e consentimento totalmente informado dos usuários para concluir uma tarefa específica. Em nosso trabalho, todos os dados foram coletados para fins de pesquisa com a total aprovação e consentimento dos usuários. Além disso, os usuários podiam optar por sair a qualquer momento e solicitar a exclusão de seus dados. Continuamos a explorar outras maneiras de tornar o aprendizado de máquina justo e de melhorar a precisão e a confiabilidade da tecnologia de fixação em dados demográficos de maneira responsável e confidencial.



Conclusão



Nossos resultados em rastreamento ocular baseado em aprendizado de máquina preciso e acessível em smartphones abrem o potencial para estudos em grande escala do movimento ocular em vários domínios (por exemplo, neurociência, psicologia e interação humano-computador). Eles abrem novos aplicativos potenciais para o bem público, como interação olho no olho para acessibilidade e ferramentas de rastreamento e monitoramento baseadas em smartphone para bem-estar e saúde.



Agradecimentos



-, . , : , , , ; , ​​, ; , ; UXR: , . , .



All Articles