Uma nova pesquisa conjunta da Apple com a Universidade de Columbia desenvolveu o SceneScout, um protótipo que pode ser capaz de utilizar a inteligência artificial para ajudar pessoas cegas ou com baixa visão (BLV) a se locomover de forma independente em ambientes desconhecidos.

Segundo um post no Machine Learning Research, da Apple, enquanto a maioria das ferramentas se concentra na navegação in situ, as poucas que exploram a assistência pré-viagem geralmente fornecem apenas pontos de referência e instruções passo a passo, sem algum tipo de detalhamento do contexto visual.

Por outro lado, as imagens das ruas (na plataforma do Google, conhecidas como Street View e na da Apple como Olhe ao Redor — ou Look Around, em inglês), que contém informações visuais ricas e têm o potencial de revelar inúmeros detalhes ambientais, permanecem inacessíveis para pessoas com BLV. Tendo isso em vista, o projeto apresentado combina as APIs do Apple Maps com um modelo de linguagem multimodal para permitir descrições interativas acessíveis geradas por IA.

Isso permite que os usuários explorem virtualmente rotas e ambientes inteiros, como ruas, quarteirões e bairros — em vez de depender apenas das instruções guiadas ou de pontos de referência — com descrições adaptadas às suas necessidades e preferências específicas.

O SceneScout suporta dois modos principais: a Visualização de Rota (a qual permite que os usuários tenham uma ideia de uma rota e se familiarizem com detalhes visuais ao longo do trajeto) e a Exploração Virtual (que é mais aberta e oferece livre movimento dentro dessas imagens das ruas).

Em ambos os modos, ele simula a visão de um pedestre, interpretando o que é visível no Street View/Olhe ao Redor e gerando um texto estruturado com descrições curtas, médias e longas do caminho.

Nosso estudo de usuários (N = 10) demonstra que o SceneScout ajuda os usuários com BLV a descobrir informações visuais que de outra forma não estariam disponíveis pelos meios existentes. Uma avaliação técnica mostra que a maioria das descrições é precisa (72%) e descreve elementos visuais estáveis ​​(95%), mesmo em imagens mais antigas, embora erros sutis e plausíveis ocasionais dificultem a verificação sem a ajuda da visão.

Apesar de 72% das descrições geradas terem sido precisas, a equipe de pesquisa, que contou com 10 usuários com BLV, relatou alguns erros esperados do projeto em desenvolvimento, como alegar que uma faixa de pedestres tinha sinais sonoros quando não tinha ou rotular placas de trânsito incorretamente. Além disso, algumas descrições faziam referência a detalhes desatualizados ou transitórios, como zonas de construção ou veículos estacionados.

Outro detalhe do projeto enfatizado pelos usuários-teste foi a necessidade de uma linguagem mais objetiva e de maior precisão espacial, especialmente para a navegação no last-meter (últimos metros). Foi apontado que o sistema ocasionalmente fazia suposições, tanto sobre as habilidades físicas do usuário quanto sobre o próprio ambiente, e que ele poderia se adaptar de forma mais dinâmica às preferências dos usuários ao longo do tempo, em vez de depender de palavras-chave estáticas.

No geral, contudo, o projeto apresentou bons resultados, com notas altas à experiência em relação à sua utilidade e relevância. Seu modo Exploração Virtual, especialmente, recebeu elogios, por dar aos usuários informações que normalmente teriam que perguntar aos outros.

Embora não esteja finalizado, o desenvolvimento do SceneScout representa uma criativa oportunidade de aprimorar as experiências de navegação por meio do uso de imagens das ruas, abrindo diversas possibilidades futuras do uso de IA para auxiliar a vida de pessoas com BLV.

via 9to5Mac