Docente Iscte
Investigador IT
Tem-se dedicado, nos últimos anos, a investigar os campos de luz. O que são os campos de luz?
Até há uma década, as máquinas fotográficas estavam limitadas a capturar a quantidade de luz que entrava nas objetivas. Esse processo tem uma limitação: a imagem assim captada é essencialmente imutável. Com a tecnologia dos campos de luz, o objetivo é capturarmos a quantidade de luz e a direção dos raios. Isso permitir-nos-á gravar num sensor uma representação daquilo a que chamamos de campo de luz e que abre um vasto campo de possibilidades para trabalhar à posteriori. Ou seja, como capturámos os raios, a seguir poderemos manipular esses raios e obter diferentes imagens da mesma cena. Por exemplo, podemos decidir à posteriori qual o plano de focagem de uma fotografia, ou trabalhar a profundidade de campo. Esta funcionalidade pode ser particularmente interessante para a indústria do cinema, porque muitos dos problemas ocorridos em filmagens correspondem a falhas de foco, especialmente quando se trata de cenas de elevado dinamismo; estas falhas de foco podem agora ser corrigidas à posteriori com muita facilidade. Um dos primeiros trabalhos que realizámos no Iscte com esta tecnologia, em 2010, tinha como parceiro precisamente uma empresa da indústria cinematográfica (ARRI).
E essa tecnologia já está a ser utilizada, ou encontra-se ainda numa fase experimental?
Nesta última década, houve uma grande evolução desta tecnologia. Começaram por surgir protótipos, mas, entretanto, surgiram câmeras no mercado. Por exemplo, em 2015, surgiu uma câmera fotográfica fabricada por uma empresa chamada Lytro, que entretanto até já faliu... Atualmente, estamos numa fase em que esta tecnologia já é utilizada em setores específicos, mas ainda não chegou ao grande consumidor. Normalmente, as tecnologias audiovisuais chegam aos consumidores através da utilização em contexto de entretenimento e não necessariamente num contexto de aplicação prática.
Isso tem a ver com custos, ou com a demora em estabelecer standards?
Essas câmeras custam cerca de 1500 euros, ou seja, estão ao nível de uma câmera de gama média. Falta, eventualmente, criar um ecossistema, que transforme esta tecnologia em algo de atraente para o utilizador. Onde esta tecnologia exige maiores recursos é no processamento, armazenamento e transmissão. As maiores velocidades de transmissão doméstica de que dispomos (1Gbit/segundo) são insuficientes se estivermos a falar de vídeo, por exemplo.
A utilização de várias câmeras nos smartphones é enquadrada nessa tecnologia?
Essencialmente, existem duas maneiras de capturar os campos de luz. A primeira passa pela utilização de uma câmera tradicional monossensor, alterando-lhe o sensor e colocando um conjunto de microlentes à sua frente. Cada uma dessas lentes vai simular uma câmera dentro da própria câmera. Em alternativa, pode-se construir uma matriz de câmeras. No cinema, podem ser utilizadas matrizes de 10x10 câmeras, ou seja, 100, mas não é necessário que se chegue a esse nível. Pode ser, de facto, aquilo que vemos hoje nos telemóveis, que apresentam quatro ou mais câmeras, podendo no futuro evoluir para situações mais complexas. Cada uma das câmeras captura uma perspetiva ligeiramente diferente da mesma cena.
CAMPO DE LUZ. Imagem captada com tecnologia de campos de luz e três fotografias daí retiradas, das muitas possíveis, com foco em diferentes profundidades.
Mas esta é ainda uma atividade em grande parte experimental, ou em que começam a surgir standards comerciais.
Os standards começaram a surgir. Os organismos de normalização – a ISO e a ITU – já se aperceberam da importância do fenómeno e estão a desenvolver normas. Os dois organismos ligados à representação de dados audiovisuais – JPEG e MPEG – estão a desenvolver normas de representação para este tipo de dados. No fundo, estudam-se já formas de evitar problemas de interoperabilidade no futuro.
Já existem filmes de cinema em que se utilize esta tecnologia?
Penso que não haverá ainda utilização comercial desta tecnologia no cinema. No entanto, no cinema, algo parecido já começou a ser feito há bastante tempo através de computação gráfica.
O vosso atual projeto incide sobre que aspeto desta tecnologia?
Estamos focados na chamada segmentação, ou seja, após a captura da imagem, é necessário segmentar e identificar os objetos. A segmentação é um conjunto de técnicas que permitem perceber quais os vários objetos presentes na cena. Face às imagens bidimensionais, há uma vantagem, que é a existência de profundidade, muito útil para essa identificação dos objetos.
Esta tecnologia poderá ter aplicações relacionadas com a realidade virtual?
Claro e este é o momento ideal. As videoconferências, que agora tanto utilizamos, existem há meio século, mas nunca tinham despertado tanto interesse como agora. E hoje é o que vemos... No entanto, o que temos ainda não é a mesma coisa de estarmos a falar ao vivo, com proximidade, porque temos apenas uma visão bidimensional, com a qual se perde imensa informação. Por exemplo, quando mexo a cabeça, tenho uma perspetiva diferente do interlocutor, impossível de transmitir através das atuais video-chamadas. E isso pode ser muito importante para interpretarmos a linguagem corporal. Com a tecnologia dos campos de luz, posso criar uma sensação de imersividade muito mais realista, simulando estarem todos no mesmo espaço. Ou seja, esta tecnologia é de extraordinária importância para a realidade virtual e a realidade aumentada.
Esta é uma tecnologia que tem concorrência nesses campos?
A realidade virtual e a realidade aumentada utilizam vários processos na sua estruturação, pelo que as tecnologias acabam por ser complementares e raramente concorrenciais. No entanto, em vez dos campos de luz podem ser utilizadas nuvens de pontos (point clouds), por exemplo. No fundo, posso ter representações alternativas da mesma coisa.
Esta pode ser uma tecnologia com interesse para a medicina?
Certamente. Pode mesmo resolver o problema das cirurgias à distância, em que as imagens bidimensionais são claramente insuficientes.
O vosso trabalho desenvolve-se mais em contexto laboratorial ou conceptual?
Estas tecnologias necessitam de uma grande cadeia de processos. Desde a câmera, que faz a aquisição, ao processamento, compressão para armazenar os dados e, no lado do output, novamente processamento de dados, de forma a materializá-los para os disponibilizar. O trabalho que nós desenvolvemos é mais teórico e baseado em computação – pegamos em dados em bruto e devolvemos dados comprimidos. Não trabalhamos na captação, nem na exposição das imagens, embora trabalhemos com elas.
É algo que necessita de grandes níveis de abstração?
Esse é, de facto, um problema que se coloca quando estruturamos a equipa de projeto. Este trabalho exige um nível de conhecimento bastante avançado. Trabalhamos com muita matemática e com processamento de sinal multidimensional.
Como se processa a vossa ligação à indústria?
Em vários projetos que temos desenvolvido, há parceria entre a academia e as empresas, mas não em todos. De qualquer forma, a indústria acaba por incorporar sempre o conhecimento que criamos aqui. Muita desta investigação é relativamente demorada, mas a aceleração do setor leva a que, frequentemente, a indústria e a investigação se alimentem uns aos outros.
PROTÓTIPO. Máquina de filmar desenvolvida no âmbito do projeto de investigação em que o Iscte participou, entre 2010 e 2013.
Há muitos anos que desenvolve investigação nesta área?
Após ter completado a licenciatura (1996), e depois o doutoramento, na área da engenharia eletrotécnica, no Instituto Superior Técnico, trabalho o tema da compressão em imagem e vídeo. Nos primeiros 15 anos, o meu trabalho desenvolveu-se no campo das imagens bidimensionais e só a partir de 2010 comecei a investigar em campos de luz e temas conexos. Nos primeiros cinco anos, trabalhámos na compressão dos dados, com vista a um armazenamento mais eficiente. Mais recentemente, começámos a trabalhar no processamento dos dados, sendo que, após esta fase da segmentação, vamos tratar do inpainting, em que o objetivo é trabalhar estas imagens da mesma forma que o Photoshop trabalha as imagens bidimensionais. Se apagar um objeto no Photoshop levanta uma série de problemas, o que acontecerá quando quiser fazer o mesmo em imagens tridimensionais de campos de luz?
Um desafio: consegue fazer alguma prospetiva? Prever o que vai passar-se nesta área nas próximas décadas? O cinema e a televisão vão ser tridimensionais?
Antes de chegarmos a essa fase, penso que vamos passar por uma fase intermédia, em que os dados serão tridimensionais, mas a utilização que as pessoas farão deles será bidimensional. Ou seja, os produtores terão acesso às imagens tridimensionais, mas vão trabalhá-las de forma a fornecerem ao consumidor uma imagem bidimensional. Para que o público adote as imagens tridimensionais, terá de haver aplicações interessantes e isso levará tempo a concretizar-se. Terá de haver algures um trabalho envolvendo áreas como a psicologia e a sociologia, para avaliar a qualidade da experiência. Por exemplo, o que interessará mais: a qualidade da imagem, ou a possibilidade de interagir com essa mesma imagem?