Um método para a documentação de obras de arte de larga escala no interior de edificações usando fotogrametria

Documentar obras de arte, especialmente as de grande formato que fazem parte intrínseca de um patrimônio cultural, é um problema que pode ser muito difícil, senão impossível, de atacar corretamente com os métodos tradicionais de fotografia. Apesar de grande parte das limitações ser de origem espacial, ou seja, dificuldade de posicionamento da câmera devido à altura, ou falta de espaço, também existe a questão de muitas obras estarem integradas diretamente nas paredes, como é o caso dos afrescos e das pinturas dentro das cúpulas das grandes igrejas. Para a fotografia tradicional, esse tipo problema é incontronável, e a documentação precisa da obra torna-se materialmente impossível.

Já uma outra aplicação, que apresentarei neste artigo, é a minha primeira tentativa improvisada, mas encorajadora do uso da fotogrametria para este fim. Refere-se à documentação de uma pintura de grandes dimensões em um ambiente interno de um patrimônio cultural importantíssimo do Brasil. O caso estudado é de um quadro que encontra-se na Basílica de Santo Ântonio de Pádua, em Americana, interior de São Paulo. A construção da Basílica foi iniciada na década de 1950 e a pintura ficou a cargo de dois irmãos italianos, Pedro e Uldorico Gentilli. Você pode ler mais sobre a história da Basílica aqui. Abaixo, uma foto que exemplifica bem a sua arquitetura e que tirei no mesmo dia dos testes de fotogrametria.

Eu já estive pessoalmente no Vaticano e em muitas igrejas em Roma, Campania, Puglia, Umbria, Toscana e Trentino-Aldo Adige. A Basílica de Santo Antonio de Pádua, em termos artísticos, está no mesmo nível das mais altas obras italianas. Ela é um patrimônio de valor inestimável e um lembrete dos grandiosos tempos pre-conciliares da Igreja Católica Apostólica Romana. Portanto, não faltam motivos para que se faça um trabalho de documentação abrangente na Basílica. Também, pelo fato de ter tantas obras de arte magníficas num único lugar, é que escolhi como primeira amostragem para testar este método.

Possibilidades de aplicação da fotogrametria

Este método que proponho aqui pode ter inúmeras outras aplicações, especialmente porque ele é capaz de lidar com superfícies mais complexas, como cúpulas, e também com objetos de baixa tridimensionalidade, como adornos em relevo. É possível fazer “fotos aéreas” de ambientes internos sem drones, como demonstrarei num outro artigo em breve. Também se pode adicionar drones às técncias de fotogrametria, o que abre mais um imenso leque, partcularmente nas imagens externas. Estes temas, deixarei para mais artigos em breve.

A fotogrametria é uma técnica que gera medições em três dimensões (3D) a partir de fotos, que são objetos de duas dimensões (2D). Quando se tem duas fotos que foram tiradas de posições ligeiramente diferentes, muitos dos pontos que estão em uma também estão na outra, mas as suas distâncias relativas são alteradas pela diferença de perspectiva.

Com um conjunto suficientemente grande de fotos, é possível transformar essas relações em sistemas lineares, cujas soluções fornecem as posições da câmera e também as distâncias entre os pontos no espaço tridimensional. Trocando em miúdos, a fotogrametria parte de um conjunto de fotos convencionais para gerar um modelo 3D no computador. Este modelo possui não somente as informações espaciais, mas também os valores de cor de cada ponto. Ou seja, as imagens originais são projetadas sobre o modelo 3D, de modo a obter um objeto fotorrealista.

A contribuição desse artigo é que o modelo 3D pode ser posicionado de modo a eliminar os efeitos de perspectiva, fazendo com o que o quadro possa ser encarado de frente, e sem distorções de lente ou de perspectiva. É como se a tela toda, de mais de 3 metros de largura, tivesse sido passada num scanner. A imagem final, se renderizada com resolução suficiente, poderia até mesmo ser impressa no mesmo tamanho que a original.

Metodologia

O fluxo de trabalho pode ser resumido a:

  • Coleta de fotos com câmera em mãos ou tripé
  • Processamento do modelo 3D com Meshroom
  • Criação de vistas e renderização de alta definição com Blender
  • Tratamento da imagem renderizada com Lightroom, GIMP, ou similar.

Coleta de fotos

As fotos precisam ser tiradas dos ângulos mais variados possíveis, já que o software precisará encontrar correlações entre os pontos das imagens originais. Além disso, para que ele entenda corretamente o objeto, é preciso haver uma continuidade entre as fotos. Assim, usa-se uma razão de sobreposição (ou overlap, em inglês) entre 60 e 80%. Isso quer dizer que uma foto contém 60% a 80% do conteúdo da adjascente. Se montássemos um painel com todas as fotos, a maior parte da área estaria coberta por pelo menos duas fotos. Deste modo, quando o algoritmo pular de uma foto para outra, ele sabe de onde veio. Essa informação é crucial para que ele consiga montar a cena total.

Do ponto de vista de parâmetros, o ideal é, obviamente, obter as melhores imagens possíveis já de saída. Então, deve-se usar o menor ISO possível. Já a abertura deve ser a menor possível, ou seja, mais fechada, para aumentar ao máximo a profundidade de campo. É preciso que as fotos sejam sempre muito nítidas e, vale lenbrar, não estamos fazendo fotografia artística aqui (ainda), onde o fundo desfocado é importante. Nesse caso, queremos a maior quantidade de informação possível. Uma sugestão de técnica aqui, é o hiperfoco.

Com relação formato, o Meshroom, que é o software que usei, não aceita arquivos raw (nem DNG e nem PEF). Então, a melhor estratégia é usar uma configuração neutra de JPG na câmera, sem melhoramentos de contraste, nitidez, etc. A razão disso é que queremos obter algo como um raw da renderização, para só depois acertar as cores. Para o Meshroom, essas coisas não fazem diferença.

Meshroom

O software que utilizei é o Meshroom, que é aberto e gratuito e você pode baixar aqui. Sua maior vantagem é que você pode fuçar à vontade em todos os parâmetros, que também é a maior desvantagem. Ele permite bastante flexibilidade na hora de fazer o processamento, mas pode facilmente criar problemas de memória. Já o algoritmo para detecção de pontos de interesse foi o SIFT, e o de reconstrução foi o SfM (Structure from Motion). Tudo o que usei aqui foi o padrão, com uma nuvem de pontos normal e qualidade normal.

Existem outros softwares disponíveis, como o 3DF Zephyr, que é pago. Porém, aberto e sem limitações, o melhor é o Meshroom mesmo. Uma outra opção seria o Colmap, mas a interface é mais difícil de usar.

Um adendo importante é que todos esses softwares requerem uma placa de vídeo Nvidia. Existe uma versão do Meshroom, chamada MeshroomCL que roda em placas de outras marcas, como Intel e AMD. Porém, o desempenho é inferior e é menos flexível que a outra versão. Já pra quem quer só fazer uns testes e ver como funciona, é uma excelente opção. Eu mesmo comecei com ele.

Blender

O Blender é mais um software livre que tenho usado nos meus projetos. Ele foi idealizado para a criação de ambientes 3D fotorrealistas e, por isso mesmo, é uma aplicação ideal para o uso desse artigo. Além de permitir a manipulação do modelo, ele possui modos importantes como a câmera ortográfica.

No Blender, o trabalho consiste em fazer uma limpeza do modelo bruto retirado do Meshroom, posicionamento dos objetos, da câmera e da iluminação e, por fim, a renderização da imagem final. A renderização é feita com o Cycles, que utiliza recursos mais avançados, como ray tracing, para gerar as imagens.

Já a projeção ortográfica é importante porque ela nos mostra a imagem sem nenhuma distorção de perspectiva. Ou seja, é como se estivéssemos vendo o quadro de frente e dentro do nosso campo de visão. No final, a imagem obtida é equivalente, dentro de alguns aspectos, ao que seria a imagem escaneada.

Tratamento

A etapa final consiste no tratamento usando técnicas tradicionais de fotografia digital com o Lightroom, GIMP ou similar. A imagem renderizada pode ser tratada como raw direto da câmera e passar por todas as etapas de manipulação que se usa normalmente na fotografia tradicional.

Judite e a cabeça de Holofernes

Como primeiro teste, elegi a pintura com o tema do título, por conveniência. Entre as obras da Igreja, essa apresentava-se numa posição relativamente fácil e, como eu não tinha autorização para ficar fotografando lá dentro, fiz rapidamente a que estava mais à vista. Veja aqui meu artigo sobre etiqueta para fotografar igrejas e porque esses cuidados são importantes.

Foram tiradas 17 fotos a partir de três posições no solo usando uma Pentax K-70 com lente Sigma 28-300mm, com a câmera em mãos, sem tripé. As fotos foram tiradas em 28mm, f/3.5, 1/40s ISO 800 e processadas em JPEG pela própria câmera com um perfil de cor neutro, sem otimização de contraste e nitidez e com a estabilização de imagem por movimento do sensor ativada. Por conta da pouca iluminação, como é de costume em igrejas, foi necessário empregar um ISO relativamente alto e manter a lente aberta ao máximo. O ISO não é muito problema, já que a K-70 é uma câmera reconhecida justamente pela sua performance em baixa luminosidade. Porém, essa lente não possui um desempenho muito bom quando está totalmente aberta e, somado à pouca iluminação, resultou em imagens não tão nítidas quanto eu desejava.

Isso nos leva às maiores limitações na hora de fotografar o patrimônio cultural em ambientes fechados com métodos tradicionais. Para conseguir operar com um valor mais baixo de ISO e uma abertura de lente mais restrita, teríamos que recorrer à montagem de tripés, por exemplo, o que causaria problemas logísticos por si só. Além disso, como a tela é grande e fica a uma boa altura do solo, não é possível ver a obra em detalhes sem enxergá-la em perspectiva, a menos que se use lentes de grande comprimento focal a uma longa distância. Entretanto, isso nem sempre resolve o problema e ainda insere mais artefatos por causa da vibração do equipamento, mesmo estando num tripé. Ainda outro problema é que a resolução de uma câmera digital, mesmo com um sensor com muitos megapixels, pode não ser suficiente para captar todos os detalhes de uma obra tão grande, já que uma pintura com 3 metros de largura pode ter, facilmente, detalhes de ordem milimétrica.

A fotogrametria, por outro lado, tem a capacidade de contornar todos esses problemas de uma só vez, em troca de aumentar a quantidade de fotos necessárias para gerar uma única imagem e de requerer muitas horas de processamento. A técnica, conforme descrevi na metodologia, consiste em usar muitas fotografias, tiradas em perspectivas diferentes, para construir um modelo 3D do objeto original. A tela, como é um objeto 2D, aparecerá como um plano dentro do objeto 3D, com as imagens da pintura coladas nesse plano. As 17 imagens usadas, são amostradas nas miniaturas abaixo.

Como parte da implementação do algoritmo, ele pega as imagens originais e as projeta no objeto 3D de acordo com a orientação da câmera, obtido a partir de pontos de referência extraídos da própria imagem. Para que o software consiga reconstruir a cena, é preciso que as fotos do objeto sejam tomadas em pequenos passos e com pequenas variações de ângulos e posições, de modo a gerar a maior quantidade de pontos de referência possível. Após 2 horas de processamento, cheguei nos resultados abaixo com o Meshrroom. Nas imagens, é possível ver cada passo da reconstrução, desde a criação de uma nuvem com os pontos de interesse, a reconstrução do modelo (meshing) e a projeção das fotos (texturização). Como você pode ver, a tela é tratada como um objeto 3D, que pode ser manipulada livremente.

O modelo 3D é, então, importado no Blender, onde é alinhado com os três eixos cardinais e é preparada a cena com a iluminação para a geração da imagem renderizada. A imagem final é a projeção ortográfica, ou seja, sem nenhuma perspectiva, da combinação de todas as imagens iniciais e pode ter uma resolução muito maior do que a da câmera que tirou as fotos.

Por fim, a imagem renderizada pode passar por todos os processamentos digitais que se usa normalmente em fotografia, como ajuste de contraste, saturação, temperatura, etc. de modo a obter a representação mais fiel possível da original, com grande preservação de detalhes. Abaixo, um vídeo do modelo sendo manipulado no Blender.

Resultado animador

A imagem abaixo é o resultado final dessa primeira tentativa. Ela foi renderizada numa resolução relativamente baixa, apenas 1080×1920 pixels (ou seja, uma tela Full HD), por limitações de tempo disponível para processamento de dados. Entretanto, esse resultado, mesmo improvisado do começo ao fim, já é bastante animador. Há preservação de detalhes toda a obra, não existem artefatos devido a emendas entre as diferentes imagens durante a colagem 3D, as cores são fieis e as proporções são bastante corretas.

Resultado final

A única observação negativa é que a cabeça de Holofernes parece mais alongada do que deveria – bem como a do Leão, o que pode ser efeito da perspectiva que temos ao olhar o quadro por baixo. Normalmente, a fotogrametria é mais confiável que a nossa percepção de perspectiva, mas é uma coisa que é preciso averiguar.

Recuperando detalhes

No modelo, algumas vezes, também é possível conseguir recuperar coisas que estão mais nas bordas. Veja essa imagem de Pio V, que se encontra bem no canto superior esquerdo do modelo e que nem está presente em todas as fotos. Levando em conta a baixa qualidade das fotos originais, al[em do pequeno overlap, é realmente impressionante o que se pode conseguir com a técnica.

Vitrais da Basílica de Nossa Senhora do Carmo

A Basílica de Nossa Senhora do Carmo, no centro de Campinas, também é uma obra arquitônica magistral e possui muitas obras de arte. Entre elas, existe uma série de vitrais que contornam todo o prédio. Esses vitrais sempre ficam em posições mais elevadas, o que dificulta a visualização e o registro convencional das obras. Por isso, fiz uma tentativa de aplicação da metodologia de fotogrametria em dois vitrais diferentes, um logo na entrada e outro na capela menor, ao fundo.

O vitral da entrada foi reconstruído a partir de 38 fotos tiradas com a Pentax K-70 e uma lente Pentax-F 80-200mm em 80 mm, f/4.5 e ISO 800. Neste caso, quis testar uma distância focal mais longa para tentar capturar mais detalhes e gerar uma imagem com resolução maior. Desta vez, foi um teste um pouco mais bem elaborado que o inicial na Basílica de Santo Antônio. O resultado obtido no Meshroom, usando todos os parâmetros default, exceto o meshing que foi reduzido a 200.000 pontos, é mostrado abaixo.

Os únicos defeitos graves desse modelo se deram porque existem duas janelas basculantes nas suas laterais, que estavam abertas. Como o algoritmo do Meshroom não tem como extrair informação dessa região, o modelo acaba ficando defeituoso. Porém, conforme esperado, ele não afeta muito o resultado quando o modelo é visto de frente, o que evita problemas na hora de renderizar o modelo orto-retificado. Abaixo está a imagem obtida da renderização com apenas 1920×1080 pixels.

Porém, como o modelo foi obtido a partir de fotos de alta qualidade, é possível renderizar a imagem com uma resolução muito maior. Devido à quantidade de memória RAM do meu computador, 12 Gb, o tamanho máximo de imagem que consigo gerar é de uns 100 megapixels. Então, criei uma imagem com 96 megapixels e fiz o recorte abaixo, onde se pode ver a qualidade da definição da imagem resultante.

Para se ter uma ideia real da resolução do modelo, a imagem abaixo é um recorte ampliado até o ponto onde se pode ver os pixels individuais. Ainda é possível extrair mais resolução, mas preciso de mais memória para conseguir processar. De todo modo, o resultado é excelente. Este modelo, inclusive, pode ter os defeitos consertados usando Photoshop, por exemplo.

Já o vitral da capela do fundo foi fotografado com a mesma câmera e lente, mas com 120 mm. O objetivo é o de gerar uma imagem de resolução ainda maior, testando os limites do método. Além disso, o vitral fica num local bem apertado, que tornaria impossível o registro fotográfico convencional. Neste caso, fiz cerca de 190 imagens, sendo que aproximadamente uma dúzia foi descartada por ter ficado borrada. Ao todo, 178 fotos foram utilizadas para gerar o modelo. A nuvem de pontos resultante é essa abaixo.

Entretanto, apóes várias tentativas, ainda não cheguei num resultado satisfatório. O modelo final apresenta alguns buracos que estragam a renderização. Veja abaixo como ficou o modelo. Os buracos estão, em sua maioria, na região do joelho do anjo.

Nessa imagem abaixo fica bem claro o tipo de defeito que aparece. A razão disso ainda não está bem clara, mas o fato que o modelo melhorou muito quando usei um tipo de identificador mais complexo, o DSP SIFT. Talvez tenha que voltar lá e fotografar novamente, ou mudar mais parâmetros.

Próximos passos

Algumas coisas precisam ser melhoradas para se obter resultados aceitáveis para fins de documentação e reprodução. Em primeiro lugar, é necessária uma estratégia de coleta de dados que leve em conta mais posições e permita tirar mais fotos. Na estratégia deste artigo, a maior deficiência foi ter usado apenas três pontos no solo como referência, o que me fez variar apenas a orientação da câmera. O ideal, para a fotogrametria, é que se varie mais a posição e menos a orientação, ou seja, precisamente o contrário do que eu fiz.

Além disso, seria interessante poder fatiar mais o quadro, ou seja, tirar mais fotos, especialmente das regiões próximas das bordas, que não ficaram boas no modelo. Isso permitiria melhorar a qualidade da textura do modelo 3D e, por conseqüência, da renderização. Outro benefício seria uma precisão maior na reconstrução da superfície.

Por fim, o uso de um tripé e a obtenção das devidas autorizações, permitira usar um ISO base de 100 e uma abertura mais adequada. Também sugeriria o emprego de uma lente melhor do que a Sigma que tinha disponível na hora. Poderia usar uma Pentax M 50mm f/1.4 ou uma Pentax DA 18-55mm f/3.5, que são duas lentes de excelente qualidade.

Já o último modelo requer um trabalho de desenvolvimento maior. Parece que o número de imagens cria um fator crítico na computação do modelo. Também tem que se levar em conta que o modelo físico da formação de imagens de um vitral e de uma pintura são completamente diferentes. O Meshroom é elaborado no modelo de espalhamento elástico da luz, enquanto os vitrais são em parte espalhamento elástico e em parte refração. Isso talvez esteja gerando complicações adicionais. De todo modo, mais trabalho de pesquisa é necessário.

Fábio Ardito

Pelo mundo atrás de treta.

Deixe um comentário