Journée séminaires équipe Multimédia

La dernière journée séminaires de l’équipe Multimédia aura lieu le mardi 12 juin en B500. Trois présentations sont au programme :

  1. Iulia Mitrica : « Aircraft screen content compression »
  2. Belén Luque Lopez : « Super resolution on 3D point cloud using CNNs »
  3. Theodoros Karagkioules : « A Comparative Case Study of HTTP Adaptive Streaming Algorithms in Mobile Networks »

 

 

Offre de thèse de doctorat

MàJ Cette thèse a été attribué, ce n’est plus disponible

Acquisition et visualisation de séquences d’images plénoptiques et synthèse de vues intermédiaires

Contexte

Après les progrès notables quant à l’élargissement de la dynamique des images numériques, des efforts importants de recherche se portent aujourd’hui sur l’enrichissement des informations liées à la géométrie de la lumière de la scène capturée.  Nous faisons référence ici à deux approches complémentaires : premièrement aux systèmes composés de multiples caméras (dit système multi-caméras, y compris les caméras à 360° ou les systèmes de captation « multivues ») permettant d’acquérir la scène sous différents points de vue, et deuxièmement aux systèmes dit « light-field » qui capture en un endroit le champ de lumière et non seulement l’intensité de la lumière. Ces deux approches permettent de proposer les mêmes types de fonctionnalités :

  1. changement de point de vues (il est souvent fait référence à la notion de « free view point image ») [1].
  2. Simulation d’une profondeur de champ, c’est à dire de la zone nette dans l’image.

Toutes ces nouvelles approches peuvent s’unifier sous la notion d’images plénoptiques, [2] définies par la fonction plénoptique :

qui fournit l’intensité de la lumière (et éventuellement la phase) pour tous les points de la scène , pour toutes les directions , pour toutes les longueurs d’onde et en fonction du temps

Le sujet de thèse proposée ici porte sur trois des problématiques clés des images plénoptiques : l’acquisition, la visualisation et la synthèse de vues intermédiaires.

Les outils d’acquisition dont on dispose aujourd’hui ne permettent pas une acquisition de la fonction plénoptique complète, mais correspondent à un échantillonnage de celle-ci. Par exemple, un système d’acquisition multivues classique permet d’effectuer l’acquisition avec y et z constantes, et en échantillonnant x à pas régulier. Un système Super Multiview (c’est-à-dire, avec parallaxe horizontale et verticale [3]) échantillonne  sur x et y. D’autre part, dans ce projet nous somme également intéressé par des cas plus complexes, ou le positionnement et l’orientation des caméras entrainent un échantillonnage de la fonction plénoptique sur une grille irrégulière.

Plus en général, un des problèmes fondamentales liés à l’utilisation des images plénoptiques, consiste à reconstruire la fonction  à partir d’un ensemble limité d’échantillons, qui à leur tour, peuvent appartenir à une grille régulière ou irrégulière.

Problématiques

Du fait de la richesse des informations capturées, les images plénoptiques proposent un certain nombre d’interactions à l’utilisateur, notamment :

  • Changement du point de vue et de direction de vue (cadrage)
  • Choix du point de netteté et de la profondeur de champ (mise au point)
  • Navigation dans le temps

Ces éléments, dans l’image classique, sont fixés lors de la prise de vue par le photographe (ou le chef opérateur dans le domaine de la cinématographie) afin de transmettre au mieux le message (forme de l’objet photographié, ambiance, etc.).  Dans le contexte des images plénoptiques ces éléments sont déterminés (totalement ou en partie) lors de la visualisation par l’utilisateur.  De nouvelles métaphores de visualisation peuvent alors être proposées. Par exemple l’application Fyuse [4] associe le choix de l’angle de vue au temps, alors que l’outil de visualisation de Lytro [5] propose de choisir la zone nette par un clic de souris.

Tous ces opérations nécessitent d’une façon ou d’une autre, d’avoir accès à la fonction plénoptique

Dans le cadre de cette thèse, les travaux de recherche porteront sur la proposition de nouvelles métaphores génériques de visualisation interactives d’images plénoptiques avec la triple contrainte de :

  1. Permettre au créateur de l’image de contrôler la manière dont il souhaite transmettre l’information. Par exemple, les outils développés dans le cadre de cette thèse pourront limiter la profondeur de champ afin que l’objet principal de la scène reste toujours net alors que l’arrière-plan reste flou quel que soit le point de vue choisi.
  2. Maximiser la qualité de l’expérience utilisateur quel que soit le périphérique utilisé pour la visualisation (écran classique, écran mobile, casque de réalité virtuelle, etc.). Par exemple, il est possible de définir (automatiquement) une trajectoire de l’angle de vue lors de la visualisation d’une vidéo panoramique sur un écran classique sans périphérique d’interaction.
  3. Offrir à l’utilisateur final la possibilité de naviguer librement dans la scène et par conséquent utiliser au mieux l’ensemble des vues réelles captée par les caméras pour synthétiser un point de vue arbitraire.

Les domaines scientifiques qui sont utiles à ces travaux viennent de différents domaines tels que :

  • l’esthétique des images : évaluation de l’esthétique des images, respect d’une esthétique donnée [6]
  • la cinématographie virtuelle : choix automatiques du point de vue et du montage [7]
  • perception et attention visuelle : autofocus intelligent [8] [9]
  • la vidéo à point de vue libre: interpolation de vues intermédiaires [10] [11]

Ces domaines interagissent les uns avec les autres : la synthèse (ou interpolation) de vue est préalable à la cinématographie virtuelle et peut exploiter les informations d’attention visuelle pour optimiser le processus là où l’utilisateur regarde : tout cela impacte évidemment l’esthétique et la qualité du résultat.

Méthodologie envisagée

La synthèse d’image intermédiaire joue un rôle clé dans le système que nous voulons réaliser. En effet, on peut voir ce problème comme celui de reconstruire (en tout ou en partie) la fonction plénoptique  à partir d’un ensemble d’échantillons [12]. Cette reconstruction est basée sur la géométrie de la scène et utilise souvent des opérations de post-traitement pour pallier aux artefacts de l’interpolation.

La synthèse d’image a été longuement étudie par les communautés de la Computer Vision et de la compression, même en dehors du cadre de la reconstruction de la fonction plénoptique. Les premières méthodes proposées en synthèse de vue s’appuient uniquement sur l’information visuelle : on parle alors de Image-Based Rendering (IBR) [13]. L’estimation de la disparité et la détection des occlusions (comme par exemple en [14]) sont des outils très importants pour que cette synthèse soit efficace. Ces outils seront testés dans le cadre de la thèse.

Quand, en plus des informations visuelles, on connait également la géométrie de la scène, on peut utiliser la synthèse d’image aidé par la profondeur, Depth Image-Based Rendering (DIBR) [15]. Même si le DIBR a été proposé dans les années 2000, la qualité des reconstructions qu’on peut obtenir n’est pas toujours satisfaisante, comme montré notamment lors des études de qualité perçue [16]. Néanmoins, des méthodes récentes semblent pouvoir combler ce fossé [17] grâce à l’utilisation conjointe de l’information spatiale et temporelle. Il s’agit ici d’une autre piste de développement possible. En plus, les techniques de détection d’occlusions peuvent bénéficier de l’information de profondeur.

Une autre source de difficulté est le positionnement des caméras utilisées pour acquérir la scène [18].  Une phase préalable de synchronisation et calibration est nécessaire pour que la synthèse puisse se faire correctement [19] [20] [21]. A cette fin, les outils de mise en correspondance de features comme SIFT [22], SURF [23] ou autres, semblent indispensables pour aboutir à une compréhension de la géométrie de la scène [14] [18] .

Calendrier des travaux

La thèse débutera avec une étude approfondie de l’état de l’art dans des différents domaines : la synthèse d’image, (avec et sans profondeur), calibration de caméras, la géométrie 3D appliqué à la vision (en particulier, estimation de disparité et détection d’occlusions), les features visuelles et leur mise en correspondance, ainsi que les aspects physiologique de la vision par rapport à la synthèse d’image.

A niveau pratique, le doctorant pourra prendre en main les systèmes d’acquisition d’images plénoptiques maitrisés par l’équipe b<>com.

Avec ces outils, le doctorant pourra tester des méthodes de synthèse d’images : d’abord dans des cas simples (grille régulière, systèmes super-multivues), en suite dans des configurations plus complexes. Les principes liés à la vision humaine seront graduellement intégrés dans le système, ce qui permettrait par exemple de synthétiser uniquement (ou avec une meilleure qualité) les parties saillantes de la scène.

Au même temps, l’impact des outils de synthèse (simples ou complexes) sur la visualisation, navigation, la cinématographie virtuelle, l’esthétisme, seront évalués, en sorte d’avoir toujours en vue la chaine complète de traitement. A ce propos, l’objectif  final est la mise en place de cette chaine, qui permette la reconstruction des images plénoptique et leur pleine utilisation.

Directeur(s) de thèse :

Rémi Cozot, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, IRISA/Université de Rennes 1 – cozot@irisa.fr

Marco Cagnazzo, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, Telecom-ParisTech/Institut Mines-Télécom– cagnazzo@telecom-paristech.fr

 Références

  1. Tanimoto, Free-Viewpoint Television Image and Geometry Processing for 3-D Cinematography, M. Ronfard, Ré. & Taubin, G. (Eds.) Springer Berlin Heidelberg, 2010, 53-76
  2. H. Adelson and J. Bergen, “The plenoptic function and the elements of early vision,” In Computational Models of Visual Processing, pages 3-20. MIT Press, 1991
  3. Dricot, A.; Jung, J.; Cagnazzo, M.; Pesquet, B. & Dufaux, F. « Full Parallax 3D Video Content Compression ». Dans Novel 3D Media Technologies, Springer New York, 2015, 49-70
  4. http://fyu.se
  5. http://lytro.com
  6. C Bist, R. Cozot, G. Madec, X. Ducloux, Style Aware Tone Expansion for HDR Displays. Graphic Interface 2016
  7. Lino, M. Christie, Efficient composition for virtual camera control. ACM SIGGRAPH / Eurographics Symposium on Computer Animation, 2012
  8. Hillaire, A. Lécuyer, T. Regia-Corte, R. Cozot, J. Royan et G. Breton, Design and application of real-time visual attention model for the exploration of 3d virtual environments. IEEE Transactions on Visualization and Computer Graphics (TVCG), 18(3):356–368, 2012
  9. Hillaire, A. Lécuyer, R. Cozot et G. Casiez, Depth-of-field blur effects for first-person navigation in virtual environments. IEEE Computer Graphics and Applications, 28(6):47–55, 2008
  10. D. Farin, Y. Morvan, PHN. de With, View Interpolation Along a Chain of Weakly Calibrated Cameras. IEEE Workshop on Content Generation and Coding for 3D-Television, Eindhoven, Netherlands, June 2006
  11. F. Dufaux, B. Pesquet-Popescu, M. Cagnazzo (eds.): Emerging Technologies for 3D Video. Wiley, 2013
  12. Chebira, A., Dragotti, P. L., Sbaiz, L., & Vetterli, M. (2003, September). Sampling and interpolation of the plenoptic function. In Image Processing, 2003. ICIP 2003. 2003 International Conference on (Vol. 2, pp. II-917). IEEE
  13. H Shum, S Kang, A review of image-based rendering techniques. Proceed. Intern. Symp. Visual Comm and Proc. (2000). doi: 10.1117/12.386541
  14. Petrazzuoli, M. Cagnazzo, B. Pesquet-Popescu. « Novel solutions for side information generation and fusion in multiview DVC ». In EURASIP Journal of Advances on Signal Processing, vol. 2013, no. 154, pp. 17, Octobre 2013.
  15. Fehn, C. (2004, May). Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV. In Electronic Imaging 2004 (pp. 93-104). International Society for Optics and Photonics.
  16. Dricot, J. Jung, M. Cagnazzo, F. Dufaux, B. Pesquet-Popescu. « Subjective evaluation of Super Multi-View compressed contents on high-end light-field 3D displays ». In Elsevier Signal Processing: Image Communication, vol. 39, pp. 369-385, Novembre 2015
  17. Purica, E. Mora, M. Cagnazzo, B. Ionescu, B. Pesquet-Popescu. « Multiview plus depth video coding with temporal prediction view synthesis ». In IEEE Transactions on Circuits and Systems for Video Technology, vol. 26, no. 2, pp. 360 – 374, February 2016.
  18. [Snavely 2008] N. Snavely, S.M. Seitz, R. Szeliski. Modeling the world from internet photo collections. Int. J. Comput. Vis., 80 (2) (2008), pp. 189–210
  19. [Milani 2016] Simone Milani, Compression of multiple user photo galleries, Image and Vision Computing, Volume 53, September 2016, Pages 68-75
  20. [Zini et al 2013] L. Zini, A. Cavallaro, F. Odone. Action-based multi-camera synchronization. IEEE J. Emerging Sel. Top. Circuits Syst., 3 (2) (2013), pp. 165–174
  21. [Shen et al 2010] L. Shen, Z. Liu, T. Yan, Z. Zhang, P. An. View-adaptive motion estimation and disparity estimation for low complexity multiview video coding. IEEE Trans. Circuits Syst. Video Technol., 20 (6) (2010), pp. 925–930
  22. Lowe, D. G. (1999). Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on (Vol. 2, pp. 1150-1157). Ieee.
  23. Bay, H., Tuytelaars, T., & Van Gool, L. (2006, May). Surf: Speeded up robust features. In European conference on computer vision (pp. 404-417). Springer Berlin Heidelberg.

 

Article IEEE TIP

L’article de Nello Fiengo sur l’allocation et le contrôle de débit pour le codeur vidéo HEVC a été accepté sur IEEE Transactions on Image Processing. Félicitations à Nello !

A. Fiengo, G. Chierchia, M. Cagnazzo, B. Pesquet-Popescu. « Rate Allocation in predictive video coding using a Convex Optimization Framework ». In IEEE Transactions on Image Processing, vol. 21, 2016.

 

Nouvels articles dans SPIE

Deux nouvels articles ont été présenté dans la conférence SPIE Applications of Digital Image Processing 2016 :

  • C. Schretter, S. Bettens, B. Pesquet-Popescu, M. Cagnazzo, F. Dufaux, P. Schelkens. « Compressed digital holography: from micro towards macro »
  • A. Dricot, J. Jung, M. Cagnazzo, B. Pesquet-Popescu, F. Dufaux. « Improved integral images compression based on multi-view extraction »

 

Mon blog professionnel sur l'activité en tant que enseignant/chercheur de Telecom-ParisTech