Archives de catégorie : Vidéo

[:fr]Session spéciale à ACM ICDSC’19[:en]Special session ACM ICDSC’19[:]

[:fr]Notre proposition de session spéciale à la conférence ACM International Conference on Distributed Smart Cameras (ICDSC’19) a été acceptée !
La session spéciale s’intitule : « Trends in Free Navigation Technologies ».
Ici on peut trouver l’appel à soumissions [:en]Our special session proposal in ACM International Conference on Distributed Smart Cameras (ICDSC’19) has been accepted!
The special session title is « Trends in Free Navigation Technologies ».
Find here the call for papers

It is an open special session, so you can apply directly through the conference website.[:]

[:fr]Offre de thèse de doctorat[:en]PhD position available[:it]Borsa di dottorato[:]

[:fr]MàJ Cette thèse a été attribué, ce n’est plus disponible

Acquisition et visualisation de séquences d’images plénoptiques et synthèse de vues intermédiaires

Contexte

Après les progrès notables quant à l’élargissement de la dynamique des images numériques, des efforts importants de recherche se portent aujourd’hui sur l’enrichissement des informations liées à la géométrie de la lumière de la scène capturée.  Nous faisons référence ici à deux approches complémentaires : premièrement aux systèmes composés de multiples caméras (dit système multi-caméras, y compris les caméras à 360° ou les systèmes de captation « multivues ») permettant d’acquérir la scène sous différents points de vue, et deuxièmement aux systèmes dit « light-field » qui capture en un endroit le champ de lumière et non seulement l’intensité de la lumière. Ces deux approches permettent de proposer les mêmes types de fonctionnalités :

  1. changement de point de vues (il est souvent fait référence à la notion de « free view point image ») [1].
  2. Simulation d’une profondeur de champ, c’est à dire de la zone nette dans l’image.

Toutes ces nouvelles approches peuvent s’unifier sous la notion d’images plénoptiques, [2] définies par la fonction plénoptique :

qui fournit l’intensité de la lumière (et éventuellement la phase) pour tous les points de la scène , pour toutes les directions , pour toutes les longueurs d’onde et en fonction du temps

Le sujet de thèse proposée ici porte sur trois des problématiques clés des images plénoptiques : l’acquisition, la visualisation et la synthèse de vues intermédiaires.

Les outils d’acquisition dont on dispose aujourd’hui ne permettent pas une acquisition de la fonction plénoptique complète, mais correspondent à un échantillonnage de celle-ci. Par exemple, un système d’acquisition multivues classique permet d’effectuer l’acquisition avec y et z constantes, et en échantillonnant x à pas régulier. Un système Super Multiview (c’est-à-dire, avec parallaxe horizontale et verticale [3]) échantillonne  sur x et y. D’autre part, dans ce projet nous somme également intéressé par des cas plus complexes, ou le positionnement et l’orientation des caméras entrainent un échantillonnage de la fonction plénoptique sur une grille irrégulière.

Plus en général, un des problèmes fondamentales liés à l’utilisation des images plénoptiques, consiste à reconstruire la fonction  à partir d’un ensemble limité d’échantillons, qui à leur tour, peuvent appartenir à une grille régulière ou irrégulière.

Problématiques

Du fait de la richesse des informations capturées, les images plénoptiques proposent un certain nombre d’interactions à l’utilisateur, notamment :

  • Changement du point de vue et de direction de vue (cadrage)
  • Choix du point de netteté et de la profondeur de champ (mise au point)
  • Navigation dans le temps

Ces éléments, dans l’image classique, sont fixés lors de la prise de vue par le photographe (ou le chef opérateur dans le domaine de la cinématographie) afin de transmettre au mieux le message (forme de l’objet photographié, ambiance, etc.).  Dans le contexte des images plénoptiques ces éléments sont déterminés (totalement ou en partie) lors de la visualisation par l’utilisateur.  De nouvelles métaphores de visualisation peuvent alors être proposées. Par exemple l’application Fyuse [4] associe le choix de l’angle de vue au temps, alors que l’outil de visualisation de Lytro [5] propose de choisir la zone nette par un clic de souris.

Tous ces opérations nécessitent d’une façon ou d’une autre, d’avoir accès à la fonction plénoptique

Dans le cadre de cette thèse, les travaux de recherche porteront sur la proposition de nouvelles métaphores génériques de visualisation interactives d’images plénoptiques avec la triple contrainte de :

  1. Permettre au créateur de l’image de contrôler la manière dont il souhaite transmettre l’information. Par exemple, les outils développés dans le cadre de cette thèse pourront limiter la profondeur de champ afin que l’objet principal de la scène reste toujours net alors que l’arrière-plan reste flou quel que soit le point de vue choisi.
  2. Maximiser la qualité de l’expérience utilisateur quel que soit le périphérique utilisé pour la visualisation (écran classique, écran mobile, casque de réalité virtuelle, etc.). Par exemple, il est possible de définir (automatiquement) une trajectoire de l’angle de vue lors de la visualisation d’une vidéo panoramique sur un écran classique sans périphérique d’interaction.
  3. Offrir à l’utilisateur final la possibilité de naviguer librement dans la scène et par conséquent utiliser au mieux l’ensemble des vues réelles captée par les caméras pour synthétiser un point de vue arbitraire.

Les domaines scientifiques qui sont utiles à ces travaux viennent de différents domaines tels que :

  • l’esthétique des images : évaluation de l’esthétique des images, respect d’une esthétique donnée [6]
  • la cinématographie virtuelle : choix automatiques du point de vue et du montage [7]
  • perception et attention visuelle : autofocus intelligent [8] [9]
  • la vidéo à point de vue libre: interpolation de vues intermédiaires [10] [11]

Ces domaines interagissent les uns avec les autres : la synthèse (ou interpolation) de vue est préalable à la cinématographie virtuelle et peut exploiter les informations d’attention visuelle pour optimiser le processus là où l’utilisateur regarde : tout cela impacte évidemment l’esthétique et la qualité du résultat.

Méthodologie envisagée

La synthèse d’image intermédiaire joue un rôle clé dans le système que nous voulons réaliser. En effet, on peut voir ce problème comme celui de reconstruire (en tout ou en partie) la fonction plénoptique  à partir d’un ensemble d’échantillons [12]. Cette reconstruction est basée sur la géométrie de la scène et utilise souvent des opérations de post-traitement pour pallier aux artefacts de l’interpolation.

La synthèse d’image a été longuement étudie par les communautés de la Computer Vision et de la compression, même en dehors du cadre de la reconstruction de la fonction plénoptique. Les premières méthodes proposées en synthèse de vue s’appuient uniquement sur l’information visuelle : on parle alors de Image-Based Rendering (IBR) [13]. L’estimation de la disparité et la détection des occlusions (comme par exemple en [14]) sont des outils très importants pour que cette synthèse soit efficace. Ces outils seront testés dans le cadre de la thèse.

Quand, en plus des informations visuelles, on connait également la géométrie de la scène, on peut utiliser la synthèse d’image aidé par la profondeur, Depth Image-Based Rendering (DIBR) [15]. Même si le DIBR a été proposé dans les années 2000, la qualité des reconstructions qu’on peut obtenir n’est pas toujours satisfaisante, comme montré notamment lors des études de qualité perçue [16]. Néanmoins, des méthodes récentes semblent pouvoir combler ce fossé [17] grâce à l’utilisation conjointe de l’information spatiale et temporelle. Il s’agit ici d’une autre piste de développement possible. En plus, les techniques de détection d’occlusions peuvent bénéficier de l’information de profondeur.

Une autre source de difficulté est le positionnement des caméras utilisées pour acquérir la scène [18].  Une phase préalable de synchronisation et calibration est nécessaire pour que la synthèse puisse se faire correctement [19] [20] [21]. A cette fin, les outils de mise en correspondance de features comme SIFT [22], SURF [23] ou autres, semblent indispensables pour aboutir à une compréhension de la géométrie de la scène [14] [18] .

Calendrier des travaux

La thèse débutera avec une étude approfondie de l’état de l’art dans des différents domaines : la synthèse d’image, (avec et sans profondeur), calibration de caméras, la géométrie 3D appliqué à la vision (en particulier, estimation de disparité et détection d’occlusions), les features visuelles et leur mise en correspondance, ainsi que les aspects physiologique de la vision par rapport à la synthèse d’image.

A niveau pratique, le doctorant pourra prendre en main les systèmes d’acquisition d’images plénoptiques maitrisés par l’équipe b<>com.

Avec ces outils, le doctorant pourra tester des méthodes de synthèse d’images : d’abord dans des cas simples (grille régulière, systèmes super-multivues), en suite dans des configurations plus complexes. Les principes liés à la vision humaine seront graduellement intégrés dans le système, ce qui permettrait par exemple de synthétiser uniquement (ou avec une meilleure qualité) les parties saillantes de la scène.

Au même temps, l’impact des outils de synthèse (simples ou complexes) sur la visualisation, navigation, la cinématographie virtuelle, l’esthétisme, seront évalués, en sorte d’avoir toujours en vue la chaine complète de traitement. A ce propos, l’objectif  final est la mise en place de cette chaine, qui permette la reconstruction des images plénoptique et leur pleine utilisation.

Directeur(s) de thèse :

Rémi Cozot, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, IRISA/Université de Rennes 1 – cozot@irisa.fr

Marco Cagnazzo, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, Telecom-ParisTech/Institut Mines-Télécom– cagnazzo@telecom-paristech.fr

 Références

  1. Tanimoto, Free-Viewpoint Television Image and Geometry Processing for 3-D Cinematography, M. Ronfard, Ré. & Taubin, G. (Eds.) Springer Berlin Heidelberg, 2010, 53-76
  2. H. Adelson and J. Bergen, “The plenoptic function and the elements of early vision,” In Computational Models of Visual Processing, pages 3-20. MIT Press, 1991
  3. Dricot, A.; Jung, J.; Cagnazzo, M.; Pesquet, B. & Dufaux, F. « Full Parallax 3D Video Content Compression ». Dans Novel 3D Media Technologies, Springer New York, 2015, 49-70
  4. http://fyu.se
  5. http://lytro.com
  6. C Bist, R. Cozot, G. Madec, X. Ducloux, Style Aware Tone Expansion for HDR Displays. Graphic Interface 2016
  7. Lino, M. Christie, Efficient composition for virtual camera control. ACM SIGGRAPH / Eurographics Symposium on Computer Animation, 2012
  8. Hillaire, A. Lécuyer, T. Regia-Corte, R. Cozot, J. Royan et G. Breton, Design and application of real-time visual attention model for the exploration of 3d virtual environments. IEEE Transactions on Visualization and Computer Graphics (TVCG), 18(3):356–368, 2012
  9. Hillaire, A. Lécuyer, R. Cozot et G. Casiez, Depth-of-field blur effects for first-person navigation in virtual environments. IEEE Computer Graphics and Applications, 28(6):47–55, 2008
  10. D. Farin, Y. Morvan, PHN. de With, View Interpolation Along a Chain of Weakly Calibrated Cameras. IEEE Workshop on Content Generation and Coding for 3D-Television, Eindhoven, Netherlands, June 2006
  11. F. Dufaux, B. Pesquet-Popescu, M. Cagnazzo (eds.): Emerging Technologies for 3D Video. Wiley, 2013
  12. Chebira, A., Dragotti, P. L., Sbaiz, L., & Vetterli, M. (2003, September). Sampling and interpolation of the plenoptic function. In Image Processing, 2003. ICIP 2003. 2003 International Conference on (Vol. 2, pp. II-917). IEEE
  13. H Shum, S Kang, A review of image-based rendering techniques. Proceed. Intern. Symp. Visual Comm and Proc. (2000). doi: 10.1117/12.386541
  14. Petrazzuoli, M. Cagnazzo, B. Pesquet-Popescu. « Novel solutions for side information generation and fusion in multiview DVC ». In EURASIP Journal of Advances on Signal Processing, vol. 2013, no. 154, pp. 17, Octobre 2013.
  15. Fehn, C. (2004, May). Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV. In Electronic Imaging 2004 (pp. 93-104). International Society for Optics and Photonics.
  16. Dricot, J. Jung, M. Cagnazzo, F. Dufaux, B. Pesquet-Popescu. « Subjective evaluation of Super Multi-View compressed contents on high-end light-field 3D displays ». In Elsevier Signal Processing: Image Communication, vol. 39, pp. 369-385, Novembre 2015
  17. Purica, E. Mora, M. Cagnazzo, B. Ionescu, B. Pesquet-Popescu. « Multiview plus depth video coding with temporal prediction view synthesis ». In IEEE Transactions on Circuits and Systems for Video Technology, vol. 26, no. 2, pp. 360 – 374, February 2016.
  18. [Snavely 2008] N. Snavely, S.M. Seitz, R. Szeliski. Modeling the world from internet photo collections. Int. J. Comput. Vis., 80 (2) (2008), pp. 189–210
  19. [Milani 2016] Simone Milani, Compression of multiple user photo galleries, Image and Vision Computing, Volume 53, September 2016, Pages 68-75
  20. [Zini et al 2013] L. Zini, A. Cavallaro, F. Odone. Action-based multi-camera synchronization. IEEE J. Emerging Sel. Top. Circuits Syst., 3 (2) (2013), pp. 165–174
  21. [Shen et al 2010] L. Shen, Z. Liu, T. Yan, Z. Zhang, P. An. View-adaptive motion estimation and disparity estimation for low complexity multiview video coding. IEEE Trans. Circuits Syst. Video Technol., 20 (6) (2010), pp. 925–930
  22. Lowe, D. G. (1999). Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on (Vol. 2, pp. 1150-1157). Ieee.
  23. Bay, H., Tuytelaars, T., & Van Gool, L. (2006, May). Surf: Speeded up robust features. In European conference on computer vision (pp. 404-417). Springer Berlin Heidelberg.

 [:en]Update: this position is no longer available

Acquisition and visualization of the Plenoptic function with intermediate view synthesis

Context

There is an increasing interest towards the applications that allow Free Navigation Video Services [1], where users can modify the viewpoint on a scene while receiving a video. These services try to provide the user with the so-called Plenoptic function of the scene [2], defined as:

P_f(x,y,z,theta,phi,lambda,t)

It gives the light intensity at each position  for any incident angle , for any wavelength  and at any time.  This doctoral project is focused on three key problems related to the use of the Plenoptic function : its acquisition, synthesis and visualization.

Current tools for acquisition do not allow collecting the whole Plenoptic function; on the contrary, they allow a sampling of it. For example, in Super-MultiView video[3], the plane (z=z_0)  is fixed, and only the forward scene, i.e. when the polar angle comprised , is between -pi/2 and pi/2, is acquired. Moreover, the plane  is sampled at the position of each camera.

In this project we are interested in the interpolation of the Plenoptic function, i.e. in the synthesis of virtual viewpoints that were not acquired by real cameras. Moreover, we also want to explore the case of irregular sampling position of P_f.

Challenges

Access to the Plenoptic function would allow new ways to create and consume visual contents. For example, the Fyuse application [4] allows to change the view angle during the reproduction, while the Lytro system [5] allows post-acquisition refocusing.

Several scientific fields are concerned by this approach :

  • Image aesthetics [6]
  • virtual cinema [1]
  • perception and visual attention [8][9]
  • free viewpoint video  [10] [11]

These items interact one with the other : view synthesis is preliminary for virtual cinema and may benefit from visual attention and perception information ; the whole process impacts on the quality and the aesthetics of the resulting image.

Methodology

Image synthesis plays a key role in the system that we want to implement. We can see the problem as the interpolation of the Plenoptic function from a set of samples [12]. This reconstruction is based on the scene geometry and often uses post-processing for alleviating the synthesis artifacts.

Image synthesis and rendering have been long studied by the Computer Vision community and the Compression community, even outside the context of Plenoptic function interpolation. The first methods only used the images for the synthesis: they fall into the Image-Based Rendering (IBR) [13] family. Disparity estimation and occlusion detection are typical tools used to improve the synthesis for this case[14], and may prove useful in this doctoral project.

When the depth information is also available, we have the Depth Image-Based Rendering (DIBR) [15] family. Even though DIBR is known since the first 2000’s, the quality of synthesis is not fully satisfying yet [16]. Nevertheless, some promising methods have been proposed recently [17]. They combine temporal and inter-view redundancy to improve the synthesis.

Another difficulty may come from the camera positioning [18].  A preliminary calibration and synchronization phase are needed in order to have a high quality synthesis [19] [20] [21]. To this end, feature matching tools could be employed, such as  SIFT [22], SURF [23]. This look necessary in order to achieve the 3D scene understanding [1][18] .

Work agenda

This doctoral project will start with a deep and accurate study of the state of the art in the different concerned domains : image synthesis, camera calibration, 3D geometry, feature matching, visual attention. From a practical point of view, the PhD candidate may use the facilities at b<>com to test the acquisition of the Plenoptic function and to perform camera calibration and synchronization.

Then, the PhD candidate will test and implement different synthesis methods, starting from the state of the art, and then proposing more complex and effective solutions. Human vision principles should be integrated into the new approaches.

At the same time, the impact of the synthesis methods on such practical applications as visualization, free navigation, virtual cinema, …, will be taken into account. The final target of the doctoral project is the mastering of the complete system from acquisition to visualization.

Advisors :

Rémi Cozot, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, IRISA/Université de Rennes 1 – cozot@irisa.fr

Marco Cagnazzo, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, Telecom-ParisTech/Institut Mines-Télécom– cagnazzo@telecom-paristech.fr

Bibliography

  1. Tanimoto, Free-Viewpoint Television Image and Geometry Processing for 3-D Cinematography, M. Ronfard, Ré. & Taubin, G. (Eds.) Springer Berlin Heidelberg, 2010, 53-76
  2. H. Adelson and J. Bergen, “The plenoptic function and the elements of early vision,” In Computational Models of Visual Processing, pages 3-20. MIT Press, 1991
  3. Dricot, A.; Jung, J.; Cagnazzo, M.; Pesquet, B. & Dufaux, F. « Full Parallax 3D Video Content Compression ». Dans Novel 3D Media Technologies, Springer New York, 2015, 49-70
  4. http://fyu.se
  5. http://lytro.com
  6. C Bist, R. Cozot, G. Madec, X. Ducloux, Style Aware Tone Expansion for HDR Displays. Graphic Interface 2016
  7. Lino, M. Christie, Efficient composition for virtual camera control. ACM SIGGRAPH / Eurographics Symposium on Computer Animation, 2012S. Hillaire, A. Lécuyer, T. Regia-Corte, R. Cozot, J. Royan et G. Breton, Design and application of real-time visual attention model for the exploration of 3d virtual environments. IEEE Transactions on Visualization and Computer Graphics (TVCG), 18(3):356–368, 2012
  8. Hillaire, A. Lécuyer, R. Cozot et G. Casiez, Depth-of-field blur effects for first-person navigation in virtual environments. IEEE Computer Graphics and Applications, 28(6):47–55, 2008
  9. [Farin et al. 2006] D. Farin, Y. Morvan, PHN. de With, View Interpolation Along a Chain of Weakly Calibrated Cameras. IEEE Workshop on Content Generation and Coding for 3D-Television, Eindhoven, Netherlands, June 2006
  10. [Dufaux et al 2013] F. Dufaux, B. Pesquet-Popescu, M. Cagnazzo (eds.): Emerging Technologies for 3D Video. Wiley, 2013
  11. Chebira, A., Dragotti, P. L., Sbaiz, L., & Vetterli, M. (2003, September). Sampling and interpolation of the plenoptic function. In Image Processing, 2003. ICIP 2003. 2003 International Conference on (Vol. 2, pp. II-917). IEEE
  12. H Shum, S Kang, A review of image-based rendering techniques. Proceed. Intern. Symp. Visual Comm and Proc. (2000). doi: 10.1117/12.386541
  13. Petrazzuoli, M. Cagnazzo, B. Pesquet-Popescu. « Novel solutions for side information generation and fusion in multiview DVC ». In EURASIP Journal of Advances on Signal Processing, vol. 2013, no. 154, pp. 17, Octobre 2013.
  14. Fehn, C. (2004, May). Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV. In Electronic Imaging 2004 (pp. 93-104). International Society for Optics and Photonics.
  15. Dricot, J. Jung, M. Cagnazzo, F. Dufaux, B. Pesquet-Popescu. « Subjective evaluation of Super Multi-View compressed contents on high-end light-field 3D displays ». In Elsevier Signal Processing: Image Communication, vol. 39, pp. 369-385, Novembre 2015
  16. Purica, E. Mora, M. Cagnazzo, B. Ionescu, B. Pesquet-Popescu. « Multiview plus depth video coding with temporal prediction view synthesis ». In IEEE Transactions on Circuits and Systems for Video Technology, vol. 26, no. 2, pp. 360 – 374, February 2016.
  17. [Snavely 2008] N. Snavely, S.M. Seitz, R. Szeliski. Modeling the world from internet photo collections. Int. J. Comput. Vis., 80 (2) (2008), pp. 189–210
  18. [Milani 2016] Simone Milani, Compression of multiple user photo galleries, Image and Vision Computing, Volume 53, September 2016, Pages 68-75
  19. [Zini et al 2013] L. Zini, A. Cavallaro, F. Odone. Action-based multi-camera synchronization. IEEE J. Emerging Sel. Top. Circuits Syst., 3 (2) (2013), pp. 165–174
  20. [Shen et al 2010] L. Shen, Z. Liu, T. Yan, Z. Zhang, P. An. View-adaptive motion estimation and disparity estimation for low complexity multiview video coding. IEEE Trans. Circuits Syst. Video Technol., 20 (6) (2010), pp. 925–930
  21. Lowe, D. G. (1999). Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on (Vol. 2, pp. 1150-1157). Ieee.
  22. Bay, H., Tuytelaars, T., & Van Gool, L. (2006, May). Surf: Speeded up robust features. In European conference on computer vision (pp. 404-417). Springer Berlin Heidelberg.

 [:it]Aggiornamento: la borsa è stata attribuita.

La descrizione del progetto di ricerca è disponibile nella versione francese o inglese di questo sito.

Per candidarsi, è sufficiente scrivermi o effettuare la candidatura sul sito della scuola di dottorato.[:]

[:fr]Articles acceptés IEEE ICIP[:en]Articles accepted in IEEE ICIP[:it]Articoli accettati alla conferenza ICIP[:]

[:fr]Trois nouveaux articles ont été acceptés dans la conférence IEEE International Conference on Image Processing http://2016.ieeeicip.org/

Le premier article porte sur le codage des cartes de profondeur par segmentation. Il est le résultat du travail de notre doctorant M. Calemme (co-encadré avec B. Pesquet-Popescu) en collaboration avec P. Zanuttigh et S. Milani du laboratoire LTTM de l’université de Padoue (Italie). Un aperçu de l’article est disponible sur le site du LTTM.

Le deuxième est basé sur le travail de notre doctorant N. Fiengo (co-encadré avec B. Pesquet-Popescu) sur l’allocation de débit pour le codage vidéo avec HEVC-MV.

Le troisième (premier auteur, S. Zheng, coencadré avec M. Kieffer) porte sur la transmission robuste de la vidéo, par un schéma basé sur SoftCast et par allocation de puissance.[:en]Three articles have been accepted in IEEE ICIP

  1. Depth map video coding using segmented maps (collaboration with Univ. of Padova, Italy). The first results are available here.
  2. Rate allocation for HEVC-MV
  3. SoftCast based power allocation scheme

[:it]Tre articoli sono stati accettati alla conferenza ICIP

  1. Codifica di mappe di profondità con segmentazione. I primi risultati sono disponibili Un aperçu de l’article est disponible sul  sito del laboratorio LTTM dell’università di Padova, nostro partner in questo lavoro.
  2. Allocazione di tasso in HEVC-MC
  3. Allocazione di potenza con SoftCast

[:]

[:fr]Article accepté dans IEEE Transactions on Image Processing[:en]Article accepted in IEEE Transactions on Image Processing[:it]Articolo accettato in IEEE Transactions on Image Processing[:]

[:fr]Notre article « Reference view selection in DIBR-based multiview coding » vient d’être accepté dans la revue IEEE Transactions on Image Processing.[:en]Our article « Reference view selection in DIBR-based multiview coding » has been accepted in IEEE Transactions on Image Processing.[:it]Il nostro articolo « Reference view selection in DIBR-based multiview coding » è stato accettato in IEEE Transactions on Image Processing.[:]

[:fr]Article Network Coding[:en]Article on Network Coding for Multi-view Video[:it]Articolo Network Coding per video multiview[:]

[:fr]Notre article sur le Codage Réseau pour la transmission robuste de la vidéo multivue a été accepté dans la revue Springer  EURASIP Journal on Advances in Signal Processing.

L’idée de base est celle d’adapter le scheduling d’une vidéo multi-vues en format H.264/MVC en sorte  de maximiser le PSNR attendu par une population d’utilisateurs qui ont des préférences sur les vues à afficher.

L’article est en accès libre sur le site de la revue et dans la rubrique Publications/Journaux.

 [:en]Our article about Network Coding for Multiview Video has been accepted in Springer  EURASIP Journal on Advances in Signal Processing.

The basic idea is to adapt the scheduler of a multi-view stream (H.264/MVC format) to user preferences, exploiting Network Coding to maximize the PSNR.

The article is in Open Acces on the journal web site and in the Publications/Journals section of this site.[:it]Il nostro articolo sul network coding applicato alla codofica video multi view è stato accettato dalla rivista Springer  EURASIP Journal on Advances in Signal Processing.

L’idea di base è di adattare lo scheduling d’un video multi-view in formato H.264/MV in modo da massimizzare il PSNR atteso dagli utenti sulla base delle preferenze su ciascun punto di vista.

L’articolo è in accesso libero sul sito della rivista e nella rubrica Pubblicazioni/Riviste.[:]

[:fr]Thèse CIFRE : compression de vidéos d’écran d’avion[:en]PhD Thesis: compression of avionics screen content[:it]Borsa di dottorato: compressione di schermate d’aereo[:]

[:fr]Candidature :

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954

Dans le cadre du développement des produits aéronautiques, la société Zodiac développe des solutions d’acquisition et de traitement vidéo en environnement à fortes contraintes. Cette thèse s’inscrit dans une démarche de recherche pour l’amélioration de leurs systèmes de visualisation.
Les informations sur les écrans avioniques présentent des caractéristiques spécifiques, notamment des informations textuelles et graphiques qui ne doivent pas être altérées par la compression. Or, la plupart des systèmes de compression très bas débit conduisent à des artefacts importants notamment au niveau des contours, qui rendraient inutilisables ces données. La compression de ce type de données pose donc des défis supplémentaires par rapport à la compression de vidéos classiques (aussi dites, naturelles). Des avancées ont été faites avec les extensions Screen Content de HEVC, mais il y a de la marge pour des gains importants.

 

Approche proposée et méthodologie

L’approche proposée vise à prendre en compte au niveau du codeur les spécificités des vidéos écrans d’avion, avec un codage adaptif, sémantique et par apprentissage.

Nous envisageons de reconnaitre les parties différentes de l’image à coder : texte, graphiques, niveaux des indicateurs, éventuellement images de fond, et adopter donc un codage adaptif. En particulier, pour le texte et les éléments graphiques un codage sémantique est envisagé : le texte sera donc reconnu et codé en tant que tel, plutôt que comme un ensemble de pixels. Cela permettra une représentation sans pertes de cette information capitale. Par contre, les éléments les moins importants de l’image au niveau sémantique pourront être codés avec une technique « lossy », c’est-à-dire, avec perte d’information. Le débit épargné sur les parties moins importantes de la vidéo pourra être utilisé pour coder parfaitement les parties sensibles.

Une phase d’apprentissage et classification est également envisagée. Le codeur reconnait le « type » d’écran d’avion qu’il a à coder, et y recherche les informations sensibles en conséquence. Les travaux préliminaires ont montré que la connaissance de la position de quelques lettres dans l’écran permet d’effectuer une classification très fiable du type d’écran. La classification à son tour permet de raffiner la reconnaissance du texte : si quelques lettres étaient perdues dans la première étape de reconnaissance, une fois que l’écran ait été correctement classifié à l’aide des lettres reconnues, il sera possible de lancer une nouvelle reconnaissance de texte adaptée aux informations a priori sur le type d’écran (par exemple, on s’attend d’avoir du texte dans certaines positions spécifiques, même si pas tout le texte a été retrouvé lors de la première itération).

La classification joue donc un rôle majeur dans l’approche envisagée. Il s’agit d’une classification multi-classe, pour laquelle nous avons récemment développé une méthode originale de type Support Vector Machine (SVM) [2], qui présente des performances intéressantes notamment pour les problèmes présentant un nombre réduit d’exemples d’entrainement. L’enjeu consiste ici d’intégrer les critères de classification lors de la phase de compression directement, en combinant ces critères avec les approches classiques débit-distorsion.

Candidature :

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954

Références bibliographiques

[1] Sullivan, G. J., Ohm, J. R., Han, W. J., & Wiegand, T. (2012). Overview of the high efficiency video coding (HEVC) standard. IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1649-1668.

[2] G. Chierchia, N. Pustelnik, JC Pesquet, B. Pesquet-Popescu, « A Proximal Approach for Sparse Multiclass SVM », submitted to the « Journal of Machine Learning Research », February 2015[:en]The airplane screens have a very specific video content, where text and graph are superposed to images or to a uniform background.

Compressing this kind of data requires adapted techniques, since the most important information (text, graph) is usually degraded by traditional, transform-based video compression techniques.

We want to investigate the use of classification, segmentation and inpainting to recognize the most relevant information and encode it with appropriate methods.

The PhD student will work at both Telecom-ParisTech and Zodiac Aerospace

APPLY HERE:

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954[:it]Per la candidatura vedere qui:

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954[:]

[:fr]Proposition de thèse : modèles débit-distorsion pour les nouveaux formats vidéo[:en]PhD Thesis proposal: rate-distortion models for emerging video format[:it]Tesi di dottorato: modelli tasso-distorsione per i nuovi formati video[:]

[:fr]La récente norme de codage HEVC permet de représenter des nouveaux formats vidéo, tels que la vidéo scalable, multi-vues, 3D, ou encore, à dynamique étendue.

Pour que ce codage soit efficace, l’allocation des ressources de codage est capitale, si bien à niveau de groupe d’images que entre unités de codage au seine d’une même image.

Pour cela il est nécessaire d’avoir des modèles débit-distorsion qui représentent fidèlement le comportement du nouveau codeur HEVC.

En se basant sur les résultats obtenus sur le signal vidéo classique (voir publications avec notre doctorant Nello Fiengo), nous voulons proposer et étudier des modèles débit-distorsion pertinents pour les formats vidéo émergents, possiblement avec prise en compte de la qualité perçue par l’utilisateur humain.

Pour candidater à cette thèse, connectez-vous au site de l’ADUM.

http://www.adum.fr/[:en]HEVC can be used to encode new video formats, such as 3D video, super-multiview video, of high dynamic range video.[:]

[:fr]Article QoMEX accepté [:en]QoMEX article accepted[:it]Articolo QoMEX accettato[:]

[:fr]Notre article sur la compression des cartes de profondeur par interpolation élastique des contours a été accepté dans la conférence QoMEX 2015.

 [:en]

Our article about depth map compression by elastic interpolation of contours has been accepted into QoMEX 2015.

[:it]

Il nostro articolo sulla compressione delle mappe di profondità tramite deformazione elastica dei contorni è stato accettato in  QoMEX 2015.

[:]

[:fr]Sequences vidéo décodées pour ICIP’15[:en]Decoded sequences for our ICIP’15 submission[:it]Sequenze video decodificate per ICIP’15[:]

[:fr]Les séquences vidéo pour notre soumission à ICIP’15 sont disponibles ici. Attention, chaque fichier fait environ 300 Mo.

Reference method Proposed method
Four People Four People
Johnny Johnny
Kirsten and Sarah Kirsten and Sarah

Les séquences ont été codées avec la méthode de référence et une nouvelle méthode (« proposed method »). Après simulation de transmission et décodage, les séquences disponibles ici montrent la supériorité de l’approche que nous avons introduit.[:en]The decoded video sequences for our submission to ICIP’15 are available here. Each file is about 300MB.

Reference method Proposed method
Four People Four People
Johnny Johnny
Kirsten and Sarah Kirsten and Sarah

The use case is the following. The three HEVC class-E sequences (Four_People, Johnny, Kirsten_and_Sarah) have been encoded with the proposed method (our ICIP’15 submission) and the standard HEVC encoder (HM13). Then we simulated transmission on a lossy channel, using a Gilbert-Elliot model. Finally, we decoded the received packets, employing a simple error concealement technique. These videos show the superiority of the proposed scheme with respect to the reference.[:it]

Le sequenze video relative al nostro articolo sottomesso a ICIP’15 sono disponibili qui (dimensione dei file: circa 300MB ciascuno).

Reference method Proposed method
Four People Four People
Johnny Johnny
Kirsten and Sarah Kirsten and Sarah

[:]

[:fr]Articles sur la synthèse d’images dans la vidéo multi-vues[:en]Articles on image synthesis[:it]Articoli sulla sintesi d’immagini[:]

[:fr]Deux articles (un article de journal, IEEE TCSVT, et un de conférence, ICASSP 2015) portant sur la synthèse de points de vue virtuels dans le cadre du codage vidéo multi-vues ont été acceptés.

Bravo à Andrei et Elie ! Merci également à Béatrice et Bogdan dont la collaboration a été extrêmement précieuse pour la réussite des articles.

L’idée de base consiste à utiliser conjointement l’estimation de mouvement (flux optique) et de disparité pour générer des points de vue virtuels de la meilleure qualité. En choisissant judicieusement quelles images doivent être codées et quelles peuvent être synthétisées, on obtient des gains de codages surtout à faible-moyen débit.

 [:en]

A journal and a conference paper about virtual viewpoint synthesis were recently accepted.

 

[:]