Archives de catégorie : Nouveau

Thèse CIFRE : compression de vidéos d’écran d’avion

Candidature :

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954

Dans le cadre du développement des produits aéronautiques, la société Zodiac développe des solutions d’acquisition et de traitement vidéo en environnement à fortes contraintes. Cette thèse s’inscrit dans une démarche de recherche pour l’amélioration de leurs systèmes de visualisation.
Les informations sur les écrans avioniques présentent des caractéristiques spécifiques, notamment des informations textuelles et graphiques qui ne doivent pas être altérées par la compression. Or, la plupart des systèmes de compression très bas débit conduisent à des artefacts importants notamment au niveau des contours, qui rendraient inutilisables ces données. La compression de ce type de données pose donc des défis supplémentaires par rapport à la compression de vidéos classiques (aussi dites, naturelles). Des avancées ont été faites avec les extensions Screen Content de HEVC, mais il y a de la marge pour des gains importants.

 

Approche proposée et méthodologie

L’approche proposée vise à prendre en compte au niveau du codeur les spécificités des vidéos écrans d’avion, avec un codage adaptif, sémantique et par apprentissage.

Nous envisageons de reconnaitre les parties différentes de l’image à coder : texte, graphiques, niveaux des indicateurs, éventuellement images de fond, et adopter donc un codage adaptif. En particulier, pour le texte et les éléments graphiques un codage sémantique est envisagé : le texte sera donc reconnu et codé en tant que tel, plutôt que comme un ensemble de pixels. Cela permettra une représentation sans pertes de cette information capitale. Par contre, les éléments les moins importants de l’image au niveau sémantique pourront être codés avec une technique « lossy », c’est-à-dire, avec perte d’information. Le débit épargné sur les parties moins importantes de la vidéo pourra être utilisé pour coder parfaitement les parties sensibles.

Une phase d’apprentissage et classification est également envisagée. Le codeur reconnait le « type » d’écran d’avion qu’il a à coder, et y recherche les informations sensibles en conséquence. Les travaux préliminaires ont montré que la connaissance de la position de quelques lettres dans l’écran permet d’effectuer une classification très fiable du type d’écran. La classification à son tour permet de raffiner la reconnaissance du texte : si quelques lettres étaient perdues dans la première étape de reconnaissance, une fois que l’écran ait été correctement classifié à l’aide des lettres reconnues, il sera possible de lancer une nouvelle reconnaissance de texte adaptée aux informations a priori sur le type d’écran (par exemple, on s’attend d’avoir du texte dans certaines positions spécifiques, même si pas tout le texte a été retrouvé lors de la première itération).

La classification joue donc un rôle majeur dans l’approche envisagée. Il s’agit d’une classification multi-classe, pour laquelle nous avons récemment développé une méthode originale de type Support Vector Machine (SVM) [2], qui présente des performances intéressantes notamment pour les problèmes présentant un nombre réduit d’exemples d’entrainement. L’enjeu consiste ici d’intégrer les critères de classification lors de la phase de compression directement, en combinant ces critères avec les approches classiques débit-distorsion.

Candidature :

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954

Références bibliographiques

[1] Sullivan, G. J., Ohm, J. R., Han, W. J., & Wiegand, T. (2012). Overview of the high efficiency video coding (HEVC) standard. IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1649-1668.

[2] G. Chierchia, N. Pustelnik, JC Pesquet, B. Pesquet-Popescu, « A Proximal Approach for Sparse Multiclass SVM », submitted to the « Journal of Machine Learning Research », February 2015

Thèse : compression et streaming vidéo multivues

Le sujet de cet étude est la compression de la vidéo multi-vues avec information de profondeur (MVD, multiview plus depth), dans le cadre de l’Interactive Multiview Streaming (IMVS). L’objectif scientifique est de trouver les best practice pour la compression de ce type de données, extrêmement redondant, pour permettre la fruition immersive et interactive de la part d’un utilisateur à distance. Le problème de l’IMVS est très récent, et très peu de solutions existent pour le cas du MVD, qui par ailleurs est très intéressant et aussi de difficile solution, comme témoigné par la substantielle absence de techniques capables d’en exploiter complètement la redondance. Le caractère innovant de l’approche envisagé est lié à l’utilisation conjointe de nouvelles techniques de codage distribué (DVC) et de codage MVD. Le DVC permet de faire face au fait que, au moment du codage, on ne connait pas les images (points de vue) déjà disponible au décodeur. Les approches MVD nous devraient permettre de bien exploiter la grande redondance de ce type de données. Cet approche est originale par rapport à l’état de l’art : peu de travaux existent, qui s’occupent du codage MVD dans le cadre du IMVS, et ceux-ci s’appuient sur des approches très classiques, sans DVC. Un des points de force de cette proposition est la collaboration avec une des équipes leader à niveau mondial dans le contexte de l’IMVS, celle du Dr Cheung au National Institute of Informatics de Tokyo, Japon. Les résultats attendus sont la compréhension profonde des systèmes d’IMVS, et la mise en place d’une méthode nouvelle et performante de codage MVD en ce contexte.

Voir Article sur IMVS + DVC.

 

Bienvenue

Bienvenue sur le nouveau site web de Marco Cagnazzo !

Dans ce nouveau site, accédez facilement aux rubrique sur l’activité de recherche et enseignement, ainsi que aux publications et projets.

Un nouvelle rubrique sur les postes disponibles (thèses, stages, post-doc) a été ajoutée. Vous pouvez suivre les nouveautés (en particulier les nouveau postes) avec l’abbonemment au flux RSS (voir menu à coté).