[:fr]Candidature :
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954
Dans le cadre du développement des produits aéronautiques, la société Zodiac développe des solutions d’acquisition et de traitement vidéo en environnement à fortes contraintes. Cette thèse s’inscrit dans une démarche de recherche pour l’amélioration de leurs systèmes de visualisation.
Les informations sur les écrans avioniques présentent des caractéristiques spécifiques, notamment des informations textuelles et graphiques qui ne doivent pas être altérées par la compression. Or, la plupart des systèmes de compression très bas débit conduisent à des artefacts importants notamment au niveau des contours, qui rendraient inutilisables ces données. La compression de ce type de données pose donc des défis supplémentaires par rapport à la compression de vidéos classiques (aussi dites, naturelles). Des avancées ont été faites avec les extensions Screen Content de HEVC, mais il y a de la marge pour des gains importants.
Approche proposée et méthodologie
L’approche proposée vise à prendre en compte au niveau du codeur les spécificités des vidéos écrans d’avion, avec un codage adaptif, sémantique et par apprentissage.
Nous envisageons de reconnaitre les parties différentes de l’image à coder : texte, graphiques, niveaux des indicateurs, éventuellement images de fond, et adopter donc un codage adaptif. En particulier, pour le texte et les éléments graphiques un codage sémantique est envisagé : le texte sera donc reconnu et codé en tant que tel, plutôt que comme un ensemble de pixels. Cela permettra une représentation sans pertes de cette information capitale. Par contre, les éléments les moins importants de l’image au niveau sémantique pourront être codés avec une technique « lossy », c’est-à-dire, avec perte d’information. Le débit épargné sur les parties moins importantes de la vidéo pourra être utilisé pour coder parfaitement les parties sensibles.
Une phase d’apprentissage et classification est également envisagée. Le codeur reconnait le « type » d’écran d’avion qu’il a à coder, et y recherche les informations sensibles en conséquence. Les travaux préliminaires ont montré que la connaissance de la position de quelques lettres dans l’écran permet d’effectuer une classification très fiable du type d’écran. La classification à son tour permet de raffiner la reconnaissance du texte : si quelques lettres étaient perdues dans la première étape de reconnaissance, une fois que l’écran ait été correctement classifié à l’aide des lettres reconnues, il sera possible de lancer une nouvelle reconnaissance de texte adaptée aux informations a priori sur le type d’écran (par exemple, on s’attend d’avoir du texte dans certaines positions spécifiques, même si pas tout le texte a été retrouvé lors de la première itération).
La classification joue donc un rôle majeur dans l’approche envisagée. Il s’agit d’une classification multi-classe, pour laquelle nous avons récemment développé une méthode originale de type Support Vector Machine (SVM) [2], qui présente des performances intéressantes notamment pour les problèmes présentant un nombre réduit d’exemples d’entrainement. L’enjeu consiste ici d’intégrer les critères de classification lors de la phase de compression directement, en combinant ces critères avec les approches classiques débit-distorsion.
Candidature :
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954
Références bibliographiques
[1] Sullivan, G. J., Ohm, J. R., Han, W. J., & Wiegand, T. (2012). Overview of the high efficiency video coding (HEVC) standard. IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1649-1668.
[2] G. Chierchia, N. Pustelnik, JC Pesquet, B. Pesquet-Popescu, « A Proximal Approach for Sparse Multiclass SVM », submitted to the « Journal of Machine Learning Research », February 2015[:en]The airplane screens have a very specific video content, where text and graph are superposed to images or to a uniform background.
Compressing this kind of data requires adapted techniques, since the most important information (text, graph) is usually degraded by traditional, transform-based video compression techniques.
We want to investigate the use of classification, segmentation and inpainting to recognize the most relevant information and encode it with appropriate methods.
The PhD student will work at both Telecom-ParisTech and Zodiac Aerospace
APPLY HERE:
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954[:it]Per la candidatura vedere qui:
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954[:]