Archives de catégorie : Compression

Articles acceptés IEEE ICIP

Trois nouveaux articles ont été acceptés dans la conférence IEEE International Conference on Image Processing http://2016.ieeeicip.org/

Le premier article porte sur le codage des cartes de profondeur par segmentation. Il est le résultat du travail de notre doctorant M. Calemme (co-encadré avec B. Pesquet-Popescu) en collaboration avec P. Zanuttigh et S. Milani du laboratoire LTTM de l’université de Padoue (Italie). Un aperçu de l’article est disponible sur le site du LTTM.

Le deuxième est basé sur le travail de notre doctorant N. Fiengo (co-encadré avec B. Pesquet-Popescu) sur l’allocation de débit pour le codage vidéo avec HEVC-MV.

Le troisième (premier auteur, S. Zheng, coencadré avec M. Kieffer) porte sur la transmission robuste de la vidéo, par un schéma basé sur SoftCast et par allocation de puissance.

Article sur le transcodage vidéo accepté

Notre article sur le transcodage vidéo H.264 vers HEVC a été accepté dans la revue Springer Multimedia Tools and Applications.

Avec Elie Mora et Frédéric Dufaux, nous avons proposé une méthode de transcodage rapide, qui permet de représenter un flux vidéo H.264 dans la nouvelle et plus performante norme HEVC. Par rapport à un transcodeur « classique », qui effectue un décodage H.264 complet et un nouveau encodage HEVC complet (« Full decode-full encode », FD-FE) la technique proposé permet de réduire le temps de calcul en limitant la profondeur de l’arbre quaternaire de décomposition d’image utilisé dans HEVC, sans nuire à la qualité de l’image décodée. Par rapport à la référence FD-FE, nous avons mesuré un facteur d’accélération moyen de 2.7x avec une augmentation de débit (pour la même qualité) de seulement 1.4% (mesuré avec les métriques de Bjontegaard), en configuration Random Access sur les séquences de test de MPEG préconisées pour cette configuration (classes A, B, C, D, et F). En configuration Low-Delay-P, nous avons un speed-up de 2.3x avec une augmentation de débit de 3.7%. En cohérence avec les recommandations MPEG, cette configuration a été testée sur les classes B, C, D, E et F.

Ces résultats sont meilleurs que l’état de l’art et la méthode proposée fait également objet d’un brevet déposé avant la soumission de l’article.

L’article sera bientôt disponible sur le site de la revue MTAP. http://www.springer.com/-/2/AVQmUlOE2brxj7RS2ZBN

Thèse CIFRE : compression de vidéos d’écran d’avion

Candidature :

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954

Dans le cadre du développement des produits aéronautiques, la société Zodiac développe des solutions d’acquisition et de traitement vidéo en environnement à fortes contraintes. Cette thèse s’inscrit dans une démarche de recherche pour l’amélioration de leurs systèmes de visualisation.
Les informations sur les écrans avioniques présentent des caractéristiques spécifiques, notamment des informations textuelles et graphiques qui ne doivent pas être altérées par la compression. Or, la plupart des systèmes de compression très bas débit conduisent à des artefacts importants notamment au niveau des contours, qui rendraient inutilisables ces données. La compression de ce type de données pose donc des défis supplémentaires par rapport à la compression de vidéos classiques (aussi dites, naturelles). Des avancées ont été faites avec les extensions Screen Content de HEVC, mais il y a de la marge pour des gains importants.

 

Approche proposée et méthodologie

L’approche proposée vise à prendre en compte au niveau du codeur les spécificités des vidéos écrans d’avion, avec un codage adaptif, sémantique et par apprentissage.

Nous envisageons de reconnaitre les parties différentes de l’image à coder : texte, graphiques, niveaux des indicateurs, éventuellement images de fond, et adopter donc un codage adaptif. En particulier, pour le texte et les éléments graphiques un codage sémantique est envisagé : le texte sera donc reconnu et codé en tant que tel, plutôt que comme un ensemble de pixels. Cela permettra une représentation sans pertes de cette information capitale. Par contre, les éléments les moins importants de l’image au niveau sémantique pourront être codés avec une technique « lossy », c’est-à-dire, avec perte d’information. Le débit épargné sur les parties moins importantes de la vidéo pourra être utilisé pour coder parfaitement les parties sensibles.

Une phase d’apprentissage et classification est également envisagée. Le codeur reconnait le « type » d’écran d’avion qu’il a à coder, et y recherche les informations sensibles en conséquence. Les travaux préliminaires ont montré que la connaissance de la position de quelques lettres dans l’écran permet d’effectuer une classification très fiable du type d’écran. La classification à son tour permet de raffiner la reconnaissance du texte : si quelques lettres étaient perdues dans la première étape de reconnaissance, une fois que l’écran ait été correctement classifié à l’aide des lettres reconnues, il sera possible de lancer une nouvelle reconnaissance de texte adaptée aux informations a priori sur le type d’écran (par exemple, on s’attend d’avoir du texte dans certaines positions spécifiques, même si pas tout le texte a été retrouvé lors de la première itération).

La classification joue donc un rôle majeur dans l’approche envisagée. Il s’agit d’une classification multi-classe, pour laquelle nous avons récemment développé une méthode originale de type Support Vector Machine (SVM) [2], qui présente des performances intéressantes notamment pour les problèmes présentant un nombre réduit d’exemples d’entrainement. L’enjeu consiste ici d’intégrer les critères de classification lors de la phase de compression directement, en combinant ces critères avec les approches classiques débit-distorsion.

Candidature :

http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954

Références bibliographiques

[1] Sullivan, G. J., Ohm, J. R., Han, W. J., & Wiegand, T. (2012). Overview of the high efficiency video coding (HEVC) standard. IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1649-1668.

[2] G. Chierchia, N. Pustelnik, JC Pesquet, B. Pesquet-Popescu, « A Proximal Approach for Sparse Multiclass SVM », submitted to the « Journal of Machine Learning Research », February 2015

Sequences vidéo décodées pour ICIP’15

Les séquences vidéo pour notre soumission à ICIP’15 sont disponibles ici. Attention, chaque fichier fait environ 300 Mo.

Reference method Proposed method
Four People Four People
Johnny Johnny
Kirsten and Sarah Kirsten and Sarah

Les séquences ont été codées avec la méthode de référence et une nouvelle méthode (« proposed method »). Après simulation de transmission et décodage, les séquences disponibles ici montrent la supériorité de l’approche que nous avons introduit.

Articles sur la synthèse d’images dans la vidéo multi-vues

Deux articles (un article de journal, IEEE TCSVT, et un de conférence, ICASSP 2015) portant sur la synthèse de points de vue virtuels dans le cadre du codage vidéo multi-vues ont été acceptés.

Bravo à Andrei et Elie ! Merci également à Béatrice et Bogdan dont la collaboration a été extrêmement précieuse pour la réussite des articles.

L’idée de base consiste à utiliser conjointement l’estimation de mouvement (flux optique) et de disparité pour générer des points de vue virtuels de la meilleure qualité. En choisissant judicieusement quelles images doivent être codées et quelles peuvent être synthétisées, on obtient des gains de codages surtout à faible-moyen débit.