We have two open PhD positions:
Contact me for more information!
We have two open PhD positions:
Contact me for more information!
[:fr]Telecom ParisTech, une Grande Ecole d’Ingénieur de l’Institut Polytechnique de Paris, recrute un·e Maître de Conférences en Analyse et Apprentissage pour la Vidéo. Le poste est localisé au sein de l’Équipe Multimédia, dans le Département Image, Data, Signal (IDS) et le laboratoire LTCI.
L’équipe Multimédia a une longue expérience dans le domaine du codage et de la transmission de la vidéo. Plus récemment, l’analyse et l’apprentissage pour la vidéo ont pris une place d’importance grandissante dans l’activité de recherche et enseignement de l’équipe, comme témoigné par la mise en place du Groupe d’étude pour l’application de l’apprentissage (profond) à la compression vidéo. L’équipe a l’objectif de agrandir son activité dans ce domaine et plusieurs nouveaux projets de recherche viennent d’être lancé : par exemple, l’équipe a 2 projets en cours sur l’utilisation de l’apprentissage profond pour la compression vidéo, et un autre sur l’utilisation des techniques d’apprentissage pour l’évaluation de la qualité photographique. C’est dans ce cadre et pour supporter l’activité croissante de l’équipe que la position de Maître de Conférences en Analyse et apprentissage pour la Vidéo a été ouverte.
Les candidats doivent avoir un dossier de recherche universitaire de qualité et la personne retenue sera encouragée à encadrer des thèses de doctorat, des ingénieur·es et des post-doctorant·es, tout en participant activement aux projets financés et aux activités de l’équipe Multimédia. Ses activités d’enseignement se dérouleront au sein des différents cursus de Télécom ParisTech et de l’Institut Polytechnique de Paris ; ils peuvent être donnés en anglais.
Postuler par e-mail.[:en]Telecom ParisTech, a CS/EE school of Institut Polytechnique de Paris, is hiring an Associate Professor in Video Analysis and Learning. The position will be located in the Multimedia Team, within the Image, Data, Signal Department (IDS), and the LTCI laboratory.
The Multimedia team has a long activity in the domain of video and image coding and transmission. More recently, video analysis and learning activity have become more and more relevant for the team who runs now a regional study group about Machine and Deep Learning applications to Image and Video compression. The team has the target to expand its activity in this area, and several new and exciting research projects have just been launched, such as research programs in Deep Learning assisted video compression and Learning-based photographic quality evaluation. In this context, and to support the increasing activity of the team, a permanent position in video analysis and learning has been opened.
Applicants are expected to provide an outstanding academic research record and will be encouraged to advise PhD theses, supervise engineers and post-docs, while being actively involved in funded projects and in the activities of the Multimedia team. The teaching activities will take place in the engineer and master tracks at Telecom ParisTech and can be given in English.
Find here more information.
[:fr]Attilio Fiandrotti rejoint l’équipe Multimédia en tant que Maitre de Conférences en Vidéo Immersive. Bienvenue ![:en]Attilio Fiandrotti joins the Multimedia team as Associate Professor in Immersive Video. Welcome![:it]Benvenuto Attilio Fiandrotti, nuovo Maitre de Conférences del gruppo Multimedia[:]
[:fr]
Télécom ParisTech recrute un(e)
Enseignant-chercheur en vidéo immersive à 46 rue Barrault- 75013 PARIS
Date limite de candidature : 10/11/2017
[:en]
Télécom ParisTech recruits
An associate professor in Immersive Video
46 rue Barrault- 75013 PARIS
Candidature deadline : 10 nov. 2017
See also here (French).
[:]
[:fr]Un poste de Maître de conférences en Vidéo immersive sera prochainement ouvert dans notre équipe. Nous cherchons des docteurs avec au moins un an d’expérience. Des candidats avec une expérience plus longue sont également souhaitables.
Domaines de recherches : vidéo immersive, codage vidéo, transmission vidéo, qualité.
Expertise : traitement du signal, réseaux, mathématiques appliqués.
Le descriptif du poste sera publié bientôt. Entre temps, les candidats intéressés peuvent me contacter directement par e-mail : cagnazzo@telecom-paristech.fr
[:en]Very soon we will open a position of Associate Professor (specialty: immersive video) in our team at Telecom-ParisTech. We are looking for brilliant PhD, preferably with 1y+ of post-doctoral experience. More experienced candidates are also welcome. The detailed call will follow soon.
Research domains: immersive video, video coding, video transmission, video quality.
Background: signal processing, networking, applied maths.
Potential candidate can contact me at cagnazzo@telecom-paristech.fr[:]
[:fr]MàJ Cette thèse a été attribué, ce n’est plus disponible
Après les progrès notables quant à l’élargissement de la dynamique des images numériques, des efforts importants de recherche se portent aujourd’hui sur l’enrichissement des informations liées à la géométrie de la lumière de la scène capturée. Nous faisons référence ici à deux approches complémentaires : premièrement aux systèmes composés de multiples caméras (dit système multi-caméras, y compris les caméras à 360° ou les systèmes de captation « multivues ») permettant d’acquérir la scène sous différents points de vue, et deuxièmement aux systèmes dit « light-field » qui capture en un endroit le champ de lumière et non seulement l’intensité de la lumière. Ces deux approches permettent de proposer les mêmes types de fonctionnalités :
Toutes ces nouvelles approches peuvent s’unifier sous la notion d’images plénoptiques, [2] définies par la fonction plénoptique :
qui fournit l’intensité de la lumière (et éventuellement la phase) pour tous les points de la scène , pour toutes les directions , pour toutes les longueurs d’onde et en fonction du temps
Le sujet de thèse proposée ici porte sur trois des problématiques clés des images plénoptiques : l’acquisition, la visualisation et la synthèse de vues intermédiaires.
Les outils d’acquisition dont on dispose aujourd’hui ne permettent pas une acquisition de la fonction plénoptique complète, mais correspondent à un échantillonnage de celle-ci. Par exemple, un système d’acquisition multivues classique permet d’effectuer l’acquisition avec y et z constantes, et en échantillonnant x à pas régulier. Un système Super Multiview (c’est-à-dire, avec parallaxe horizontale et verticale [3]) échantillonne sur x et y. D’autre part, dans ce projet nous somme également intéressé par des cas plus complexes, ou le positionnement et l’orientation des caméras entrainent un échantillonnage de la fonction plénoptique sur une grille irrégulière.
Plus en général, un des problèmes fondamentales liés à l’utilisation des images plénoptiques, consiste à reconstruire la fonction à partir d’un ensemble limité d’échantillons, qui à leur tour, peuvent appartenir à une grille régulière ou irrégulière.
Du fait de la richesse des informations capturées, les images plénoptiques proposent un certain nombre d’interactions à l’utilisateur, notamment :
Ces éléments, dans l’image classique, sont fixés lors de la prise de vue par le photographe (ou le chef opérateur dans le domaine de la cinématographie) afin de transmettre au mieux le message (forme de l’objet photographié, ambiance, etc.). Dans le contexte des images plénoptiques ces éléments sont déterminés (totalement ou en partie) lors de la visualisation par l’utilisateur. De nouvelles métaphores de visualisation peuvent alors être proposées. Par exemple l’application Fyuse [4] associe le choix de l’angle de vue au temps, alors que l’outil de visualisation de Lytro [5] propose de choisir la zone nette par un clic de souris.
Tous ces opérations nécessitent d’une façon ou d’une autre, d’avoir accès à la fonction plénoptique
Dans le cadre de cette thèse, les travaux de recherche porteront sur la proposition de nouvelles métaphores génériques de visualisation interactives d’images plénoptiques avec la triple contrainte de :
Les domaines scientifiques qui sont utiles à ces travaux viennent de différents domaines tels que :
Ces domaines interagissent les uns avec les autres : la synthèse (ou interpolation) de vue est préalable à la cinématographie virtuelle et peut exploiter les informations d’attention visuelle pour optimiser le processus là où l’utilisateur regarde : tout cela impacte évidemment l’esthétique et la qualité du résultat.
La synthèse d’image intermédiaire joue un rôle clé dans le système que nous voulons réaliser. En effet, on peut voir ce problème comme celui de reconstruire (en tout ou en partie) la fonction plénoptique à partir d’un ensemble d’échantillons [12]. Cette reconstruction est basée sur la géométrie de la scène et utilise souvent des opérations de post-traitement pour pallier aux artefacts de l’interpolation.
La synthèse d’image a été longuement étudie par les communautés de la Computer Vision et de la compression, même en dehors du cadre de la reconstruction de la fonction plénoptique. Les premières méthodes proposées en synthèse de vue s’appuient uniquement sur l’information visuelle : on parle alors de Image-Based Rendering (IBR) [13]. L’estimation de la disparité et la détection des occlusions (comme par exemple en [14]) sont des outils très importants pour que cette synthèse soit efficace. Ces outils seront testés dans le cadre de la thèse.
Quand, en plus des informations visuelles, on connait également la géométrie de la scène, on peut utiliser la synthèse d’image aidé par la profondeur, Depth Image-Based Rendering (DIBR) [15]. Même si le DIBR a été proposé dans les années 2000, la qualité des reconstructions qu’on peut obtenir n’est pas toujours satisfaisante, comme montré notamment lors des études de qualité perçue [16]. Néanmoins, des méthodes récentes semblent pouvoir combler ce fossé [17] grâce à l’utilisation conjointe de l’information spatiale et temporelle. Il s’agit ici d’une autre piste de développement possible. En plus, les techniques de détection d’occlusions peuvent bénéficier de l’information de profondeur.
Une autre source de difficulté est le positionnement des caméras utilisées pour acquérir la scène [18]. Une phase préalable de synchronisation et calibration est nécessaire pour que la synthèse puisse se faire correctement [19] [20] [21]. A cette fin, les outils de mise en correspondance de features comme SIFT [22], SURF [23] ou autres, semblent indispensables pour aboutir à une compréhension de la géométrie de la scène [14] [18] .
La thèse débutera avec une étude approfondie de l’état de l’art dans des différents domaines : la synthèse d’image, (avec et sans profondeur), calibration de caméras, la géométrie 3D appliqué à la vision (en particulier, estimation de disparité et détection d’occlusions), les features visuelles et leur mise en correspondance, ainsi que les aspects physiologique de la vision par rapport à la synthèse d’image.
A niveau pratique, le doctorant pourra prendre en main les systèmes d’acquisition d’images plénoptiques maitrisés par l’équipe b<>com.
Avec ces outils, le doctorant pourra tester des méthodes de synthèse d’images : d’abord dans des cas simples (grille régulière, systèmes super-multivues), en suite dans des configurations plus complexes. Les principes liés à la vision humaine seront graduellement intégrés dans le système, ce qui permettrait par exemple de synthétiser uniquement (ou avec une meilleure qualité) les parties saillantes de la scène.
Au même temps, l’impact des outils de synthèse (simples ou complexes) sur la visualisation, navigation, la cinématographie virtuelle, l’esthétisme, seront évalués, en sorte d’avoir toujours en vue la chaine complète de traitement. A ce propos, l’objectif final est la mise en place de cette chaine, qui permette la reconstruction des images plénoptique et leur pleine utilisation.
Rémi Cozot, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, IRISA/Université de Rennes 1 – cozot@irisa.fr
Marco Cagnazzo, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, Telecom-ParisTech/Institut Mines-Télécom– cagnazzo@telecom-paristech.fr
[:en]Update: this position is no longer available
There is an increasing interest towards the applications that allow Free Navigation Video Services [1], where users can modify the viewpoint on a scene while receiving a video. These services try to provide the user with the so-called Plenoptic function of the scene [2], defined as:
P_f(x,y,z,theta,phi,lambda,t)
It gives the light intensity at each position for any incident angle , for any wavelength and at any time. This doctoral project is focused on three key problems related to the use of the Plenoptic function : its acquisition, synthesis and visualization.
Current tools for acquisition do not allow collecting the whole Plenoptic function; on the contrary, they allow a sampling of it. For example, in Super-MultiView video[3], the plane (z=z_0) is fixed, and only the forward scene, i.e. when the polar angle comprised , is between -pi/2 and pi/2, is acquired. Moreover, the plane is sampled at the position of each camera.
In this project we are interested in the interpolation of the Plenoptic function, i.e. in the synthesis of virtual viewpoints that were not acquired by real cameras. Moreover, we also want to explore the case of irregular sampling position of P_f.
Access to the Plenoptic function would allow new ways to create and consume visual contents. For example, the Fyuse application [4] allows to change the view angle during the reproduction, while the Lytro system [5] allows post-acquisition refocusing.
Several scientific fields are concerned by this approach :
These items interact one with the other : view synthesis is preliminary for virtual cinema and may benefit from visual attention and perception information ; the whole process impacts on the quality and the aesthetics of the resulting image.
Image synthesis plays a key role in the system that we want to implement. We can see the problem as the interpolation of the Plenoptic function from a set of samples [12]. This reconstruction is based on the scene geometry and often uses post-processing for alleviating the synthesis artifacts.
Image synthesis and rendering have been long studied by the Computer Vision community and the Compression community, even outside the context of Plenoptic function interpolation. The first methods only used the images for the synthesis: they fall into the Image-Based Rendering (IBR) [13] family. Disparity estimation and occlusion detection are typical tools used to improve the synthesis for this case[14], and may prove useful in this doctoral project.
When the depth information is also available, we have the Depth Image-Based Rendering (DIBR) [15] family. Even though DIBR is known since the first 2000’s, the quality of synthesis is not fully satisfying yet [16]. Nevertheless, some promising methods have been proposed recently [17]. They combine temporal and inter-view redundancy to improve the synthesis.
Another difficulty may come from the camera positioning [18]. A preliminary calibration and synchronization phase are needed in order to have a high quality synthesis [19] [20] [21]. To this end, feature matching tools could be employed, such as SIFT [22], SURF [23]. This look necessary in order to achieve the 3D scene understanding [1][18] .
This doctoral project will start with a deep and accurate study of the state of the art in the different concerned domains : image synthesis, camera calibration, 3D geometry, feature matching, visual attention. From a practical point of view, the PhD candidate may use the facilities at b<>com to test the acquisition of the Plenoptic function and to perform camera calibration and synchronization.
Then, the PhD candidate will test and implement different synthesis methods, starting from the state of the art, and then proposing more complex and effective solutions. Human vision principles should be integrated into the new approaches.
At the same time, the impact of the synthesis methods on such practical applications as visualization, free navigation, virtual cinema, …, will be taken into account. The final target of the doctoral project is the mastering of the complete system from acquisition to visualization.
Rémi Cozot, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, IRISA/Université de Rennes 1 – cozot@irisa.fr
Marco Cagnazzo, Maître de Conférences, Habilité à Diriger des Recherches, IRT b<>com, Telecom-ParisTech/Institut Mines-Télécom– cagnazzo@telecom-paristech.fr
[:it]Aggiornamento: la borsa è stata attribuita.
La descrizione del progetto di ricerca è disponibile nella versione francese o inglese di questo sito.
Per candidarsi, è sufficiente scrivermi o effettuare la candidatura sul sito della scuola di dottorato.[:]
[:fr]Candidature :
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954
Dans le cadre du développement des produits aéronautiques, la société Zodiac développe des solutions d’acquisition et de traitement vidéo en environnement à fortes contraintes. Cette thèse s’inscrit dans une démarche de recherche pour l’amélioration de leurs systèmes de visualisation.
Les informations sur les écrans avioniques présentent des caractéristiques spécifiques, notamment des informations textuelles et graphiques qui ne doivent pas être altérées par la compression. Or, la plupart des systèmes de compression très bas débit conduisent à des artefacts importants notamment au niveau des contours, qui rendraient inutilisables ces données. La compression de ce type de données pose donc des défis supplémentaires par rapport à la compression de vidéos classiques (aussi dites, naturelles). Des avancées ont été faites avec les extensions Screen Content de HEVC, mais il y a de la marge pour des gains importants.
L’approche proposée vise à prendre en compte au niveau du codeur les spécificités des vidéos écrans d’avion, avec un codage adaptif, sémantique et par apprentissage.
Nous envisageons de reconnaitre les parties différentes de l’image à coder : texte, graphiques, niveaux des indicateurs, éventuellement images de fond, et adopter donc un codage adaptif. En particulier, pour le texte et les éléments graphiques un codage sémantique est envisagé : le texte sera donc reconnu et codé en tant que tel, plutôt que comme un ensemble de pixels. Cela permettra une représentation sans pertes de cette information capitale. Par contre, les éléments les moins importants de l’image au niveau sémantique pourront être codés avec une technique « lossy », c’est-à-dire, avec perte d’information. Le débit épargné sur les parties moins importantes de la vidéo pourra être utilisé pour coder parfaitement les parties sensibles.
Une phase d’apprentissage et classification est également envisagée. Le codeur reconnait le « type » d’écran d’avion qu’il a à coder, et y recherche les informations sensibles en conséquence. Les travaux préliminaires ont montré que la connaissance de la position de quelques lettres dans l’écran permet d’effectuer une classification très fiable du type d’écran. La classification à son tour permet de raffiner la reconnaissance du texte : si quelques lettres étaient perdues dans la première étape de reconnaissance, une fois que l’écran ait été correctement classifié à l’aide des lettres reconnues, il sera possible de lancer une nouvelle reconnaissance de texte adaptée aux informations a priori sur le type d’écran (par exemple, on s’attend d’avoir du texte dans certaines positions spécifiques, même si pas tout le texte a été retrouvé lors de la première itération).
La classification joue donc un rôle majeur dans l’approche envisagée. Il s’agit d’une classification multi-classe, pour laquelle nous avons récemment développé une méthode originale de type Support Vector Machine (SVM) [2], qui présente des performances intéressantes notamment pour les problèmes présentant un nombre réduit d’exemples d’entrainement. L’enjeu consiste ici d’intégrer les critères de classification lors de la phase de compression directement, en combinant ces critères avec les approches classiques débit-distorsion.
Candidature :
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954
[1] Sullivan, G. J., Ohm, J. R., Han, W. J., & Wiegand, T. (2012). Overview of the high efficiency video coding (HEVC) standard. IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1649-1668.
[2] G. Chierchia, N. Pustelnik, JC Pesquet, B. Pesquet-Popescu, « A Proximal Approach for Sparse Multiclass SVM », submitted to the « Journal of Machine Learning Research », February 2015[:en]The airplane screens have a very specific video content, where text and graph are superposed to images or to a uniform background.
Compressing this kind of data requires adapted techniques, since the most important information (text, graph) is usually degraded by traditional, transform-based video compression techniques.
We want to investigate the use of classification, segmentation and inpainting to recognize the most relevant information and encode it with appropriate methods.
The PhD student will work at both Telecom-ParisTech and Zodiac Aerospace
APPLY HERE:
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954[:it]Per la candidatura vedere qui:
http://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=9954[:]
[:fr]La récente norme de codage HEVC permet de représenter des nouveaux formats vidéo, tels que la vidéo scalable, multi-vues, 3D, ou encore, à dynamique étendue.
Pour que ce codage soit efficace, l’allocation des ressources de codage est capitale, si bien à niveau de groupe d’images que entre unités de codage au seine d’une même image.
Pour cela il est nécessaire d’avoir des modèles débit-distorsion qui représentent fidèlement le comportement du nouveau codeur HEVC.
En se basant sur les résultats obtenus sur le signal vidéo classique (voir publications avec notre doctorant Nello Fiengo), nous voulons proposer et étudier des modèles débit-distorsion pertinents pour les formats vidéo émergents, possiblement avec prise en compte de la qualité perçue par l’utilisateur humain.
Pour candidater à cette thèse, connectez-vous au site de l’ADUM.
http://www.adum.fr/[:en]HEVC can be used to encode new video formats, such as 3D video, super-multiview video, of high dynamic range video.[:]
[:fr]Une nouvelle thèse en représentation de la vidéo holoscopique démarre dans notre équipe, en collaboration avec Orange R&D.
Antoine Dricot étudiera le problème de représenter efficacement le signal vidéo holoscopique, caractérisé par un grand nombre de point de vue. Je serai le directeur de thèse, avec co-encadrement de Joël Jung d’Orange R&D et de Béatrice Pesquet-Popescu et Frédéric Dufaux[:en]A new PhD thesis on holoscopic video is starting. I will co-supervise Antoine Dricot on holoscopic compression, with co-directors Joël Jung, Béatrice Pesquet-Popescu and Frédéric Dufaux[:it]Nuova tesi di dottorato sulla compressione del segnale oloscopico. Il dottorando è Antoine Dricot. La tesi sarà co-diretta da J. Jung (Orange R&D) e da me, con la collaborazione di B. Pesquet-Popescu e di Frédéric Dufaux.[:]
[:fr]Le sujet de cet étude est la compression de la vidéo multi-vues avec information de profondeur (MVD, multiview plus depth), dans le cadre de l’Interactive Multiview Streaming (IMVS). L’objectif scientifique est de trouver les best practice pour la compression de ce type de données, extrêmement redondant, pour permettre la fruition immersive et interactive de la part d’un utilisateur à distance. Le problème de l’IMVS est très récent, et très peu de solutions existent pour le cas du MVD, qui par ailleurs est très intéressant et aussi de difficile solution, comme témoigné par la substantielle absence de techniques capables d’en exploiter complètement la redondance. Le caractère innovant de l’approche envisagé est lié à l’utilisation conjointe de nouvelles techniques de codage distribué (DVC) et de codage MVD. Le DVC permet de faire face au fait que, au moment du codage, on ne connait pas les images (points de vue) déjà disponible au décodeur. Les approches MVD nous devraient permettre de bien exploiter la grande redondance de ce type de données. Cet approche est originale par rapport à l’état de l’art : peu de travaux existent, qui s’occupent du codage MVD dans le cadre du IMVS, et ceux-ci s’appuient sur des approches très classiques, sans DVC. Un des points de force de cette proposition est la collaboration avec une des équipes leader à niveau mondial dans le contexte de l’IMVS, celle du Dr Cheung au National Institute of Informatics de Tokyo, Japon. Les résultats attendus sont la compréhension profonde des systèmes d’IMVS, et la mise en place d’une méthode nouvelle et performante de codage MVD en ce contexte.
Voir Article sur IMVS + DVC.
[:en]Three-years contract to achieve a PhD degree.
The topic is the problem of interactive streaming of multiview video.
Multiview video is composed of several video sequences, each corresponding to a different point of view. Interactive acces to this video requires switches from one view to another. This is problematic from the point of view of predictive coding: making prediction from one image to a second one belonging to another view is complex (all inter-view dependencies should be taken into account); independent coding is not effective. Possible solutions are based on distributed video coding.
Links: Paper on IMVS + DVC.
See also papers by G. Cheung.
[:it]Le sujet de cet étude est la compression de la vidéo multi-vues avec information de profondeur (MVD, multiview plus depth), dans le cadre de l’Interactive Multiview Streaming (IMVS). L’objectif scientifique est de trouver les best practice pour la compression de ce type de données, extrêmement redondant, pour permettre la fruition immersive et interactive de la part d’un utilisateur à distance. Le problème de l’IMVS est très récent, et très peu de solutions existent pour le cas du MVD, qui par ailleurs est très intéressant et aussi de difficile solution, comme témoigné par la substantielle absence de techniques capables d’en exploiter complètement la redondance. Le caractère innovant de l’approche envisagé est lié à l’utilisation conjointe de nouvelles techniques de codage distribué (DVC) et de codage MVD. Le DVC permet de faire face au fait que, au moment du codage, on ne connait pas les images (points de vue) déjà disponible au décodeur. Les approches MVD nous devraient permettre de bien exploiter la grande redondance de ce type de données. Cet approche est originale par rapport à l’état de l’art : peu de travaux existent, qui s’occupent du codage MVD dans le cadre du IMVS, et ceux-ci s’appuient sur des approches très classiques, sans DVC. Un des points de force de cette proposition est la collaboration avec une des équipes leader à niveau mondial dans le contexte de l’IMVS, celle du Dr Cheung au National Institute of Informatics de Tokyo, Japon. Les résultats attendus sont la compréhension profonde des systèmes d’IMVS, et la mise en place d’une méthode nouvelle et performante de codage MVD en ce contexte.[:]