Acquisitie, compressie en rendering van multi-view diepte- en textuurvideo
Three-dimensional (3D) video and imaging technologies is an emerging
Driedimensionale video, televisie (3D-TV) en de bijbehorende
beeldvormingstechnieken staan in toenemende belangstelling bij de
ontwikkeling van digitale videosystemen. Dit wordt geïllustreerd door
de opkomst van 3D schermen, coderingssystemen en 3D
cameraopstellingen. Driedimensionale video met verschillende
aanzichten (multi-view video) wordt meestal verkregen uit een set van
gesynchroniseerde camera’s die dezelfde scene opnemen vanuit
verschillende kijkrichtingen. In het bijzonder maakt deze techniek het
mogelijk om als kijker zelf de kijkrichting te bepalen
(free-view). Deze nieuwe toepassing heeft als eigenschap het
interactief kiezen en genereren (renderen) van een virtueel kijkpunt
naar de scene. Een 3D ervaring zoals bijvoorbeeld in 3D-TV, wordt
verkregen als de representatie van de gegevens en het scherm het
mogelijk maken om de diepte van de scene waar te nemen. Met 3D-TV kan
de diepte van de scene worden waargenomen, terwijl het scherm
tegelijkertijd verschillende kijkrichtingen van dezelfde scene laat
zien. Om deze veelvoudige kijkweergave op een scherm op afstand te
renderen, is een efficiënte overdracht en dus compressie (codering)
van het meervoudige multi-view videosignaal nodig. Echter, bij
multi-view video is er een grote intrinsieke hoeveelheid beelddata die
ge(de-)codeerd en gereconstrueerd moet worden. In dit proefschrift
wordt gestreefd naar een efficiënt en flexibel multi-view
videosysteem, waarvan drie verschillende kernpunten worden
behandeld. Ten eerste ontwikkelen we een algoritme voor het acquireren
van een dieptesignaal vanuit een multi-view cameraopstelling. Ten
tweede presenteren we efficiënte 3D renderingsalgoritmen voor een
multi-view videosignaal. Ten derde worden coderingstechnieken voor 3D
multi-view videosignalen besproken, die zijn gebaseerd op het gebruik
van een expliciet dieptesignaal. Hierdoor is het proefschrift
opgedeeld in drie stukken.
Het eerste deel (Hoofdstuk 3) beschrijft het probleem van 3D
multi-view videoacquisitie. Multi-view videoacquisitie omvat het
schatten en registreren van een 3D geometrische beschrijving van de
scene. Een 3D beschrijving van de scene kan worden gerepresenteerd met
behulp van een zogenaamd dieptebeeld, dat kan worden berekend door een
triangulatie (het opdelen c.q. samenstellen in driehoeken) uit te
voeren van de corresponderende pixels in de multi-view
beelden. Aanvankelijk wordt het schatten van het dieptesignaal
gebaseerd op slechts twee kijkrichtingen, en presenteren we het
geometrisch basismodel dat de triangulatie van de corresponderende
pixels mogelijk maakt tussen de kijkrichtingen. Daarna behandelen we
twee reken-/optimalisatiestrategieën om corresponderende pixels te
bepalen: een lokale en een ééndimensionale optimalisatiestrategie. Ten
tweede, om het duo-view geval te generaliseren, wordt een simpel
geometrisch model geïntroduceerd voor het schatten van diepte bij het
gebruik van multi-view video. Gebaseerd op dit geometrisch model,
geven we een nieuwe multi-view techniek om diepte te schatten, waarbij
gebruik wordt gemaakt van een ééndimensionale optimalisatiestrategie
die (1) het ruisniveau in de geschatte dieptebeelden vermindert en (2)
consistente dieptebeelden afdwingt over de verschillende
kijkrichtingen.
Het tweede deel (Hoofdstuk 4) van het proefschrift behandelt het
probleem van multi-view beeldreconstructie of rendering. Multi-view
rendering genereert synthetische beelden die gebaseerd zijn op
multi-view video. Eerst zijn twee verschillende renderingstechnieken
onderzocht: een 3D beeldvervormingsmethode en een renderingstechniek
gebruik makend van meshes. Elk van deze methoden heeft zijn
beperkingen, zoals hoge rekencomplexiteit of lage beeldkwaliteit bij
rendering. Om deze reden presenteren we vervolgens twee
beeldgebaseerde renderingsalgoritmen met een verbeterde balans tussen
complexiteit en kwaliteit. Eerst leiden we een alternatieve
formulering af voor het reliëf-textuur algoritme dat is uitgebreid tot
de geometrie van multi-view video. Deze techniek heeft twee voordelen:
hij vermijdt renderingsartefacten (“gaten”) in het synthetische beeld
en hij is geschikt voor uitvoering op een standaard grafische computer
(GPU). Vervolgens geven we een inverse mapping renderingstechniek met
een eenvoudige en precieze herbemonstering van synthetische
pixels. Experimentele vergelijkingen met de 3D beeldvervormingsmethode
laten een verbetering van de renderingskwaliteit zien van 3.8 dB voor
de reliëf-textuur mapping en 3.0 dB voor de inverse mapping
renderingstechniek.
Het derde deel van de dissertatie concentreert zich op de compressie
van multi-view textuur- en dieptevideo (Hoofdstukken 5-7). In
Hoofdstuk 5 wordt het H.264/MPEG-4 AVC standaardalgoritme voor
videocompressie uitgebreid met de codering van multi-view video. In
tegenstelling tot de Multi-view Video Coding (MVC) standaard van de
MPEG groep die alleen de multi-view textuurbeelden codeert,
comprimeert de onderzochte encoder zowel multi-view textuur- als
multi-view dieptevideo. De uitbreiding van de standaard is gebaseerd
op het gebruik van de correlatie tussen de verschillende camera
kijkrichtingen. Daartoe zijn twee verschillende methoden voor
predictiecodering van multi-view video onderzocht: een blokgebaseerde,
voor dispariteit gecompenseerde, predictietechniek en een View
Synthesis Prediction (VSP) schema. Waar VSP een nauwkeurig dieptebeeld
nodig heeft, kan het blokgebaseerde voor dispariteit gecompenseerde
predictieschema uitgevoerd worden zonder enige geometrische
informatie. De voorgestelde encoder selecteert adaptief het meest
geschikte voorspellingsschema, daarbij gebruik makend van een
bitsnelheid-distortie criterium voor een optimale selectie voor de
predictiemethode. De evaluatie van het adaptieve predictieschema geeft
experimentele resultaten voor verschillende multi-view textuur- en
dieptevideo’s, welke een kwaliteitsverbetering tot 0.6 dB voor de
textuur opleveren en 3.2 dB voor de dieptesequenties, vergeleken met
het eenzijdig uitvoeren van de H.264/MPEG-4 AVC predictie gebaseerd op
dispariteit. Daarnaast wordt aandacht besteed aan de afweging tussen
een willekeurig inspringen in en starten van een bepaalde
kijkrichting, een door een gebruiker gekozen aanzicht en de
efficientie van de codering. Experimentele resultaten die deze
afweging illustreren en kwantificeren worden gepresenteerd. Hoofdstuk
6 is gewijd aan de compressie van een dieptesignaal en bespreekt een
nieuw coderingsalgoritme voor dieptebeelden dat gebruik maakt van de
speciale eigenschappen van dieptebeelden: gelijkmatige beeldgebieden,
afgebakend door scherpe randen. Het algoritme modelleert deze
gelijkmatige gebieden met geparametriseerde stuksgewijs lineaire
functies en de scherpe randen door rechte lijnstukken, zodat het
efficiënter is dan een conventionele transformatiegebaseerde
encoder. Om de kwaliteit van het coderingssysteem te optimaliseren
voor een gegeven bitsnelheid, brengt een speciale globale
rate-distortie optimalisatie een evenwicht tussen de bitsnelheid en de
kwaliteit van de signaal reconstructie. Voor typische bitsnelheden,
zoals tussen 0.01 en 0.25 bits per pixel, hebben experimenten
aangetoond dat de nieuwe dieptecompressie een standaard JPEG-2000
encoder met 0.6-3.0 dB overtreft. Hoofdstuk 7 behandelt een nieuw
gemeenschappelijk diepte-textuur bittoewijzingsalgoritme voor de
gezamenlijke compressie van textuur- en dieptebeelden. Het beschreven
algoritme combineert de afzonderlijke Rate-Distortie (R-D)
afhankelijkheden voor textuur- en dieptebeelden in een enkele,
gezamenlijke R-D functie. Deze functie kan hierdoor een optimale
gemeenschappelijke bittoewijzing definiëren in relatie tot de
verkregen renderingskwaliteit. Experimentele resultaten laten een
geschatte winst van 1 dB zien in vergelijking met een compressie
zonder de gezamenlijke optimalisatie voor bittoewijzing. Daarnaast kan
het gemeenschappelijke R-D model eenvoudig worden geïntegreerd in een
multi-view H.264/MPEG-4 AVC encoder omdat het de optimale
compressieinstelling oplevert met een beperkt budget aan rekenkracht.