Вы находитесь на странице: 1из 24

Universidad Nacional de Ingeniería

Facultad de Ingeniería Industrial y de Sistemas

Escuela Profesional de Ingeniería de Sistemas

Pre-Tesis presentada para obtener el grado de


Ingeniero de Sistemas

Reconstrucción del medio ambiente utilizando visión


estereoscópica

Por

Morales Ortega Lucio


Minaya Jaqui, Lucía

Lima - Lima
Marzo de 2009
Índice General

1. PLANTEAMIENTO DEL PROBLEMA ................................................................ 3

1.1. Definición del Problema ........................................................................................ 3

1.2. Objetivo Especifico ............................................................................................... 3

1.3. Alcance .................................................................................................................. 4

2. MARCO TEORICO .................................................................................................. 5

2.1. Concepto Visión estereoscópica ............................................................................ 6

2.1.1 El problema de la correspondencia. ......................................................................... 6

2.2. Visión Computacional (Dentro del modelo de Solución) ................................... 11

2.3. Antecedentes De Otros Trabajos Similares ......................................................... 11

3. DESCRIPCION DE LOS DATOS ......................................................................... 13

4. PLANTEAMIENTO DE LA SOLUCION ............................................................. 14

5. PROCESO DE TRANSFORMACION DE LA IMAGEN ..................................... 15

6. DESCRIPCION DEL MODELO DE SOLUCION ................................................ 15

6.1. Adquisición De Imágenes.................................................................................... 15

6.2. Geometría del Sistema. ........................................................................................ 17

6.3. Extracción de las características. ......................................................................... 19

6.4. Correspondencia. ................................................................................................. 19

6.5. Obtención de la distancia..................................................................................... 20

7. PLAN DE TRABAJO ............................................................................................. 23

8. CRONOGRAMA DE ACTIVIDADES .................................................................. 24


1. PLANTEAMIENTO DEL PROBLEMA

1.1. Definición del Problema


Como reconstruir un espacio 3D desde dos imágenes 2D separadas en una cierta
distancia dado que los focos son paralelos en tiempo real.

La dificultad del problema se basa en el estudio minucioso de cierta parte de la


metodología que es la correspondencia estereoscópica, en la cual se utiliza una
matemática compleja, además se tiene que elegir un método adecuado el cual tiene que
ser implementado en un lenguaje de programación; para nuestro caso C++.

Cabe mencionar que existe otra dificultad en la solución del problema y esta es la
obtención de la imagen en 3D; pues el método usado para describir los objetos y
modelos y las correspondencias entre objetos y modelos nos manifiestan la
representación final de los objetos y las características que se deben extraer de los
mismos. Sin embargo estos métodos son muy difíciles de obtener e implementar [1] ,
[2].

1.2. Objetivo Especifico


El objetivo principal de este trabajo es implementar un sistema completo de
reconocimiento de imágenes en tiempo real. Esto incluye distintos componentes, tanto
de hardware como de software. Para esto será necesario implementar cada una de las
etapas del proceso de reconocimiento, desde la captura de una imagen del objeto hasta
la transformación de la misma.

Se analizara también el estado del arte y se aportaran ideas con el objetivo de que el
sistema funcione eficientemente y en la forma más automática posible.

Para la solución del presente problema hemos planteado los siguientes pasos para poder
llegar a la solución deseada [3]:
Organización:

Se analizaran los requerimientos que debe tener un sistema de captura que permita
tomar imágenes del objeto con suficiente calidad para la identificación. Se presentara
también la solución de hardware implementada en este trabajo.

Se analizara el problema de la segmentación, es decir, el problema de localizar


correctamente el objeto en la imagen. Se verán algunas soluciones existentes y
finalmente.

Se presentara un método optimizado de segmentación desarrollado para funcionar en un


entorno en tiempo real.

Se presentara un algoritmo destinado a analizar la secuencia de video obtenida del


sistema de captura para conseguir una imagen del objeto con la máxima calidad posible.

Se hará un repaso de las distintas técnicas de codificación de la textura del objeto, y de


los métodos de Matching asociados. Se describirá el método de codificación y Matching
implementado en el sistema.

Se describirán en detalle los componentes del sistema implementado.

Se analizaran los resultados de los algoritmos implementados para segmentación,


codificación y Matching.

Se hará una descripción del marco teórico para medir los resultados y finalmente se
presentaran los resultados en dicho marco.

Se analizara el problema de la resistencia del sistema frente a posibles intentos de


falsificación, y se presentara un método.

Finalmente, Se verán las conclusiones del trabajo, se analizaran los distintos aportes
realizados y se presentaran ideas para trabajo futuro.

1.3. Alcance
En este proyecto de tesis solo nos enfocaremos en reconstruir objetos sólidos,
basándonos en los siguientes supuestos:
• Los objetos serán un cubo y una esfera.

• Los colores de los objetos serán oscuros.

• El foco de luz será frontal a los objetos

• El fondo será de color blanco.

• Las cámaras serán estáticas, eso quiere decir que no se moverán.

Hemos considerado por definido el planteamiento del problema, ya que forma parte de
un proyecto y nuestro aporte está referido a la identificación de imágenes del proyecto
en cuestión, por medio de dos fuentes que en este caso serian cámaras digitales.

2. MARCO TEORICO
Modelling stereoscopic visión systems for robotic applications (Sistemas de visión
estereoscópica de modelos para aplicaciones robóticas)
Autor: Armangué Quintana, Xavier
Department of Electronics, Computer Science and Automatic Control
Universitat de Girona

Reconstrucción de mapas 3D a partir de información estéreo utilizando un enfoque de


minimización de energía

Autores:

o J. M. Sáez

o F. Escolano

o E. Hernández

Grupo de Visión, Gráficos e Inteligencia Artificial


Departamento de Ciencia de la Computación e Inteligencia Artificial
Universidad de Alicante
2.1. Concepto Visión estereoscópica
Se define visión estéreo o estereoscópica como aquella en la que se emplea más de una
imagen para obtener una idea de tridimensionalidad. Según el número de imágenes que
se emplee, se habla de visión bifocal dos imágenes o vistas, trifocal - tres imágenes o
vistas, cuadrifocal -cuatro imágenes o vistas- o n-focal -n imágenes o vistas, y en cada
uno de los casos se aplica una serie de restricciones basadas en la geometría.

La idea básica de las imágenes estereoscópicas es que partiendo de dos imágenes desde
el mismo punto de vista, pero con una pequeña diferencia de ángulo entre ellas, el
cerebro se encarga de unir esas dos imágenes, formando una sola que es la que nos
produce la visión tridimensional.

Para obtener la visión tridimensional se emplea el estereoscopio que facilita la visión


estereoscópica, con la ayuda de este material se puede demostrar esta hipótesis;
diferenciando su profundidad y su altura.

La información que se encuentra en una fotografía, no nos proporciona la profundidad


de un punto en una escena esto no puede ser directamente accesible con una sola
imagen. Con, al menos, dos imágenes la profundidad puede ser medida a través de la
triangulación.

2.1.1 El problema de la correspondencia.


Para obtener esta idea de tridimensionalidad hay que resolver un problema importante:
Determinar que parejas de puntos de ambas imágenes se corresponden con un mismo
punto de la escena correspondencia.
Problema mal condicionado.

o Infinitas soluciones.
o No exista solución: oclusión.
o Ilusiones ópticas: falsas correspondencias.

2.1.2 Restricciones aplicadas a la correspondencia.

o Restricciones geométricas de las cámaras.

o Restricción epipolar.
o Restricción trifocal.

o Restricciones fotométricas.
o Restricción de compatibilidad diferencial

Restricciones geométricas de la escena.

Restricciones geométricas:
Son impuestas por el sistema de captación de las imágenes.
Probablemente la restricción más importante sea la restricción epipolar, gracias a la cual
podemos transformar una búsqueda en 2 dimensiones en otra de 1 dimensión

Restricción epipolar:
Es la geometría generada por dos vistas; y se basa en dos conceptos fundamentales, que
son la línea epipolar y el epipolo.

Restricción trifocal: tensor trifocal.

Tres imágenes de la misma línea añaden una restricción diferente: la


intersección de los planos formados por las imágenes es degenerado. De
forma algebraica, esta relación geométrica es representada por el tensor trifocal
(trifocal sensor). El tensor trifocal (trifocal tensor) juega una papel análogo en tres
vistas que el que juega la matriz fundamental en dos. Así, encapsula las relaciones
geométricas entre tres vistas, que son independientes de la estructura de la escena.
Solo depende del movimiento de las vistas y de los parámetros internos de las
cámaras y está definido únicamente por las matrices de las cámaras de las vistas.
También se puede utilizar para dadas tres vistas de una escena y un
par de puntos emparejados en dos vistas, conocer la posición del punto en la
tercera vista.

Restricciones fotométricas.

o Restricción de reflectancia superficial: la intensidad de la proyección de un


punto 3D no depende del punto de vista. La distribución de intensidades entre
puntos homólogos debe ser similar.
o Restricción de compatibilidad diferencial: dados dos puntos de una imagen
cercanos (continuidad de superficie), la diferencia de intensidades entre ambos
puntos debe ser similar a la diferencia de intensidades de sus homólogos.

2.1.3 Técnicas de correspondencia

• Técnicas globales vs. Técnicas locales.

o Métodos locales.- Se aplican restricciones a un pequeño número de puntos


alrededor del punto de estudio. Son muy eficientes pero sensitivos a las
ambigüedades locales de las regiones (por ejemplo, regiones de oclusión o
regiones con texturas uniformes). Cuenta con métodos basado en área y
basados en características, así como los basados en la optimización del
gradiente.
o Métodos globales.- Se aplican restricciones a líneas de la imagen o a la
imagen completa en sí. Son menos sensitivos a las peculiaridades locales
puesto que añaden soporte a las regiones de difícil estudio de manera local.
Son computacionalmente caros y cuenta con métodos de programación
dinámica y los métodos del vecino más próximo.
• Técnicas basadas en área.
o Correlación de área.- Para cada punto de una imagen se calcula la
correlación entre la distribución de disparidad de una ventana centrada en
dicho punto y una ventana del mismo tamaño centrada en el punto a analizar
de la otra imagen.

El problema consiste en encontrar el punto que se ajusta de manera


adecuada al primero minimizando algún funcional. La restricción epipolar
reduce la búsqueda a un problema de búsqueda a una dimensión.
Se trata de una estrategia utilizada con diferentes técnicas de
correspondencia junto con el uso de ventanas adaptativas. También se emplea
con técnicas basadas en primitivas dispersas. La información obtenida en una
escala grosera se utiliza para guiar y limitar la búsqueda de
correspondencias a una escala más fina.

• Técnicas basadas en características.

Obtienen primitivas de alto nivel (puntos de borde, segmentos, curvas, regiones,


etc.) que atesoran un conjunto de características invariantes a la proyección en
mayor o menor medida.

o Ventajas

o Las primitivas de alto nivel atesoran información más rica que los
niveles de intensidad.

o Permiten utilizar restricciones geométricas entre las primitivas.

o Son robustas.

o Inconvenientes

o Proporcionan información dispersa.

• Técnicas jerárquicas.
Integran las etapas de correspondencia estéreo y la interpolación de superficies
en un único proceso. La corrección en la elección de las correspondencias
pueda ser juzgada por el tipo de superficie que produce. Considera una pareja
estéreo de 4nx4n imágenes
• Programación dinámica.

Plantea el problema como el trazado de un camino sobre un espacio de


búsqueda bidimensional, que minimiza algún tipo de funcional. La búsqueda
densa de correspondencias se plantea como un problema de optimización,
descomponiendo el problema de maneras más sencillas. Para un sistema
estereoscópico de imágenes de ejes alineados, los puntos correspondientes
deben ser buscados dentro de la misma línea horizontal, pudiendo definir
un espacio bidimensional cuyos ejes son las líneas de rastreo de las imágenes
izquierda y derecha. Los algoritmos se basan en la asunción de
preservación de orden en los bordes de un par estereoscópico de imágenes.
Se busca un camino sobre un punto de la línea de la imagen izquierda con un
punto de la imagen derecha. Están basadas en aumentar el número de cámaras
y vistas para eliminar ambigüedades:
o Tres cámaras: estéreo trinocular.
o Cuatro cámaras: estéreo cuatricular.
o N-cámaras: estéreo n-focal.
Se aplica geometrías distintas: tensor trifocal, tensor cuadrifocal...etc. tensor de
múltiples vistas a vista.
Una tercera cámara elimina las ambigüedades inherentes a la correspondencia de dos
cámaras.
Algoritmos basados en puntos y segmentos borde.
Las ecuaciones satisfechas por múltiples imágenes de la misma escena pueden ser
resueltas sin ningún conocimiento de las cámaras o de la escena.
Método multicámara donde las correspondencias se encuentran usando todas las
imágenes al mismo tiempo. Se asume que todas las imágenes han sido rectificadas,
y la búsqueda de las disparidades correctas se reemplaza por la búsqueda de la
profundidad correcta o, más bien, su inversa [4].

2.2. Visión Computacional (Dentro del modelo de Solución)

Para resolver el problema utilizaremos lo siguiente:

• Dos webcam, modelos por definir.

• Una laptop, con las características adecuadas para poder soportar los
programas a utilizar.

2.3. Antecedentes De Otros Trabajos Similares

Implementación de un Sistema de Identificacion de Personas en Tiempo Real por


Reconocimiento de Iris.
Universidad de Buenos Aires
Facultad de Ciencias Exactas y Naturales
Departamento de Computación
Marcelo Luis Mottalli
Directora de tesis: Dra. Marta Estela Mejail
El reconocimiento de personas mediante el iris es aceptado como uno de los métodos
biométricos más eficientes para la identificacion, con el objetivo de controlar el acceso
de individuos a edificios, oficinas, equipos y otros recursos protegidos.
Los métodos usuales de control de acceso involucran el recordar claves o códigos
alfanum ericos, los cuales pueden ser olvidados fácilmente o, en el peor de los casos,
robados. Es por esto que los sistemas biométricos basados en características
morfológicas de la persona son cada vez mas considerados como una solución para
diferentes aplicaciones.
En particular, el reconocimiento mediante el iris presenta las ventajas de ser no
invasivo, no requerir el contacto físico con ningún dispositivo y poseer una altísima
confiabilidad.
El patrón del iris es único para cada individuo, altamente diferenciable entre individuos
(baja cantidad de falsos positivos) y altamente repetible (baja cantidad de falsos
negativos), a diferencia de otras características biométricas como por ejemplo el rostro.
El objetivo general de esta tesis es construir un sistema completo de identificacion
automática de personas basado en el reconocimiento del iris, probando algoritmos
existentes y desarrollando algoritmos nuevos de procesamiento de imágenes,
optimizados para el funcionamiento en tiempo real. El sistema estará compuesto por una
cámara de video que se utilizara para capturar imágenes del ojo de las personas y el
software necesario para procesar dichas imágenes. El sistema funcionar´ a en tiempo
real, con un mínimo de interacción entre el operador y el sistema.
3. DESCRIPCION DE LOS DATOS
Descripción del medio ambiente.

Para el medio ambiente contamos con:

• Dos cámaras webcam

• Dos objetos a analizar, para nuestro caso como mencionamos anteriormente los
objetos son unas cajas con formas geométricas.

Características del medio ambiente.

• El medio en donde se realiza el análisis es en luz natural.

• Escogemos analizar uno por uno los objetos ya que así podemos extraer mejor
las características e estos.

• También ubicamos estos objetos en un fondo que sea igual al contraste del color
del mismo con el fin de poder detectar mejor sus características.
4. PLANTEAMIENTO DE LA SOLUCION

En el presente proyecto de tesis II nos hemos basado en la terminología de Barnard y


Fischler con el fin de automatizar el proceso de la percepción visual mediante el
tratamiento de imágenes digitales la cual en función a la visión estereoscópica toma los
siguientes pasos [5]:

• Adquisición de imágenes

• Geometría del Sistema

• Extracción de características

• Correspondencia

• Obtención de la distancia
5. PROCESO DE TRANSFORMACION DE LA IMAGEN

Imagen 1 : Proceso De Transformación De La Imagen

6. DESCRIPCION DEL MODELO DE SOLUCION

6.1. Adquisición De Imágenes


Este proceso tiene como finalidad el capturar las imágenes desde dos web cam,
separadas una distancia dm, al ser conectadas estas cámaras a la computadora se correrá
el algoritmo capturar[CamI,CamD], este algoritmo recibe como parámetros las dos
fuentes de emisión de imagen, en este caso las dos cámaras web, pasamos a describir los
parámetros:

1. CamD: Este parámetro representa la cámara Derecha.

2. CamI: Este parámetro representa la cámara Izquierda.


La salida de este algoritmo son las imágenes producto de la toma de las fuentes de
imágenes, estas fotos serán representadas por las variables ImgI, ImgD.

En esta grafica podemos representar el ingreso de las fuentes de imagen representadas


por CamD y CamI el proceso de Adquisición de la imagen tendrá como salidas a las
imágenes ImgD y ImgI, la descripción del algoritmo será descrita continuación:

Algoritmo para la adquisición de imágenes: [ImgD,ImgI] = Capturar[CamI,CamD]


Algoritmo capturar.

El algoritmo capturar se inicia creando una conexión con las webcam por el método
conexionWebCam, luego de eso se crea las variables Imagen ImgD y ImgI, luego se
captura y almacena las imágenes, para finalizar se elimina de memoria las referencias y
se destruye las conexiones.

6.2. Geometría del Sistema.


En este proceso explicaremos la conformación del ambiente en donde se realizara la
toma.

El sistema está conformado por los siguientes elementos:

Dos cámaras web de marca Micronics modelo Mic W305, de 1.3 Mpixeles de
resolución con un formato de video de 24 bit.

Dos objetos geométricos, una esfera y un cubo, a continuación describiremos cada una:

La esfera será de un diámetro de 4 cm, de color negro.


Imagen de la esfera

El cubo de 2 cm de largo, 3 cm de ancho y 4 de altura, de color blanco

Imagen del cubo

Se utilizara un sistema de ejes ópticos paralelos, (d) será el desplazamiento horizontal


entre los centros ópticos de las dos cámaras web, y estarán oscilando entre [-]. Esto se
traduce en el hecho que las imágenes difieren solamente en la componente horizontal.

Imagen 2 Geometría de un par de cámaras en estéreo con ejes ópticos paralelos desde una
perspectiva superior.
En esta fórmula podemos describir las siguientes variables:

d = distancia entre las cámaras.

f= longitud focal de cada cámara.

6.3. Extracción de las características.


La finalidad de este proceso es de obtener las características de las imágenes obtenidas,
ya sea por un método u otro, o lo mejor por los dos y ver cual nos conviene más,
tenemos dos imágenes, una izquierda y derecha (ImgD, ImgI).

Existen dos clases de técnicas para establecer correspondencia a partir de dos imágenes
estereoscópicas la primera se conoce como técnicas basadas en el área y la segunda
como técnicas basadas en las características

Técnicas de estéreo basadas en el área, utilizan correlación cruzada entre patrones de


intensidad en la vecindad local de un pixel en una imagen con patrones también de
intensidad en una vecindad correspondiente de un pixel en la otra imagen del par
estereoscópico.

Técnicas de estéreo basadas en las características, utilizan representaciones


simbólicas obtenidas de las imágenes de intensidad en lugar de las intensidades
directamente. Las características utilizadas normalmente son: Puntos de borde aislados,
cadenas de puntos de bordes, regiones delimitadas por bordes.

6.4. Correspondencia.
Proceso mediante el cual dado un punto en la escena 3-D se llega a determinar cual es
su proyección en sendas imágenes del par estereoscópico.
El proceso de correspondencia considera los valores de los atributos del par de
características para establecer una correspondencia local, mediante alguna métrica que
determine cuál es el grado de semejanza entre los vectores de atributos de ambas
características.

La dificultad para establecer la correspondencia entre los puntos o características de un


par de imágenes estereoscópicas proviene de la naturaleza del propio sistema

Las imágenes izquierda y derecha captadas por un sistema de visión estereoscópica son
obtenidas desde diferentes posiciones o ángulos de tal forma que las condiciones de
iluminación pueden ser ligeramente diferentes o incluso con la posibilidad de la
aparición de reflejos en una imagen ausentes en la otra.

6.5. Obtención de la distancia.


Se obtienen primitivas y mapas de profundidad estos últimos necesitan un
procedimiento de interpolación adicional para extraer la profundidad de la escena
RESUMEN DE LECTURA:

Reconstrucción de mapas 3D a partir de información estereo


utilizando un enfoque de minimización.
Departamento de Ciencia de la comunicación e Inteligencia Artificial

En este artículo se presenta una técnica de extracción del mapa 3D de un entorno a


partir de la información estereo obtenida por un robot explorando dicho entorno.
Asumiendo que se desconoce la geometría del terreno y el movimiento realizado por la
cámara durante la exploración, se plantea un método para estimar dicho movimiento
entre cada par de vistas consecutivas, siguiendo un criterio de minimización de energía.
Dicha estimación se utiliza para componer el mapa 3D del entorno .
El montaje dispone de un sistema triangular de cámaras junto con un algoritmo de
correlación.
El problema básico del mapeado consiste en estimar el movimiento sufrido por la
cámara a partir de dos vistas consecutivas de la misma.
Para la reconstrucción de la imagen en 3D el origen de coordenadas del mapa coincide
con el origen de coordenadas de la primera cámara y al procesar las imágenes solo se
considera una nube de puntos la cual es suficiente para el asegurar el emparejamiento.
Referencias

• [1] Técnicas y algoritmos para la adquisición, transmisión y visualización de


escenas 3D -Diana Beltrán Guerrero, Luis Basañez Villaluenga.

• [2] Correspondencia Estereoscópica - Dpto. Automática, Ingeniería Electrónica


e Informática Industrial

• [3] Visión por Computador – Gonzalo Pajares Martinsaz, Jesús M. de la Cruz


García.

• [4] Visión Computacional – Carlos Ruiz Moreno


• [5] Visión por Computador – Gonzalo Pajares Martinsaz, Jesús M. de la Cruz
García (Capítulo 17, paginas 503.- 528).
UNIVERSIDAD NACIONAL DE INGENIERIA
PROYECTO DE TESIS EN INGENIERÍA DE SISTEMAS II

7. PLAN DE TRABAJO

Reconstrucción del Medio Ambiente utilizando visión estereoscópica

Base de Preparación del Procedimiento de


ambiente de Investigación
Conocimiento Experimentación
Experimentación

Instalacion de Elaboración Adquisición de


DevC++ openCv Montaje imágenes Experimentación

Geometría de
características

Extracción de
características

Obtención de la
distancia
UNIVERSIDAD NACIONAL DE INGENIERIA
PROYECTO DE TESIS EN INGENIERÍA DE SISTEMAS II

8. CRONOGRAMA DE ACTIVIDADES

Вам также может понравиться