Академический Документы
Профессиональный Документы
Культура Документы
Estado de Campeche
Segundo Semestre
Ciclo escolar
2018-2019
Página 1
Tecnologías de Análisis de Datos
Data Minning
Minería de Datos como soporte a la toma de decisiones empresariales
Resumen
Página 2
INTRODUCCIÓN
Página 3
lograr un rendimiento óptimo de las inversiones, en infraestructuras comerciales,
en un entorno competitivo dirigido hacia una gestión de clientes.
Por su parte, Molina y García (2004) explican que los datos tal cual se
almacenan en las bases de datos no suelen proporcionar beneficios directos; su
valor real reside en la información que podamos extraer de ellos, es decir,
información que nos ayude a tomar decisiones o a mejorar la comprensión de los
fenómenos que nos rodean. Ejemplos de ello pueden ser: contrastar que todo va
bien, analizar diferentes aspectos de la evolución de la empresa, presentar
información de forma más intuitiva, comparar información en diferentes períodos
de tiempo, comparar resultados con previsiones, identificar comportamientos y
evoluciones excepcionales, confirmar o descubrir tendencias e interrelaciones,
entre otras acciones.
Página 4
Para tal efecto, se deben definir medidas cuantitativas para los patrones
obtenidos (precisión, utilidad y beneficio obtenido), para establecer medidas de
interés que consideren la validez y simplicidad de los patrones obtenidos mediante
alguna de las técnicas de Minería de Datos. El objetivo final de todo esto es
incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a
partir de los resultados alcanzados, o simplemente registrar la información
conseguida y suministrársela a quien esté interesado.
Los índices de bondad de resultado tratan de aportar una idea acerca del
error que se comete al emplear un modelo para realizar una tarea. Tal como
manifiestan Padmanabhan y Tuzhilin (1999), ésta es una medida de la fortaleza
estadística del resultado. Para este indicador se utilizan las siguientes medidas:
Precisión, Ratio de error, Varianza y Matriz de confusión, siendo las dos últimas
derivaciones de las anteriores. La precisión se utiliza cuando el resultado se
presenta en forma de clasificación o estimación, la cual se mide a través del
porcentaje de predicciones que son correctas. Para efectos de la clasificación, se
emplea el porcentaje de casos bien clasificados y para la estimación del
porcentaje de registros, se emplea una estimación que el decisor considere
correcta. Para medir la precisión se puede emplear el coeficiente de confianza, el
cual no es más que la probabilidad condicionada de un hecho con respecto a otro.
Página 5
suma al cuadrado de las distancias en cada eje. Una medida que complementa a
la precisión es el Ratio de error, que mide el porcentaje de casos en los que el
resultado no coincide con la realidad.
Página 6
se cuenta con el Coeficiente de Simplicidad, la Tasa Interna de Retorno y el Valor
Actual Neto.
Otro importante hecho que describen Molina y García (2004) es que con la
implementación de procesos de Minería de Datos, a través de la aplicación de
algunas técnicas estadísticas avanzadas y nuevos métodos de extracción de
conocimiento en grandes base de datos, se pueden determinar las características
contables de las empresas más rentables, al igual que el perfil de sus clientes. Se
hace imprescindible, por un lado, un análisis exploratorio profundo de la base de
datos y el empleo de métodos robustos, que hagan que dichos componentes sean
menos sensibles a los amplios casos estadísticos. Por otro lado, es aconsejable
diseñar con base a opiniones de expertos, si no hay información adecuada, o
utilizar algún sistema de aprendizaje, por ejemplo, la utilización de redes
neuronales, para el descubrimiento de patrones y extraer la información de la base
de datos disponible.
Página 7
En fin, estos métodos y procedimientos se han convertido en retos
tecnológicos para procesar los datos y convertirlos en conocimiento útil para la
toma de decisiones. Este camino se presenta como una opción para las
organizaciones que quieran ser competitivas, valiéndose de la experiencia
acumulada, la cual sin duda alguna constituye el principal activo del que se
dispone para la creación de valor. De esta manera, una organización que
reflexiona, documenta y aprende, está en condiciones de innovar y obtener
ventajas competitivas.
Página 8
Siguiendo a Molina y García (2004) se puede decir que dentro de la Minería
de Datos se ha tomado la perspectiva orientada a datos, por dos razones.
Primero, porque la mayoría de los trabajos en Minería de Datos están enfocados
hacia el Data Warehouse, referido esto a la arquitectura, algoritmos, herramientas
y técnicas utilizadas para agrupar los datos provenientes de múltiples bases de
datos, u otras fuentes de información en un repositorio común, sobre el cual se
realizarán consultas y análisis. Éste proporciona el apoyo a la Minería de Datos
organizando y estructurando los datos; en efecto, tal como lo muestra Morand et
al. (2004) se define un nuevo concepto para el almacenamiento de datos,
integrando la información generada en todos los ámbitos de una actividad, con
una visión orientada al “negocio”, que permite el acceso y explotación de la
información contenida en el almacén, facilitando un amplio abanico de posibilidad
de análisis multivariados para la toma de decisiones estratégicas.
Autores como Molina y García (2004) explican cada una de las técnicas que
ayudan a la resolución de problemas particulares de la organización, basándose
en los datos que éstos poseen. Estas técnicas son: Razonamiento estadístico,
Visualización, Procesamiento paralelo, Aprendizaje automático y Apoyo en la toma
de decisiones.
Página 9
Razonamiento estadístico
Visualización
Procesamiento paralelo
Página 10
Apoyo a la toma de decisiones
Aprendizaje automático
Página 11
En definitiva, Molina y García (2004) dicen que la utilidad de aplicaciones
futuras en KDD es de largo alcance. KDD puede usarse como un medio de
recuperación de información, de la misma manera que los agentes inteligentes
realizan la recuperación de información en la Web. Nuevos modelos o tendencias
en los datos podrán descubrirse usando estas técnicas. El KDD también puede
usarse como una base para las interfaces inteligentes del mañana, agregando un
componente del descubrimiento del conocimiento a un sistema de bases de datos
o integrando KDD con las hojas de cálculo y visualizaciones.
Página 12
Tecnologías OLAP, MOLAP Y ROLAP
Introducción
Página 13
RESUMEN
Página 14
OBJETIVOS.
SISTEMA OLAP:
Página 15
¿Para qué se usa OLAP?
Para consultar los datos que las aplicaciones OLTP (On-Line Transaction
Processing o en castellano: Procesamiento de Transacciones en Línea) guardaron
en las bases de datos, las cuales se han vuelto inmensas porque algunas de sus
tablas tienen muchos millones de filas.
Página 16
ROLAP
Finalmente, el diseño de estas tablas dará lugar a una estructura en cuyo centro
estará la tabla de hechos y, alrededor de ésta y relacionadas con ella, estarán las
tablas para las dimensiones, dando lugar a un esquema en estrella.
Ejemplo:
VENTAJAS DE ROLAP.
Página 17
Hay disponible una gran variedad de herramientas de carga de datos para
sistemas relacionales; además, existe la posibilidad de ajustar el
código ETL (Extract, Transform, Load) a un modelo de datos particular. Con todo
esto se consigue que los tiempos de carga sean generalmente mucho menores
que con las cargas MOLAP automatizadas.
Los datos se almacenan en una base de datos relacional estándar que puede ser
accedida por cualquier herramienta de generación de informes SQL (reporting).
Estas herramientas no tienen que ser necesariamente de tipo OLAP.
DESVENTAJAS DE ROLAP.
Página 18
Los sistemas ROLAP se construyen sobre bases de datos de propósito
general, por lo que hay algunas funcionalidades especiales propias de las
herramientas MOLAP que no están disponibles en los sistemas ROLAP (tales
como el indexado jerárquico especial). Sin embargo, las herramientas ROLAP
modernas van supliendo estas carencias con las últimas mejoras en el
lenguaje SQL tales como los operadores CUBE y ROLLUP, las vistas de cubo
DB2, así como otras extensiones SQL OLAP. Estas mejoras SQL pueden mitigar
las diferencias frente a las herramientas MOLAP.
Dado que las herramientas ROLAP se basan en SQL para todos los
cálculos, no son apropiadas cuando el modelo realiza muchos cómputos que no
se traducen bien en SQL (por ejemplos: presupuestos, asignaciones, informes
financieros y otros escenarios).
MOLAP:
MOLAP es el acrónimo inglés de Multidimensional Online Analytical Processing, es
decir, 'procesamiento analítico multidimensional en línea'
Página 19
La BDMD es la encargada del manejo, acceso y obtención de los datos.
Página 20
almacenados en arreglos densos, los cuales requieren cuatro u ocho bytes por
celda.
Página 21
Cada herramienta MOLAP tiene su propio mecanismo para evitar guardar
explícitamente este tipo de celdas. En general se comprime la BD, con el
consiguiente costo de descomprimirla cuando se accede a los datos.
Página 22
puede permitir que un sistema se desempeñe adecuadamente al enfrentar
consultas impredecibles, con pocos o sin agregados precalculados.
Página 23
La Tabla 1 resume las diferencias entre ambas tecnologías.
Página 24
SGBD con soporte para ROLAP y MOLAP
Por otro lado, entre los SGBD que permiten utilizar almacenamiento de
datos de tipo MOLAP están:
Página 25
volúmenes de datos, realización de cálculos analíticos complejos y consultas
OLAP sofisticadas (Hyperion, 2002).
Página 26
Cubo ventas por almacén
Página 27
Ventajas de MOLAP
DESVENTAJAS DE MOLAP
Página 28
2. Las herramientas MOLAP tradicionalmente tienen dificultades para
consultar con modelos con dimensiones muy altas (del orden de
millones de miembros).
3. Algunas herramientas MOLAP (por ejemplo, Essbase) tienen
dificultades para actualizar y consultar los modelos con más de diez
dimensiones. Este límite varía en función de la complejidad y la
cardinalidad de las dimensiones de que se trate. También depende de
la cantidad de hechos o medidas almacenados. Otras herramientas
MOLAP (por ejemplo, Microsoft Análisis Services o Applix TM1) puede
manejar cientos de dimensiones.
Conclusión:
Página 29
Redes Neuronales
Las redes neuronales (también conocidas como sistemas conexionistas)
son un modelo computacional basado en un gran conjunto de unidades
neuronales simples (neuronas artificiales) de forma aproximadamente análoga al
comportamiento observado en los axones de las neuronas en los cerebros
biológicos1. La información de entrada atraviesa la red neuronal (donde se somete
a diversas operaciones) produciendo unos valores de salida.
Cada neurona está conectada con otras a través de unos enlaces. En estos
enlaces el valor de salida de la neurona anterior es multiplicado por un valor de
peso. Estos pesos en los enlaces pueden incrementar o inhibir el estado de
activación de las neuronas adyacentes. Del mismo modo, a la salida de la
neurona, puede existir una función limitadora o umbral, que modifica el valor
resultado o impone un límite que se debe sobrepasar antes de propagarse a otra
neurona. Esta función se conoce como función de activación.
Página 30
Las redes neuronales se han utilizado para resolver una amplia variedad de
tareas, como la visión por computador y el reconocimiento de voz, que son difíciles
de resolver usando la ordinaria programación basado en reglas. Históricamente, el
uso de modelos de redes neuronales marcó un cambio de dirección a finales de
los años ochenta de alto nivel, que se caracteriza por sistemas expertos con
conocimiento incorporado en si-entonces las reglas, a bajo nivel de aprendizaje
automático, caracterizado por el conocimiento incorporado en los parámetros de
un modelo cognitivo con algún sistema dinámico .
Una red neuronal artificial es un grupo interconectado de nodos similar a la vasta red de neuronas en un
cerebro biológico. Cada nodo circular representa una neurona artificial y cada flecha representa una
conexión desde la salida de una neurona a la entrada de otra.
Historia
Warren McCulloch y Walter Pitts (1943) crearon un modelo informático para redes
neuronales, que se llama lógica umbral, que se base en las matemáticas y
los algoritmos. Este modelo señaló el camino para que la investigación de redes
neuronales se divida en dos enfoques distintos. Un enfoque se centró en los
procesos biológicos en el cerebro y el otro se centró en la aplicación de redes
neuronales para la inteligencia artificial.
Página 31
Aprendizaje de Hebb
A finales de la década de 1940 el psicólogo Donald Hebb3 creó una
hipótesis de aprendizaje basado en el mecanismo de plasticidad neuronal que
ahora se conoce como aprendizaje de Hebb. Aprendizaje de Hebb se considera
que es un "típico" de aprendizaje no supervisado regla y sus variantes posteriores
fueron los primeros modelos de la potenciación a largo plazo. Los investigadores
empezaron a aplicar estas ideas a los modelos computacionales en 1948 con la
sugerencia de Turing, que el córtex humano infantil es lo que llamaba "máquina
desorganizada" (también conocido como "máquina Turing Tipo B").
Farley y Wesley A. Clark (1954) al principio utilizaron máquinas
computacionales, las cuales entonces se llamaban "calculadoras", para simular
una red de Hebb en el MIT. Otras simulaciones de redes neuronales por
computadora han sido creadas por Rochester, Holanda, Hábito y Duda (1956).
Frank Rosenblatt8 (1958) creó el perceptrón, un algoritmo de
reconocimiento de patrones basado en una red de aprendizaje de computadora de
dos capas, que utilizaba adición y sustracción simples. Con la notación
matemática, Rosenblatt también describe circuitería que no está en el perceptrón
básico, tal como el circuito de o-exclusiva, un circuito que no se pudo procesar por
redes neuronales antes de la creación del algoritmo de propagación hacia
atrás por Paul Werbos (1975).
En 1959, un modelo biológico propuesto por dos laureados de los Premios
Nobel, David H. Hubel y Torsten Wiesel, estaba basado en su descubrimiento de
dos tipos de células en la corteza visual primaria: células simples y células
complejas.
El primer reporte sobre redes funcionales multicapas fue publicado en 1965
por Ivakhnenko y Lapa en 1965, cual método ahora se llama el método de
agrupamiento para el manejo de datos.111213
La investigación de redes neuronales se estancó después de la publicación de la
investigación de aprendizaje automático por Marvin Minsky y Seymour
Papert (1969)14, que descubrió dos cuestiones fundamentales con las máquinas
computacionales que procesan las redes neuronales. La primera fue que los
perceptrones básicos eran incapaces de procesar la circuito de o-exclusivo. La
segunda cuestión importante era que los ordenadores no tenían suficiente poder
de procesamiento para manejar eficazmente el gran tiempo de ejecución requerido
por las grandes redes neuronales.
Página 32
A mediados de la década de 1980, el procesamiento distribuido en paralelo
se hizo popular con el nombre conexionismo. El libro de David E.
Rumelhart y James McClelland (1986) proporcionan una exposición completa de
la utilización de conexionismo en los ordenadores para simular procesos
neuronales.
Las redes neuronales, tal como se utiliza en la inteligencia artificial, que
tradicionalmente han sido considerados como modelos simplificados de
procesamiento neural en el cerebro, a pesar de que la relación entre este modelo
y la arquitectura biológica del cerebro se debate; no está claro en qué medida las
redes neuronales artificiales reflejan la función cerebral.
Máquinas de soporte vectorial y otros métodos mucho más simples, tales
como los clasificadores lineales, alcanzaron gradualmente las redes neuronales en
popularidad en aprendizaje automático. No obstante, el uso de redes neuronales
ha cambiado algunos campos, tales como la predicción de las estructuras de las
proteinas.1617
En 1992, max-pooling (una forma de submuestreo, en la que se divide los
datos en grupos de tamaños iguales, que no tienen elementos en común, y se
transmite solamente el valor máximo de cada grupo) fue introducido para ayudar
con el reconocimiento de objetos tri-dimensionales.
En 2010, el uso de max-pooling en el entrenamiento por propagación hacia
atrás fue acelerado por los GPUs, y fue demostrado que este ofrece mejor
rendimiento que otros tipos de agrupamiento.
El problema del desvanecimiento del gradiente afecta las redes neuronales
prealimentadas de múltiples capas, que usan la propagación hacia atrás, y
también los redes neuronales recurrentes (RNNs). Mientras que los errores se
propagan de una capa a otra, disminuyen exponencialmente con el número de
capas, y eso impide el arreglamiento de los pesos de las neuronas, la cual se base
en esos errores. Redes profundas están particularmente afectadas.
Para vencer este problema, Schmidhuber adoptaba una jerarquía multicapa
de redes (1992) pre entrenados, una capa a la vez, por aprendizaje no
supervisado, y refinado por propagación hacia atrás. Behnke (2003) contaba
solamente con el signo del gradiente (Rprop) tratándose de problemas tales como
la reconstrucción de imágenes y la localización de caras.
Como retos anteriores en redes neuronales profundas de capacitación se
abordaron con éxito con métodos como pre entrenamiento no supervisado y la
potencia de cálculo incrementado a través del uso de las GPU y la computación
distribuida, las redes neuronales se desplegaron de nuevo a gran escala, sobre
todo en problemas del procesamiento de imágenes y del reconocimiento visual.
Esto se conoció como "aprendizaje profundo", aunque el aprendizaje profundo no
es estrictamente sinónimo de redes neuronales profundas.
Página 33
Diseños basados en Hardware
Dispositivos de cómputo fueron creados en CMOS, para la simulación
biofísica al igual que para la cómputo neuromórfico. Nanodispositivos para análisis
de componentes principales de escala muy grande, y convolución puedan crear
una clase nueva de cómputo neuronal, porque son
fundamentalmente analógicas en vez de digitales (aunque las implementaciones
primeras puedan utilizar dispositivos digitales). Ciresan y sus colegas (2010) en el
grupo de Schmidhuber mostraron que, a pesar del problema del desvanecimiento
del gradiente, los GPUs hacen factible la propagación hacia atrás para las redes
neuronales prealimentadas con múltiples capas.
Página 34
pre-formados por métodos no supervisados de Geoff Hinton laboratorio en
la Universidad de Toronto .Un equipo de este laboratorio ganaron un concurso de
2012 patrocinado por Merck para el diseño de software para ayudar a encontrar
moléculas que podrían conducir a nuevos medicamentos.
Modelos
Modelos de redes neuronales en la inteligencia artificial se refieren
generalmente a las redes neuronales artificiales (RNA); estos son modelos
matemáticos esencialmente simples que definen una función f:X→Y o una
distribución más X o ambos X e Y. Pero a veces los modelos también están
íntimamente asociadas con un algoritmo de aprendizaje en particular o regla de
aprendizaje. Un uso común de la frase "modelo ANN" es en realidad la definición
de una clase de tales funciones (donde los miembros de la clase se obtiene
variando parámetros, los pesos de conexión, o específicos de la arquitectura, tales
como el número de neuronas o su conectividad).
Función de red
La palabra red en el término "red neuronal artificial" se refiere a las
interconexiones entre las neuronas en las diferentes capas de cada sistema. Un
sistema ejemplar tiene tres capas. La primera capa tiene neuronas de entrada que
envían datos a través de las sinapsis a la segunda capa de neuronas, y luego a
través de más sinapsis a la tercera capa de neuronas de salida. Los sistemas más
complejos tendrán más capas de neuronas, algunos habiendo aumentado capas
de neuronas de entrada y de salida de las neuronas. Las sinapsis almacenan
parámetros llamados "pesos" que manipulan los datos en los cálculos.
Un RNA se define típicamente por tres tipos de parámetros:
1. El patrón de interconexión entre las diferentes capas de neuronas
2. El proceso de aprendizaje para la actualización de los pesos de las
interconexiones
3. La función de activación que convierte las entradas ponderadas de una neurona
a su activación a la salida.
Matemáticamente, la función de red de una neurona se define como una
composición de otras funciones . Este se representa como una estructura de red,
con flechas que representan las dependencias entre variables.Un tipo
ampliamente utilizado de la composición es la suma ponderada no lineal , donde k
(denominado comúnmente como la función de activación) es una función
predefinida, como la tangente hiperbólica o función sigmoide . La característica
importante de la función de activación es que proporciona una transición suave
como valores de entrada de cambio, es decir, un pequeño cambio en la entrada
produce un pequeño cambio en la producción. Será conveniente para la siguiente
para referirse a una colección de funciones simplemente como un vector.
Página 35
Esta cifra representa una descomposición de tales , Con las dependencias
entre las variables indicadas por las flechas. Estos pueden ser interpretados de
dos maneras.
La primera vista es la vista funcional: la entrada se transforma en un vector
de 3 dimensiones , Que se transforma a continuación en un vector de 2
dimensiones , Que es finalmente transformado en . Este punto de vista se
encuentra más comúnmente en el contexto de la optimización.
El segundo punto de vista es la vista probabilístico: la variable
aleatoria depende de la variable aleatoria , Que depende de , Que depende de la
variable aleatoria . Este punto de vista se encuentra más comúnmente en el
contexto de modelos gráficos .
Página 36
El aprendizaje
Lo que ha atraído el mayor interés en las redes neuronales es la posibilidad
de aprendizaje. Dada una determinada tarea a resolver, y una clase de funciones ,
el aprendizaje consiste en utilizar un conjunto de observaciones para encontrar la
cual resuelve la tarea de alguna forma óptima.
Esto implica la definición de una función de coste tal que, para la solución
óptima . Es decir, ninguna solución tiene un costo menor que el costo de la
solución óptima.
La función de coste es un concepto importante en el aprendizaje, ya que
representa lo lejos que una solución particular se encuentra de la solución óptima
al problema a resolver. Los algoritmos de aprendizaje buscan a través del espacio
de soluciones para encontrar una función que tiene el menor costo posible.
Página 37
fija, es más útil en el caso en el que la distribución cambia lentamente con el
tiempo. En los métodos de redes neuronales, alguna forma de aprendizaje en
línea de la máquina se utiliza con frecuencia para conjuntos de datos finitos.
Paradigmas de aprendizaje
Hay tres grandes paradigmas de aprendizaje, cada uno correspondiente a
una tarea de aprendizaje abstracto en particular. Estos son el aprendizaje
supervisado ,el aprendizaje no supervisado y el aprendizaje por refuerzo.
El aprendizaje supervisado
En el aprendizaje supervisado, se nos da una serie de ejemplos de pares y
el objetivo es encontrar una función en la clase permitido de funciones que
corresponden con los ejemplos. En otras palabras, deseamos inferir el mapeo
derivado de los datos; la función de coste está relacionado con la falta de
coincidencia entre nuestro mapeo y los datos, y contiene implícitamente el
conocimiento previo sobre el dominio del problema.
Un coste de uso común es el error cuadrático medio, que trata de minimizar
el error cuadrático medio entre las salidas de la red, y el valor objetivo sobre
todos los pares ejemplares. Cuando uno trata de minimizar este coste
utilizando descenso de gradiente para la clase de las redes neuronales
llamadas perceptrones multicapas (MLP), se obtiene el común y bien
conocido algoritmo de propagación hacia atrás para la formación de redes
neuronales.
Tareas que caen dentro del paradigma de aprendizaje supervisado son el
reconocimiento de patrones (también conocido como clasificación)
y regresión (también conocido como aproximación de función). El paradigma de
aprendizaje supervisado es aplicable también a los datos secuenciales (por
ejemplo, reconocimiento del habla, del manuscrito, y de gestos). Esto se puede
considerar como una forma de aprendizaje con un "maestro", en la forma de una
función que proporciona información continua sobre la calidad de las soluciones
obtenidas hasta el momento.
Página 38
Aprendizaje no supervisado
En el aprendizaje no supervisado , algunos datos se da y la función de
coste que se reduce al mínimo, que puede ser cualquier función de los datos y la
salida de la red.
La función de coste depende de la tarea (lo que estamos tratando de
modelar) y nuestros a priori suposiciones implícitas (las propiedades de nuestro
modelo, sus parámetros y las variables observadas).
Como un ejemplo trivial, considere el modelo donde es una constante y el
costo . Minimizar este coste nos dará un valor de{\ Displaystyle \ estilo de texto a}
a que es igual a la media de los datos. La función de coste puede ser mucho más
complicado. Su forma depende de la aplicación: por ejemplo, en la compresión de
que podría estar relacionado con la información mutua entre y , Mientras que en
la modelización estadística, que podría estar relacionado con la probabilidad
posterior del modelo dados los datos (tenga en cuenta que en estos dos ejemplos
esas cantidades se maximizaría en lugar de reducirse al mínimo).
Tareas que caen dentro del paradigma de aprendizaje no supervisado están
en generales de estimación de problemas; las aplicaciones incluyen el
agrupamiento , la estimación de distribuciones estadísticas , la compresión de
datos y el filtrado bayesiano de spam.
Página 39
densidad de la red de discretización para aproximar numéricamente la solución de
los problemas de control originales.
Tareas que caen dentro del paradigma de aprendizaje por refuerzo son problemas
de control, juegos y otras secuenciales tareas.
Tipo de entrada
Finalmente también se pueden clasificar las RNAs según sean capaces de
procesar información de distinto tipo en:
Algoritmos de aprendizaje
El entrenamiento de un modelo de red neuronal en esencia significa
seleccionar un modelo de la serie de modelos permitidos (o, en
un bayesiano marco, la determinación de una distribución en el conjunto de
modelos permitidos) que minimiza el criterio de costo. Hay numerosos algoritmos
disponibles para la formación de los modelos de redes neuronales; la mayoría de
ellos puede ser vista como una aplicación directa de la teoría de optimización y
la estimación estadística .
La mayoría de los algoritmos utilizados en las redes neuronales artificiales
de formación emplean alguna forma de descenso de gradiente, utilizando
propagación hacia atrás para calcular los gradientes reales. Esto se hace
simplemente tomando la derivada de la función de coste con respecto a los
parámetros de la red y a continuación, cambiando los parámetros en una dirección
relacionada al gradiente. Los algoritmos de entrenamiento de propagación hacia
atrás generalmente se clasifican en tres categorías:
1. Descenso del gradiente (con tasa variable de aprendizaje y
momentum, retropropagación elástica (Rprop));
2. cuasi-Newton ( Broyden-Fletcher-Goldfarb-Shannon, Método de la secante );
3. Levenberg-Marquardt y gradiente conjugado (actualización Fletcher-Reeves,
actualizaación Polak-Ribiere, Powell-Beale reinicio, gradiente conjugado
escalado).
Métodos evolutivos, de programación de la expresión génica,43 de recocido
simulado, de esperanza-maximización, los métodos no paramétricos y la
optimización por enjambre de partículas45 son algunos otros métodos para la
formación de redes neuronales.
Página 40
Algoritmo recursivo convergente de aprendizaje
Este es un método de aprendizaje específicamente designado para redes
neuronales controladores de articulación (CMAC por sus siglas en inglés) de
modelo cerebelosa. En 2004, un algoritmo recursivo de mínimos cuadrados estaba
introducido para formar en línea redes neuronales CMAC. Este algoritmo puede
convergir en un solo paso, y actualizar todos los pesos en un solo paso con
cualquier dato nuevo de entrada. Al principio, este algoritmo tenía complejidad
computacional de O(N3). Basado en factorización QR, este algoritmo recursivo de
aprendizaje había sido simplificado para hacerlo O(N).
Aplicaciones
RNA las hacen bastante apropiadas para aplicaciones en las que no se
dispone a priori de un modelo identificable que pueda ser programado, pero se
dispone de un conjunto básico de ejemplos de entrada (previamente clasificados o
no). Asimismo, son altamente robustas tanto al ruido como a la disfunción de
elementos concretos y son fácilmente paralelizables.
Esto incluye problemas de clasificación y reconocimiento de patrones de
voz, imágenes, señales, etc. Asimismo se han utilizado para encontrar patrones de
Página 41
fraude económico, hacer predicciones en el mercado financiero, hacer
predicciones de tiempo atmosférico, etc.
También se pueden utilizar cuando no existen modelos matemáticos
precisos o algoritmos con complejidad razonable, por ejemplo la red de Kohonen
ha sido aplicada con un éxito más que razonable al clásico problema del
viajante (un problema para el que no se conoce solución algorítmica de
complejidad polinómica).
Otro tipo especial de redes neuronales artificiales se ha aplicado en
conjunción con los algoritmos genéticos (AG) para crear controladores
para robots. La disciplina que trata la evolución de redes neuronales
mediante algoritmos genéticos se denomina Robótica Evolutiva. En este tipo de
aplicación el genoma del AG lo constituyen los parámetros de la red (topología,
algoritmo de aprendizaje, funciones de activación, etc.) y la adecuación de la red
viene dada por la adecuación del comportamiento exhibido por el robot controlado
(normalmente una simulación de dicho comportamiento).
Página 42
velocidad de la radiología cáncer de pulmón. Estas redes también se han utilizado
para diagnosticar el cáncer de próstata. Los diagnósticos se pueden utilizar para
hacer modelos específicos tomados de un gran grupo de pacientes en
comparación con la información de un paciente dado. Los modelos no dependen
de suposiciones acerca de las correlaciones de diferentes variables. El cáncer
color rectal también se ha previsto el uso de las redes neuronales. Las redes
neuronales podrían predecir el resultado de un paciente con cáncer color rectal
con más precisión que los métodos clínicos actuales. Después del entrenamiento,
las redes podrían predecir múltiples resultados de los pacientes de instituciones
relacionadas.
Tipos de modelos
Muchos modelos se utilizan en el campo, que se define en diferentes
niveles de abstracción y el modelado de diferentes aspectos de los sistemas
neurales. Se extienden desde modelos del comportamiento a corto plazo de las
neuronas individuales, tras los modelos del surgimiento de la dinámica de los
circuitos neuronales de la interacción entre las neuronas individuales hasta,
finalmente, los modelos del surgimiento del comportamiento de los módulos
neuronales abstractos que representan subsistemas completas. Estos incluyen
modelos de plasticidad de largo y corto plazo, y de los sistemas neuronales y sus
relaciones con el aprendizaje y la memoria de la neurona individual a nivel del
sistema.
Página 43
codificados por las redes neuronales se utilizan como direcciones de memoria
para la memoria de contenido direccionable, con "neuronas" que sirven
esencialmente como dirección codificadores y decodificadores .
Más recientemente aprendizaje profundo ha demostrado ser útil enhashing
semántica, donde un profundo modelo gráfico de los vectores de palabra de
recuento de se obtiene a partir de un gran conjunto de documentos. Los
documentos se asignan a las direcciones de memoria de tal manera que los
documentos semánticamente similares se encuentran en direcciones cercanas.
Documentos similares a un documento de consulta a continuación, se pueden
encontrar simplemente accediendo a todas las direcciones que difieren por sólo
unos pocos bits de la dirección del documento de consulta.
Redes de memoria es otra extensión de las redes neuronales que
incorporan la memoria a largo plazo que fue desarrollado
por Facebook investigación. La memoria a largo plazo puede ser leído y escrito
para, con el objetivo de utilizarlo para la predicción. Estos modelos se han
aplicado en el contexto de la búsqueda de respuestas (QA), donde la memoria a
largo plazo que de hecho actúa como un (dinámico) base de conocimientos, y la
salida es una respuesta textual.
Máquinas de Turing neuronales desarrollados por Google DeepMindampliar
las capacidades de las redes neuronales profundas mediante el acoplamiento a
los recursos de memoria externos, que pueden interactuar con los procesos
atencionales. El sistema combinado es análogo a una máquina de Turing pero es
diferenciable de extremo a extremo, lo que le permite ser entrenado de manera
eficiente con descenso del gradiente. Los resultados preliminares demuestran que
las máquinas de Turing neuronales puede deducir algoritmos simples, tales como
copiar, clasificar, y recuerdo asociativo a partir de ejemplos de entrada y salida.
Computadoras neuronales diferenciables (DNC) son una extensión de las
máquinas de Turing neuronal, también de DeepMind. Se han realizado fuera de
las máquinas de Turing neuronales, la memoria de largo a corto plazo los sistemas
y redes de la memoria en las tareas de procesamiento de secuencia.
Página 44
parámetros del rendimiento y las diferentes conexiones con las neuronas. Las
redes neuronales artificiales pueden ser autónomas y aprender mediante el aporte
de "maestros" externos o incluso auto-enseñanza de las reglas escritas de
entrada. Redes neuronales estilo Cubo Neural primera por primera vez por Gianna
Giavelli proporcionan un espacio dinámico en el que las redes se recombinan
dinámicamente información y enlaces a través de miles de millones de nodos
independientes que utilizan la adaptación neuronal darwinismo , una técnica
desarrollada por Gerald Edelman , que permite sistemas más modeladas
biológicamente.
Capacidad
Los modelos de redes neuronales artificiales tienen una propiedad
denominada "capacidad", que corresponde aproximadamente a su capacidad para
modelar cualquier función dada. Se relaciona con la cantidad de información que
puede ser almacenada en la red y a la noción de complejidad.
Convergencia
Nada se puede decir en general sobre la convergencia ya que depende de
una serie de factores. En primer lugar, pueden existir muchos mínimos locales.
Esto depende de la función de coste y el modelo. En segundo lugar, el método de
optimización utilizado no puede ser garantizado a converger cuando lejos de un
mínimo local. En tercer lugar, para una cantidad muy grande de datos o
parámetros, algunos métodos se vuelven poco práctico. En general, se ha
encontrado que las garantías teóricas sobre la convergencia son una guía fiable
para la aplicación práctica.
Página 45
Generalización y estadísticas
En aplicaciones donde el objetivo es crear un sistema que generaliza bien
en los ejemplos que no se ven, ha surgido el problema de la formación excesiva.
Esto surge en los sistemas complicados o sobre especificadas cuando la
capacidad de la red supera significativamente los parámetros libres necesarios.
Hay dos escuelas de pensamiento para evitar este problema: La primera es
utilizar la validación cruzada técnicas similares y para comprobar la presencia de
un exceso de entrenamiento y de manera óptima seleccione hiper- tales que se
minimice el error de generalización. La segunda es utilizar algún tipo
de regularización . Este es un concepto que surge de manera natural en un marco
probabilístico (Bayesiano), donde la regularización puede realizarse mediante la
selección de una probabilidad a priori más grande sobre los modelos más simples;
sino también en la teoría estadística de aprendizaje, donde el objetivo es reducir al
mínimo más de dos cantidades: el "riesgo empírico" y el "riesgo estructural ', que
corresponde aproximadamente al error sobre el conjunto de entrenamiento y el
error de predicción en los datos que no se ven debido a sobreajuste. Redes
neuronales supervisadas que utilicen un error cuadrático medio (MSE) función de
coste se pueden utilizar métodos estadísticos formales para determinar la
confianza del modelo entrenado. El MSE en un conjunto de validación se puede
utilizar como una estimación de la varianza. Este valor puede ser utilizado para
calcular el intervalo de confianza de la salida de la red, suponiendo
una distribución normal . Un análisis de confianza realizado de esta manera es
estadísticamente válida siempre que la salida de distribución de probabilidad sigue
siendo el mismo y la red no es modificada.
Página 46
probabilidades. Esto es muy útil en la clasificación, ya que da una medida de la
seguridad en las clasificaciones.
La crítica
Cuestiones de capacitación
Una crítica común de las redes neuronales, en particular en la robótica, es que
requieren una gran diversidad de entrenamiento para el funcionamiento del mundo
real. Esto no es sorprendente, ya que cualquier máquina de aprendizaje necesita
suficientes ejemplos representativos con el fin de capturar la estructura
subyacente que le permite generalizar a nuevos casos. Dean A. Powerless, en su
investigación presentada en el documento "Formación basada en el conocimiento
de redes neuronales artificiales para la conducción autónoma del robot", utiliza una
red neuronal para entrenar a un vehículo robótico para conducir en múltiples tipos
de carreteras (de un solo carril, varios carriles, suciedad, etc.). Una gran cantidad
de su investigación está dedicada a (1) la extrapolación de múltiples escenarios de
entrenamiento a partir de una sola experiencia de formación, y (2) la preservación
de la diversidad de entrenamiento pasado para que el sistema no se convierta en
sobre entrenamiento (si, por ejemplo, se presenta con una serie de giros a la
derecha - no debe aprender a girar siempre a la derecha). Estos problemas son
comunes en las redes neuronales que debe decidir de entre una amplia variedad
de respuestas, pero se pueden tratar de varias maneras, por ejemplo por revolver
al azar los ejemplos de entrenamiento, mediante el uso de un algoritmo de
optimización numérica que no toma demasiado grandes pasos cuando el cambio
de las conexiones de red siguiendo un ejemplo, o mediante la agrupación de
ejemplos en los llamados mini-lotes.
Cuestiones teóricas
AK Dewdney , un científico matemático e informática de la Universidad de
Ontario Occidental y ex Scientific American columnista, escribió en 1997, "A pesar
de que las redes neurales hacen resolver algunos problemas de juguete, su poder
de computación son tan limitados que me sorprende que nadie los toma en serio
como una herramienta general de resolución de problemas ". No existe una red
neuronal nunca se ha demostrado que resuelve los problemas
computacionalmente difíciles, tales como la N-Queens problema, el problema del
viajante de comercio , o el problema de factorizar enteros grandes.
Aparte de su utilidad, una objeción fundamental a las redes neuronales
artificiales es que no logran reflejar cómo funcionan las neuronas reales.
Propagación hacia atrás está en el corazón de las redes neuronales artificiales y la
mayoría no sólo no hay evidencia de ningún mecanismo de este tipo de redes
neuronales naturales,51 parece contradecir el principio fundamental de las
neuronas reales que la información sólo puede fluir hacia adelante a lo largo del
Página 47
axón. Como la información está codificada por las neuronas reales aún no se
conoce. Lo que se sabe es que las neuronas sensoriales disparan potenciales de
acción con mayor frecuencia con la activación del sensor y las células musculares
tiran más fuertemente cuando sus neuronas motoras asociadas reciben los
potenciales de acción con más frecuencia. Aparte del caso más simple de solo
transmisión de información de una neurona a un sensor de la neurona motora casi
nada se conoce de los principios generales subyacentes de cómo se maneja la
información por las redes neuronales reales.
La motivación detrás de las redes neuronales artificiales no es
necesariamente para replicar la función neural real, pero para utilizar redes
neuronales naturales como inspiración para un acercamiento a la computación
que es inherentemente paralelo y que proporciona soluciones a los problemas que
tienen hasta ahora ha considerado intratable. Por tanto, una afirmación central de
las redes neuronales artificiales es que encarna algún principio general nuevo y
potente para el procesamiento de la información. Por desgracia, estos principios
generales están mal definidos y que a menudo se afirma que son emergentes de
la red neuronal en sí. Esto permite la asociación estadística sencilla (la función
básica de las redes neuronales artificiales), que se describe como el
aprendizaje o el reconocimiento. Como resultado, las redes neuronales artificiales
tienen, según Dewdney, un "algo para nada la calidad, que imparte un aura
peculiar de la pereza y una clara falta de curiosidad acerca de lo bien que estos
sistemas de computación son Ninguna mano humana (o la mente) interviene;
soluciones. Se encuentran como por arte de magia, y nadie, al parecer, ha
aprendido nada”.
Página 48
que son varias capas más profundas que antes (pero añade que esto no resuelve
los problemas algorítmicos tales como fuga gradientes "de una manera
fundamental"). El uso de la GPU en lugar de CPUs ordinarios puede traer los
tiempos de entrenamiento para algunas redes por debajo de los meses a meros
días.
Potencia de cálculo sigue creciendo más o menos de acuerdo con la Ley de
Moore , que puede proporcionar recursos suficientes para llevar a cabo nuevas
tareas. Ingeniería neuromorphic aborda la dificultad de hardware directamente,
mediante la construcción de chips de no-von Neumann con circuitos diseñados
para implementar redes neuronales desde el principio. Google también ha
diseñado un chip optimizado para el procesamiento de red neural llamado Unidad
de Procesamiento Tensor o TPU.
Página 49
Enfoques híbridos
Algunas otras críticas que provienen de los defensores de los modelos
híbridos (combinación de redes neuronales y enfoques simbólicos), que creen que
el intermix de estos dos enfoques puede capturar mejor los mecanismos de la
mente humana.
Ejemplos
Quake II Neuralbot
Un bot es un programa que simula a un jugador humano. El Neuralbot es un
bot para el juego Quake II que utiliza una red neuronal artificial para decidir su
comportamiento y un algoritmo genético para el aprendizaje. Es muy fácil probarlo
para ver su evolución.
Página 50
reconocimiento de patrones y la predicción del tiempo. De cualquier forma, el
humano tiene capacidad para el reconocimiento de patrones, pero la capacidad de
las redes neuronales no se ve afectada por la fatiga, condiciones de trabajo,
estado emocional, y compensaciones.
Se conocen cinco aplicaciones tecnológicas extendidas:
Página 51
Tecnologías Computacionales Interempresariales
Arquitectura de Intranet
ARQUITECTURA Y PROCESAMIENTO EN UNA INTRANET
Resumen
El contenido de este artículo tiene como objetivo ser una guía y cubrir tanto
el concepto básico de una arquitectura TCP/IP, su funcionalidad, sus niveles y
además la manera en que los paquetes son procesados por el mismo.
TCP/IP está diseñado para ser un componente de una red, principalmente la parte
del software. Todas las partes del protocolo de la familia TCP/IP tienen unas
tareas asignadas como enviar correo electrónico, proporcionar un servicio de
acceso remoto, transferir ficheros, asignar rutas a los mensajes o gestionar caídas
de la red.
Arquitectura TCP/IP
La arquitectura TCP/IP está hoy en día ampliamente difundida, a pesar de ser una
arquitectura de facto, en lugar de ser uno de los estándares por la ISO
(International Organization for Standardization), IIC (International Industrial
Certification), entre otras instituciones.
Página 52
en internet se encuentran conectados ordenadores de clases muy diferentes y con
hardware y software incompatibles en muchos casos, además de todos los medios
y formas posibles de conexión.
Aquí se encuentra una de las grandes ventajas de esta arquitectura TCP/IP, pues
esta se encargará de que la comunicación entre todos sea posible. TCP/IP es
compatible con cualquier sistema operativo y con cualquier tipo de hardware.
TCP/IP no es un único protocolo, sino más bien es lo que se conoce con este
nombre es un conjunto de protocolos que se cubren los distintos niveles del
modelo OSI. Los dos protocolos más importantes son el TCP (Transmission
Control Protocol) y el IP (Internet Protocol), que son los que dan nombre al
conjunto. La arquitectura del TCP/IP consta de 4 niveles o capas en las que se
agrupan los protocolos, y que se relacionan con los niveles OSI de la siguiente
manera:
Aplicación
Transporte
Coincide con el nivel de transporte del modelo OSI. Los protocolos de este nivel,
tales como TCP y UDP, se encargan de manejar los datos y proporcionar la
fiabilidad necesaria en el transporte de los mismos.
En el receptor este nivel se encarga de ordenar y unir las tramas para generar de
nuevo la información original.
Internet
Es el nivel de red del modelo OSI. Incluye al protocolo IP, que se encarga de
enviar los paquetes de información a sus destinos correspondientes. Es utilizado
con esta finalidad por los protocolos del nivel de transporte.
Página 53
Coloca la información que le pasa el nivel de transporte en datagramas IP, le
añade cabeceras necesaria para su nivel y lo envía al nivel inferior. Es en este
nivel donde se emplea el algoritmo de encaminamiento, al recibir un datagrama
del nivel inferior decide, en función de su dirección, si debe procesarlo y pasarlo al
nivel superior, o bien encaminarlo hacia otra máquina.
Enlace
Este nivel se limita a recibir datagramas del nivel superior (nivel de red) y
transmitirlo al hardware de la red. Pueden usarse diversos protocolos: DLC (IEEE
802.2), Frame Relay, X.25, entre otros.
La interconexión de diferentes redes genera una red virtual en la que las maquinas
se identifican mediante una dirección de red lógica. Sin embargo a la hora de
transmitir información por un medio físico se envía y se recibe información de
direcciones físicas.
Un diseño eficiente implica que una dirección lógica sea independiente de una
dirección física, por lo tanto es necesario un mecanismo que relacione las
direcciones lógicas con las direcciones físicas. De esta forma podremos cambiar
nuestra dirección lógica IP conservando el mismo hardware, del mismo modo
podremos cambiar una tarjeta de red, la cual contiene una dirección física, sin
tener que cambiar nuestra dirección lógica IP.
Como hemos hablado antes Intranet es una red de ordenadores conectados por
medio del protocolo de comunicación TCP/IP, es decir aplica la tecnología de
Internet a la tecnología de redes Lan, lo cual permite dentro de una empresa u
organización, que se enlacen a todos los miembros de una organización
proporcionándoles un acceso fácil a la información y convirtiendo el uso de los
recursos y aplicaciones en un proceso más amigable, funcional y productivo.
Para usar una Intranet, las computadoras cliente normalmente necesitan de los
siguientes requisitos mínimos:
Página 54
Herramientas de desarrollo de páginas Web para la Intranet, donde existen
multitud de herramientas para esta función tanto como para Windows como
Linux, aunque la más usada es la de Microsoft Frontpage.
Los datos enviados dentro de una Intranet deben separase en paquetes menores
de 1.500 caracteres. TCP divide los datos en paquetes. A medida que crea cada
paquete, calcula y añade un número de control a éstos. El número de control se
basa en los valores de los bytes, es decir, la cantidad exacta de datos en el
paquete.
Internet. Todos los envases de una clase de datos determinada tienen la misma
información de direccionamiento así que se pueden enviar a la misma localización
para reagruparse.
Los paquetes viajan entre redes Intranets gracias a enrutadores de Intranets. Los
enrutadores examinan todos los envases IP y estudian sus direcciones. Estos
direccionadores determinan la ruta más eficiente para enviar cada paquete a su
destino final. Debido a que el tráfico en una Intranet cambia frecuentemente, los
paquetes se pueden enviar por caminos diferentes y puedan llegar desordenados.
Si el enrutador observa que la dirección está localizada dentro de la Intranet, el
paquete se puede enviar directamente a su destino, o puede enviarse a otro
enrutador. Si la dirección se localiza fuera de Internet, se enviará a otro enrutador
para que se pueda enviar a través de ésta.
A medida que los paquetes llegan a su destino, TCP calcula un número de control
para cada uno. Después compara este número de control con el número que se
ha enviado en el paquete. Si no coinciden, CP sabe que los datos en el paquete
se han degradado durante él envió. Después descarta el paquete y solicita la
retransmisión del paquete original.
Página 55
Observaciones y Comentarios
Conclusiones
El uso de una arquitectura TCP/IP hoy en día es muy común, se puede decir que
un 95% de los equipos de cómputo alrededor del mundo utilizan esta arquitectura,
sin embargo no es la única a poder usar.
Página 56
Bibliografía
Bermúdez Gina, Nieto Luz Dary, Ríos Javier, González Adelmo, Malpica Myriam –
28 Mayo 2,014 – http://protocolotcpip.galeon.com/
http://www.juntadeandalucia.es/empleo/recursos/material_didactico/especialidades
/materialdidactico_administrador_servidores/Content/1-so/4-Intranet.pdf
Noli Aldo, Peralta Gabriel, Sandmann Fernando, Smunic Mariano – 28 Mayo 2,014
– http://www1.frm.utn.edu.ar/comunicaciones/tcp_ip.html#5
Página 57