Академический Документы
Профессиональный Документы
Культура Документы
0:54
Ahora, si tiene m ejemplos de capacitación, necesita repetir este proceso para decir, el primer
ejemplo de entrenamiento. x superíndice (1) para calcular y hat 1 hace una predicción en su
primer ejemplo de entrenamiento. Entonces x (2) usa eso para generar predicción y hat (2). Y
así sucesivamente hasta x (m) para generar una predicción y hat (m). Y así en toda esta
notación de función de activación también, Voy a escribir esto como un [2] (1). Y este es un [2]
(2), y a (2) (m), entonces esta notación a [2] (i). El corchete redondo se refiere al ejemplo de
entrenamiento i, y el corchete 2 se refiere a la capa 2, está bien.
1:58
2:04
Y para sugerir que si tiene una implementación no revelada y desea calcular las predicciones
de todos sus ejemplos de entrenamiento, tienes que hacer por i = 1 a m. Entonces,
básicamente, implementa estas cuatro ecuaciones, ¿verdad? Necesita hacer az [1] (i) = W (1) x
(i) + b [1], a [1] (i) = sigma de z [1] (1). de [2] (i) = en [2] y [1] (i) + b [2] yZ2i es igual a w2a1i más
b2 y a [2] (i) = punto sigma de z [2] (i). Así que básicamente son estas cuatro ecuaciones las que
se agregan al superíndice entre corchetes a todas las variables que dependen del ejemplo de
entrenamiento. Entonces, al agregar este paréntesis superíndice i a x, z y a, si desea calcular
todas las salidas en sus ejemplos de m ejemplos de entrenamiento. Lo que nos gusta hacer es
vectorizar todo este cálculo, para deshacernos de esto. Y, por cierto, en caso de que parezca
que estoy obteniendo mucha nitidez álgebra lineal, resulta que ser capaz de implementar esto
correctamente es importante en la era del aprendizaje profundo. Y en realidad elegimos la
notación con mucho cuidado para este curso y hacer estos pasos de vectorización lo más fácil
posible. Así que espero que pasar por este asunto me ayude a más rápidamente obtener
implementaciones correctas de estos algoritmos de trabajo.
3:51
De acuerdo, déjenme copiar todo este bloque de código en la siguiente diapositiva y entonces
veremos cómo vectorizar esto.
3:59
Así que aquí está lo que tenemos de la diapositiva anterior con el de bucle repasando nuestros
m ejemplos de entrenamiento. Así que recordemos que definimos la matriz x como igual a
nuestros ejemplos de capacitación apilados en estas columnas como tal. Por lo tanto, tome los
ejemplos de capacitación y apílelos en columnas. Entonces esto se convierte en un, o quizás nx
por m disminuya la matriz.
4:29
Voy a regalar la línea de golpe y le diré lo que necesita implementar en para tener una
implementación vectorizada de este ciclo for. Resulta que lo que debes hacer es calcular Z [1] =
W [1] X + b [1], A [1] = punto sig de z [1]. Entonces Z [2] = w [2] A [1] + b [2] y luego A [2] =
punto sig de Z [2]. Entonces, si quieres la analogía es que pasamos de minúsculas a vectores xs
para simplemente mayúscula de la mayúscula del caso X apilando las minúsculas xs en
diferentes columnas. Si haces lo mismo para z, entonces por ejemplo, si toma z [1] (i), z [1] (2),
y así on, y estos son todos los vectores de columna, hasta z [1] (m), derecha. Así que esa es la
primera cantidad que todos m de ellos, y los apilan en columnas. Entonces simplemente te da
la matriz z [1]. Y de manera similar miras decir esta cantidad y tomar un [1] (1), un [1] (2) y así
sucesivamente a [1] (m), y los apila en columnas. Entonces esto, al igual que pasamos de
minúsculas x a la mayúscula X, y minúscula z a mayúscula Z. Esto va desde la minúscula a, que
son vectores a esta capital A [1], eso está ahí y de manera similar, para z [2] y a [2]. Correcto,
también se obtienen tomando estos vectores y apilarlos horizontalmente. Y tomando estos
vectores y apilándolos horizontalmente, para obtener Z [2] y E [2]. Una de las propiedades de
esta notación que podría ayudar lo que debes pensar es que esta matriz dice Z y A,
horizontalmente vamos a indexar a través de ejemplos de entrenamiento. Entonces, es por
eso que el índice horizontal corresponde a diferentes ejemplos de entrenamiento, cuando
barre de izquierda a derecha está escaneando las celdas de entrenamiento. Y verticalmente
este índice vertical corresponde a diferentes nodos en la red neuronal. Entonces, por ejemplo,
este nodo, este valor en la parte superior, la esquina superior izquierda de la media
corresponde a la activación de la primera unidad de encabezado en el primer ejemplo de
entrenamiento. Un valor inferior corresponde a la activación en la segunda unidad oculta en el
primer ejemplo de entrenamiento, luego la unidad del tercer encabezado en la primera
muestra de entrenamiento, etc. Entonces, al escanear hacia abajo, esta es su indexación al
número de unidades ocultas.
7:39
Mientras que si te mueves horizontalmente, estás yendo desde la primera unidad oculta. Y el
primer ejemplo de entrenamiento para ahora la primera unidad oculta y la segunda muestra
de entrenamiento, el tercer ejemplo de entrenamiento. Y así sucesivamente hasta que este
nodo aquí corresponde a la activación de la primera unidad oculta en el ejemplo del tren final
y el enésimo ejemplo de entrenamiento.
8:00
8:10
8:22
Y una intuición similar es válida tanto para la matriz Z como para X donde corresponde
horizontalmente a diferentes ejemplos de entrenamiento. Y verticalmente corresponde a
diferentes funciones de entrada que son realmente diferentes a los de la capa de entrada de la
red neuronal.
8:42
Entonces, de estas ecuaciones, ahora sabe cómo implementarlas en su red con vectorización,
que es vectorización a través de múltiples ejemplos. En el siguiente video, quiero mostrarte un
poco más de justificación sobre por qué esta es una implementación correcta de este tipo de
vectorización. Resulta que la justificación sería similar a lo que has visto [INAUDIBLE]. Pasemos
al siguiente video.
¿Por qué tu nueva red necesita un la función de activación no lineal resulta eso para su nueva
red para calcular funciones interesantes que necesitas para tomar una función de activación
no lineal menos quieres, así que solo para el apoyo ecuaciones para la red neuronal por qué no
nos deshacemos de esto deshacerse de la función G y el conjunto a1 es igual a Z 1 o
alternativamente, podrías decir que G de Z es igual a Z correcto a veces esto es llamada la
función de activación lineal tal vez un mejor nombre para él sería el función de activación de
identidad porque solo son salidas lo que sea que se haya ingresado para el propósito de esto
¿y si a2 fuera igual a z2? si haces esto, entonces este modelo es acaba de calcular Y o sombrero
como un lineal función de sus funciones de entrada toma x2 las primeras dos ecuaciones si
tienes eso a1 es igual a z1 es igual a w1 X más B y si entonces a2 es igual a z2 es igual a W 2 a1
más B luego si toma el definición de a1 y conectarlo allí usted encuentra que a2 es igual a W 2
veces W 1 X más b1 un poco bien, así que esto es um a 1 más B 2 y esto simplifica a W 2 W 1 X
más W 2 b1 más b2 por lo que este es solo vamos a llamar a esto w prime b prime así que es
igual a w prime X más B Prime si tuviera que usar activación lineal funciones o vamos a
llamarlos identidad funciones de activación, entonces el nuevo la red solo está produciendo un
lineal función de la entrada y hablaremos sobre redes profundas más tarde nuevas redes con
muchas capas muchas muchas ocultas capas y resulta que si usa una función de activación
lineal o alternativamente si no tienes un función de activación, entonces no importa cómo
muchas capas su red neuronal tiene Siempre está haciendo solo un cálculo lineal función de
activación por lo que también podría no tiene capas ocultas algunas de las casos que mencionó
brevemente se convierte que si tienes una activación lineal función aquí y una función
sigmoide aquí, entonces este modelo ya no existe expresivo que la logística estándar regresión
sin ninguna capa oculta, así que no se molestará en probarlo pero usted podría intente hacerlo
si lo desea, pero el llevar a casa es que una capa oculta lineal es más o menos inútil porque en
el composición de dos funciones lineales es en sí una función lineal a menos que arrojar una no
linealidad allí entonces no estás computando más interesante funciones incluso a medida que
avanzas más en el red hay solo un lugar donde puedes usar una activación lineal la función G
de Z es igual a Z y eso es si estás haciendo aprendizaje automático en una problema de
regresión por lo que si Y es un verdadero número por lo que, por ejemplo, si estás tratando
para predecir los precios de la vivienda, por lo que Y es un no 0 1 pero es un número real que
sabes en cualquier lugar desde cero dólares es un precio de agujeros hasta sin embargo caro
derecho casa de familia, sin embargo, creo que puede ya sabes potencialmente millones de
dólares, sin embargo, sin embargo, muchas casas costo en su conjunto de datos, pero si Y
asume estos valores reales, entonces podría estar bien para tener una función de activación
lineal aquí para que tu salida Y hat también sea real número yendo a cualquier lugar desde
menos infinito a más infinito, pero luego el las unidades ocultas no deberían usar el nuevo
funciones de activación que podrían usar relu o 10 horas o estas reluces o tal vez algo más así
que el lugar donde podría usar una función de activación lineal otros por lo general en la capa
de salida, pero aparte de eso, usando un lineal función de activación en una capa de ajuste a
excepción de algunos muy especiales circunstancias relacionadas con la compresión que no
querrá hablar sobre el uso de un la función de activación lineal es extremadamente raro oh y,
por supuesto, hoy en realidad predecir los precios de la vivienda como lo vio en el video de la
semana 1 porque los precios de la vivienda son todos no negativos tal vez incluso entonces
puedes usar una función de activación de valores para que tus salidas Y hat sean todas mayor
o igual que 0, así que espero eso te da una idea de por qué tener un la función de activación no
lineal es una parte crítica de las redes neuronales siguiente vamos a comenzar a hablar sobre
pendiente de gradiente y para hacer eso para establecer para discusión sobre el descenso del
gradiente en el siguiente video quiero mostrarte cómo para estimar cómo calcular la
pendiente de la derivada de la activación individual funciones, así que pasemos a la siguiente
vídeo