Вы находитесь на странице: 1из 6

Pregunta 1

1
punto

1. Pregunta 1
¿Cuál de lo siguiente es cierto? (Marque todo lo que corresponda.)

X es una matriz en la que cada columna es un ejemplo de entrenamiento.

un[ 2 ]4 es la salida de activación por la neurona de la capa4t h2n d

un[ 2 ] ( 12 ) denota el vector de activación de la capa en el ejemplo de entrenamiento .12t h2n d

X es una matriz en la que cada fila es un ejemplo de entrenamiento.

un[ 2 ]4 es la salida de activación de la capa para el ejemplo de entrenamiento2n d4t h

un[ 2 ] denota el vector de activación de la capa .2n d

un[ 2 ] ( 12 ) denota el vector de activación de la capa para el ejemplo de entrenamiento .2n d12t h

Pregunta 2
1
punto

2. Pregunta 2
La activación de tanh generalmente funciona mejor que la función de activación sigmoide para unidades
ocultas porque la media de su salida es más cercana a cero, por lo que centra los datos mejor para la
siguiente capa. ¿Verdadero Falso?

Cierto

Falso

Pregunta 3
1
punto
3. Pregunta 3
¿Cuál de estas es una implementación vectorizada correcta de la propagación directa para la capa l,
donde 1 leql leqL?l , donde ?1 ≤ l ≤ L

 Z[ l ]= W[ l - 1 ]UN[ l ]+ b[ l - 1 ]
 UN[ l ]= g[ l ]( Z[ l ])

 Z[ l ]= W[ l ]UN[ l ]+ b[ l ]
 UN[ l + 1 ]= g[ l + 1 ]( Z[ l ])

 Z[ l ]= W[ l ]UN[ l ]+ b[ l ]
 UN[ l + 1 ]= g[ l ]( Z[ l ])

 Z[ l ]= W[ l ]UN[ l - 1 ]+ b[ l ]
 UN[ l ]= g[ l ]( Z[ l ])

Pregunta 4
1
punto

4. Pregunta 4
Está construyendo un clasificador binario para reconocer pepinos (y = 1) frente a sandías (y = 0). ¿Cuál
de estas funciones de activación recomendaría usar para la capa de salida?

ReLU

Leaky ReLU

sigmoideo

Tanh

Pregunta 5
1
punto

5. Pregunta 5
Considera el siguiente código:

A = np . al azar . randn ( 4 , 3 )

B = np . sum ( A , axis = 1 , keepdims = True )

¿Cuál será B.shape? (Si no está seguro, no dude en ejecutar esto en python para averiguarlo).

(4, 1)

(, 3)

(1, 3)

(4,)

Pregunta 6
1
punto

6. Pregunta 6
Supongamos que ha construido una red neuronal. Decide inicializar los pesos y los sesgos para que sean
cero. ¿Cuál de las siguientes afirmaciones es verdadera?

Cada neurona en la primera capa oculta realizará el mismo cálculo. Entonces, incluso después de
múltiples iteraciones de descenso de gradiente, cada neurona de la capa calculará lo mismo que otras
neuronas.

Cada neurona en la primera capa oculta realizará el mismo cálculo en la primera iteración. Pero después
de una iteración de descenso de gradiente aprenderán a calcular cosas diferentes porque hemos "roto la
simetría".
Cada neurona en la primera capa oculta calculará lo mismo, pero las neuronas en diferentes capas
calcularán cosas diferentes, por lo que hemos logrado "romper la simetría" como se describe en la
conferencia.

Las primeras neuronas de la capa oculta realizarán diferentes cálculos entre sí, incluso en la primera
iteración; sus parámetros continuarán evolucionando a su manera.

Pregunta 7
1
punto

7. Pregunta 7
Los pesos w de la regresión logística deben inicializarse aleatoriamente en lugar de todos los ceros,
porque si se inicializa con ceros, la regresión logística no logrará aprender un límite de decisión útil
porque no podrá "romper la simetría", ¿verdadero / falso?

Cierto

Falso

Pregunta 8
1
punto

8. Pregunta 8
Ha creado una red utilizando la activación de tanh para todas las unidades ocultas. Inicializa los pesos en
valores grandes relativos, usando np.random.randn (.., ..) * 1000. ¿Lo que sucederá?

No importa. Siempre que inicialices los pesos, el descenso de gradiente aleatorio no se verá afectado si
los pesos son grandes o pequeños.

Esto hará que las entradas del tanh también sean muy grandes, haciendo que las unidades estén
"altamente activadas" y, por lo tanto, aceleren el aprendizaje en comparación con si los pesos debían
comenzar desde valores pequeños.

Esto hará que las entradas del tanh también sean muy grandes, lo que hará que los degradados también
se vuelvan grandes. Por lo tanto, debe configurar $$ \ alpha $$ para que sea muy pequeño para evitar
divergencias; esto ralentizará el aprendizaje.αser muy pequeño para evitar la divergencia; esto ralentizará
el aprendizaje.
Esto hará que las entradas del tanh también sean muy grandes, lo que provocará gradientes cercanos a
cero. El algoritmo de optimización se volverá lento.

Pregunta 9
1
punto

9. Pregunta 9
Considere la siguiente 1 red neuronal de capa oculta:

¿Cuál de las siguientes afirmaciones es verdadera? (Marque todo lo que corresponda).

W[ 1 ] tendrá forma (2, 4)

segundo[ 1 ] tendrá forma (4, 1)

W[ 1 ] tendrá forma (4, 2)

segundo[ 1 ] tendrá forma (2, 1)

W[ 2 ] tendrá forma (1, 4)

segundo[ 2 ] tendrá forma (4, 1)

W[ 2 ] tendrá forma (4, 1)

segundo[ 2 ] tendrá forma (1, 1)


Pregunta 10
1
punto

10. Pregunta 10
En la misma red que la pregunta anterior, ¿cuáles son las dimensiones de $$ Z ^ {[1]} $$ y $$ A ^ {[1]}
$$?Z[ 1 ] y UN[ 1 ]?

Z[ 1 ] y UN[ 1 ] son (4, m)

Z[ 1 ] y UN[ 1 ] son (4,1)

Z[ 1 ] y UN[ 1 ] son (1,4)

Z[ 1 ] y UN[ 1 ] son (4,2)

Вам также может понравиться