SGD는 epoch가 시작할 때 마다 샘플의 순서를 섞어 OO성을 투입시키기 때문에 local optima에서 빠져나올 가능성이 크다.
→ 무작위
Batch mode에서 1 epoch당 몇 번의 파라미터 업데이트가 되는가?
→ 1번
Batch GD에서 epoch 수 = Iteration x ______
→ 1
다음 전수 조사 알고리즘을 완성하세요. (J() -> loss func, X_best를 구해야함)
min = (충분히 큰 수) for (데이터 세트에 속하는 각 점 X에 대해) if ( ______ ) min = J(X) , X_best = X
GD에서 파라미터 업데이트를 위한 ΔΘ은 무엇인가? Θ = Θ + ΔΘ
→ - learning rate * mean((target - pred)2x)
미니 배치 크기를 m, 전체 데이터 샘플의 수를 N이라 할 때, 한 epoch 내에서 파라미터 업데이트가 이루어지는 횟수는 ________ 이다.
→ n/m
두 정사각 행렬 A와 B에 대해, 만약 AB = BA이면 A와 B는 대각화 가능하다. (O/X)
→ O
기계학습에서 GD가 local minima에 갇히지 않으려면 함수가 ______이면 global minima로 수렴할 것이다.
→ Convex?
방향도함수는 어떤 점에서 함수의 최대 상승 방향을 제공한다. (O/X)
→ X , 최대 하강 방향
학습률이 너무 높으면 ______ 현상이 발생할 수 있다. 이 현상이 무엇이며 이 현상이 발생했을 때 예상되는 문제점에 대해 설명해라.
→ 발산, minima에 가까워지기보다 오히려 발산하여 loss가 증가하는 방향으로 움직인다.
SGD를 사용하여 학습할 때 sampling과 suffling 알고리즘의 차이를 서술하시오
→ Sampling : 1epoch 기준, training set에서 임의로 샘플 하나를 뽑아서 그 샘플에 대한 그레디언트를 계산한뒤 파라미터 업데이트(샘플을 뽑을 때 중복을 허용함)
Suffling: epoch마다 training sample을 섞은 뒤 training sample을 모두 사용할 때 까지 반복하여 학습 (중복을 허용하지 않음)
SGD의 장점은 random성을 부여해서 _____한 error space에서 최적해를 더 잘 찾는 것이다.
→ noise
Batch_size 1, iteration 100으로 학습할 때보다 Batch_size 100, iteration 30으로 학습할 때가 대부분 느리다(O/X)
→ X
$\nabla x^TAx$ = _______ =_______(if A symmetric)
→ $(A+A^T)x$ // $2Ax$
Batch 개수랑 Batch size의 차이점을 설명하시오
→ Batch size는 training sample에서 한 번 파라미터 업데이트를 할 때 사용할 sample의 개수이고 Batch의 개수는 training sample / batch_size를 의미한다.