lec 10-1 : Sigmod >>>> ReLU

변수를 선언하고. 이것을 연결하면 됩니다. L1, L2, ... 최종 가설은 이렇게 됩니다.

좋지 않은 결과가 나온다.? 왜 이런일이 생길까요? 텐서보드를 통해서 보니. 코스트와 정확도를 살펴보았습니다.

2단 3단 정도의 경우는 잘 학습이 되는데, 9단 10단은 학습이 잘 안되는 것입니다. 이것이 문제였는데. 문제를 봅시다. 백 프로파게이션을 봅니다. 미분을 했는데. 전체를 하기 어려우니, 뒤에서부터 하나씩 해나갔습니다. 제일 처음 변수가 f에 a미치는 영향을 알고 싶습니다.

시그모이드를 통과하기 떄문에 1보다 작은 값이고 운이 좋지 않으면 0.01과 같이 굉장히 작은 값들이 곱해집니다. 그럼 이값들이 곱해지면 굉장히 작은 값이 됩니다. 최종적인 출력에서 2, 3단까지는 괜찮지만 뒤로 갈수록 곱해지는 항들이 많아지기 때문에, 최종 미분값을 굉장히 0에 가깝게 됩니다. 이것이 바로 문제입니다!

이것을 멋진 말로 Vanishing gradient 문제라고 부릅니다.