- 전주
- 여행
- 오사카
- 건담
- 시청
- CS231n
- 축복이
- 카페
- 전시
- fdr-x3000
- 글로벌소프트웨어캠퍼스
- 맛집
- 우리에프아이에스
- 650d
- 우리fisa
- 군산
- 축복렌즈
- 제주도
- 대만
- SQL
- 도쿄
- ai_엔지니어링
- 우리fis아카데미
- 사진
- Python
- 수요미식회
- 17-55
- 해리포터
- 대만여행
- k-디지털트레이닝
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Today
- Total
목록[Project_하다] (177)
브렌쏭의 Veritas_Garage
1706.03762 (arxiv.org) : Attention Is All You Need 트랜스포머의 경우 단어들은 토큰 단위로 나뉘어서 임베딩을 거친다.고차원 벡터와 입력된 토큰을 연결지어서 여러 차원에서의 토큰의 의미를 방향으로 저장하게 되는 것. 중요한 점은 사전학습 과정에서 "고양이" 라는 단어가 특정 동물을 의미하는 것이며, 포유류이고 고양잇과의 동물이라고 이미 학습이 되었다 하더라도, 실제 사용과정에서 입력된 "고양이"가 문맥 안에서 어떤 의미를 내포하고 있는지 주의집중해야 한다. 어쩌면 고양이는 실제 집에서 키우는 고양이를 지칭하는 것일 수도 있고어쩌면 실제 동물이 아닌 한 어린아이의 상상 속 친구일 수도,혹여 고양이를 본적없는 누군가가 강아지를 보며 지칭하는 것일 수도 있다."고양이" 라..
GPT, what is it? -> Transformer중요한 것은 Transformer라는 용어이다.맥락과 단서를 제공하면 그에 걸맞는 다음 내용을 예측하고 가장 '어울릴 것이라 생각하는 것'을 도출한다. 굉장히 단순하게 말하자면 네이버나 구글과 같은 검색엔진의 "검색어 자동완성"을 생각해보자위 예시의 경우에서, 순서대로 가장 높은 예측도라고 가정해보자.san 을 집어넣으면 francisco가 뒤에 올것이라 예측한다.그럼 이제 san francisco를 넣고 다시 예측을 시킨다.그러면 이제 san francisco 뒤에 weather라는 글자를 예측할것이다.그럼 다시 san francisco weather까지 적어서 다시 예측을 시킨다.그럼 이제 san francisco weather is 라는 답을 ..
"각 오차는 오차함수가 얼마나 각 가중치 및 편차에 민감한지를 나타낸다" 조작 가능한 것은 Weight 와 Bias 다여러 레이어로 이루어져있다면 그 이전의 활성치 값 또한 그 값을 정하는 이전의 가중치와 편향치를 조작해 바꿀 수 있다.각 뉴런들은 이전의 모든 뉴런들과 연결되어 있다는 점을 통해 출력에서 부터 거꾸로 영향력을 변경 가능하다. 이렇게 역으로 그 과정을 찾아 적절한 가중치와 편향치를 정하는 것을 Backpropagation이라고 한다.Backpropagation최종 출력층의 뉴런은 그 이전 계층의 뉴런들의 활동의 결과이므로, 원하는 최종 출력을 얻기 위한 조절 값을 알아낼 수 있다.동시에 모든 훈련 데이터에 대한 "적절한 조절값"을 찾는 것은 몹시 오래 걸리고 많은 계산을 필요로 한다.Mi..
https://youtu.be/aircAruvnKk?si=9s-i5K7GvkKbQJ7i 한번에 대학과정으로 쎄리박는 것보단 친근한 방법 같아서 가져왔다.3Blue1Brown 인터렉션 방식의 웹 또한 제공한다. 총 6개 강의에 각 영상의 길이가 짧아서 슥삭 훑기 좋았다. # 1. 아무리 많은 데이터셋도 모두 지정된 크기의 신경망으로 학습할 수 있다.신경망 자체를 학습이 키우거나 줄이진 않는다.Input Layer -> Hidden Layers -> Output Layer중간의 숨겨진 계층에서는 몇개의 계층이 있을지 모른다. 설정하기 나름첫번째 계층에서 입력된 기본 정보를 바탕으로 두번째, 세번째 등등 계층에서 보다 복잡한 형태로 서서히 패턴을 추론해간다.최종적으로 알고싶은 출력레이어는 분류된 결과물이므로 ..
경사하강, Gradient Descent Calculation SpeedProximityLevelNumerical gradientslow 😢approximate 😢Easy to Write 🤩Analytic gradientF A S T 🤩Exact 🤩error-prone 😢 So, Analytic gradient is better 어쨌든 확률 + 표본을 통한 해석적 경사하강법을 이용하는 것이 효율적이다.함수가 복잡해지면 복잡해질수록 각 표본이 기하급수적으로 늘어나므로 훨씬 이득이라고 할수있으며, 최신 방식을 일일히 경사하강법으로 구하고 있다면 연산량이 너무 많아진다. Back Propagation : 역전파함수에 대한 computational graph를 제작한다각 local gradient를..
손실 함수(Loss Function)는 기계 학습 모델의 성능을 측정하는 데 사용되는 함수이다.왜 이름이 이따구냐 생각이 들지만, 모델의 예측이 실제 값과 얼마나 다른지를 측정하는 방식이기 때문에 손실값을 재기 때문이다.즉, 작을수록 좋다.모델 개발 중 이 Loss function 의 값을 낮추기 위해서 Hyperparameter같은 파라미터들을 조정한다.이 과정에서 "경사하강법"이 등장한다.Mean Squared Error, MSE평균 제곱 오차(Mean Squared Error, MSE):정의: MSE는 모델 예측값과 실제 값의 차이의 제곱을 평균낸 값이다. 주로 회귀 문제에 사용한다고 한다.수식: \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2..
실제 상황에서 K-Nearest Neighbor는 이미지 분류에는 사용되지 않는다이미지를 훈련하는 시간은 상대적으로 짧지만 정작 예측하는 속도가 느리다이미지와 같은 데이터가 고해상도로 올라갈수록 연산 난이도가 급격히 상승한다이미지가 고차원적으로 갈수록 N의 제곱으로 분석할 포인트들이 생겨난다Linear Classification :: 뉴럴 네트워크의 레고 블록Linear classification 이란 무엇인가, 하니 개체를 인식할때 보다 '관념적'으로 접근할 수 있도록 하는 것에 가깝다.물론 컴퓨터가 관념을 가진다는 이야기는 아니고, 굉장히 구체적이고 단편적인 예시들로 훈련을 거쳐 조금만 달라져도 인식을 못하던 이전 방식 대신에, 모호하고 포괄적인 이미지를 비교대상으로 삼고 물체를 인식하는 것이다.여기..
" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 AssignmentK-Nearest Neighbor 구현Linear Classifiers: SVM, Softmax 적용하기Two-layer neural network Image featuresCS231n Convolutional Neural Networks for Visual Recognition CS231n Convolutional Neural Networks for Visual Recognition cs231n.github.io이 링크에서 모든 과제 관련 정보를 얻을 수 있다.Image Classification Pipeline분류가 되는 방식은 주어진 정보를 바탕으로 미리 지정한 카테고리 이름 중에서 (올바른 이름을 도출..
https://youtu.be/vT1JzLTH4G4?si=oDmUJARdA8vrvJdI# 안구의 구조를 모방하며 개발된 카메라를 시작으로, 단순히 구조를 모방하는 것 뿐만 아니라 시각적 인지를 하는 방법에 주목하기 시작했다. # 실험동물의 대뇌피질이나 후두엽에 전극을 연결하고 실험한 결과 물체를 인지하기 위해서 특정 각도의 선, 형태를 각각 받아들이는 요소들이 뉴런 중에 있음을 알게 되었다. # 대략적으로 뇌 / 인지 심리학에서 배우는 내용이었다. # 애초에 '인식'을 하기 이전에 이미지로 부터 각각의 물체를 '구분'하는 것 부터가 난관이었다.1999 / 2000 년도 :: 기계학습의 시작- Neural Network, Support Vector Machine 등등의 기술이 발전하면서 최초의 얼굴인식 카..