딥러닝 CV&LLM 7

[딥러닝 CV&LLM] Self-attention

안녕하세요! 오늘 포스팅에서는 Self-Attention이란 무엇인지, 그리고 그것이 어떻게 작동하는지 알아보겠습니다. Self-Attention을 핵심 연산으로 사용하는 트랜스포머는 LLM과 비전 모델 등 다양한 인공지능 모델에서 활용되며, 뛰어난 성능을 자랑하는 구조입니다. 어텐션 스코어 계산부터 Softmax 적용, 최종 출력 생성까지의 과정을 쉽게 설명해드리겠습니다. 기존의 attention은 입력과 출력 사이의 관계를 파악하기 위해 쓰였으나, Self attention은 입력문장에서 단어와 단어들간의 관계를 파악하기 위한 작업입니다.   self attention은 위 그림의 과정을 거쳐서 출력을 내보내게 되는데요,"I like a cat" 이라는 예시 문장을 입력으로 어텐션 연산이 진행되는 과..

딥러닝 CV&LLM 2025.01.16

[딥러닝 컴퓨터비전] 스테레오 비전을 이용한 3차원 위치추정 알고리즘

안녕하세요 오늘은 스테레오비전을 통하여 객체의 3차원 위치를 측정하는 방법을 알아보겠습니다. 우선 depth map을 만들려면 다른 위치의 두 카메라가 같은 물체를 촬영한 두 영상이 필요합니다.우리가 펜을 들고 왼쪽 눈, 오른쪽 눈으로만 펜을 보게 될때, 펜의 위치가 바뀌게 되는 것처럼 보이는 것을 느낄 수 있는데, depth map을 만드는데 이와 같은 원리가 적용되는 것입니다. 따라서 스테레오 비전은 서로 다른 위치의 두 카메라가 같은 물체를 촬영한 두 영상에서 동일 객체의 영상 내 위치 차이를 이용하여 물체의 깊이정보를 구합니다. input으로 두 이미지를 받고 output으로 두 input 영상을 통해 depth map을 출력하는 것입니다. 이때 노란색 삼각형의 닮음을 활용한 비례식과 초록색 삼각..

딥러닝 CV&LLM 2024.07.19

[딥러닝 컴퓨터비전] Yolo v8에 IRFS 기법 적용하기

안녕하세요 저번 포스팅에서 Instance-Aware Repeat Factor Sampling (IRFS) 논문을 읽어보았는데요, 오늘은 이 기법을 활용하여 yolo v8 모델을 훈련시키는 방법을 알아보도록 하겠습니다. https://deep-learning00.tistory.com/21 [논문리뷰] Instance-Aware Repeat Factor Sampling for Long-Tailed Object Detection(IRhttps://arxiv.org/abs/2305.08069 Instance-Aware Repeat Factor Sampling for Long-Tailed Object DetectionWe propose an embarrassingly simple method -- instanc..

딥러닝 CV&LLM 2024.06.26

[딥러닝 컴퓨터비전]불균형 데이터셋에 대한 샘플링 전략 적용법 (Pytorch)

안녕하세요, 오늘은 [논문리뷰]를 진행하며 알아본 불균형 데이터셋에서의 샘플링 전략 적용을 위한 코드 구현법에 대해서 알아보겠습니다.  [논문 리뷰] Decoupling representation and classifier for long-tailed recognition(롱테일 인식을 위한 특징 추출기1. Introduction ImageNet과 같은 거대한 데이터셋들을 주로 활용하면서, 딥 CNN신경망과 함께 이미지 분류 모델은 엄청난 속도로 발전해왔습니다. 이러한 데이터셋들은 모델 훈련시 준수한 성능을 낼deep-learning00.tistory.com  해당 논문에서는 데이터셋  클래스간 불균형을 극복하기 위해 리샘플링 전략을 사용했습니다.   가공 전의 데이터셋은 클래스마다 샘플의 숫자가 다르기..

딥러닝 CV&LLM 2024.05.06

[딥러닝 컴퓨터비전] Faster R-CNN(two-stage object detection)

이번 포스팅에서는 two-stage detection을 수행하는 faster R-CNN에 대해서 알아보도록 하겠습니다. two-stage object detection이란, 물체가 있다고 생각되는 구역에 바운딩 박스를 만드는 Region proposal부와, 해당 구역의 물체를 분류(classify)하는 과정이 나누어져 실행되는 방식입니다.  Faster R-CNN은 RPN(Region Proposal Network)이라고 하는 영역 감지 네트워크를 사용하는데, 이를 설명하기 전에 Faster R-CNN이 진화해온 과정을 먼저 이야기해볼 생각입니다. 모델은 R-CNN > Fast R-CNN > Faster R-CNN 순서로 발전해왔는데, 각 단계에서의 한계점과 개선점을 짚어보는 방식으로 이번 포스팅을 적..

딥러닝 CV&LLM 2024.03.27

[딥러닝 컴퓨터비전] YOLO(one-stage object detection)

저번 포스팅에서 딥러닝 이미지 분류기에 대해 알아보았습니다. 하지만 딥러닝 이미지 분류기는 인풋 이미지 안의 객체를 분류만 할 뿐, 이미지의 어느 부분에 어떤 객체가 있는지까지는 알려주지 않습니다. 아래의 이미지처럼 이미지의 어느부분에 어떠한 객체가 있는지를 알아내는 모델을 객체 탐지(object detection) 모델이라고부릅니다. 물체가 있을것 같은 구역을 감지(Region proposal)하고, 분류(classify)하는 과정이 나누어져 있는 모델을 two-stage object detection이라고 하고, 두 과정이 동시에 이루어지는 모델을 one-stage object detection이라고 합니다. 이번 포스팅에서는 one-stage detection 모델이 어떻게 위 사진과 같은 아웃풋 ..

딥러닝 CV&LLM 2024.03.27

[딥러닝 컴퓨터비전] 컴퓨터의 이미지 표현법과 합성곱 신경망(CNN)을 활용한 이미지 분류기

(딥러닝에 대한 사전지식이 없으신 분들은 딥러닝 기초이론 편을 마치고 오시면 좋을것 같습니다!) 이번 포스팅에서는 컴퓨터가 이미지를 해석하는 방법과 합성곱 연산에 대해 알아보겠습니다.위 사진을 볼까요? 저는 이 사진을 보라색 장식의 모자를 쓴 여자정도로 표현할 수 있을 것 같은데요, 컴퓨터는 과연 이 사진을 어떻게 해석할 까요?  딥러닝 프레임워크 pytorch를 이용한 이미지 표현입니다. 512 x 512 의 RGB이미지가 각각 세 장이 겹쳐 있는 형태라고 볼 수 있겠네요.  컴퓨터는 각각의 RGB 이미지에 한 픽셀당 0~255의 정수값을 부여하여 해당 픽셀의 밝기를 조절하고, 이렇게 표현된 이미지 파일이 우리에게 보여지게 됩니다. 이제 위와 같은 컴퓨터의 이미지 해석법을 활용하여 이미지를 넣어주었을 ..

딥러닝 CV&LLM 2024.03.26