코루틴으로 OS 스레드를 “없애”서 쓰는 건가요, 아니면 그 위에서 동작하나요?

코루틴은 스스로 스레드를 대체하는 것이 아니라, **디스패처(스레드 풀 등)에 올라간 스레드** 위에서 suspend로 작업을 쪼개 스케줄링하는 모델입니다. 메인/백그라운드 **스레드는 여전히 존재**하고, 대량·경량 **동시성 단위**로 코루틴이 그 위를 쓰는지 이해하는 것이 중요합니다.

CPU를 많이 쓰는 작업(계산, 이미지 처리 등)에도 I/O용 코루틴이 항상 맞나요?

I/O 대기가 많을 때는 코루틴+적절한 디스패처가 유리한 경우가 많습니다. 반면 **CPU 바운드**는 suspend로 기다릴 I/O가 없고 실제 **코어를 쓰는 시간**이 길어, 코루틴을 아무리 많이 만들어도 **처리량이 한꺼번에 늘지** 않는 경우가 많습니다. Dispatchers.Default 등 **전용 풀·병렬도**를 정하고, 블로킹 JNI나 장시간 연산은 **별도 스레드**로 분리하는 식이 더 안전한 경우가 많습니다.

runBlocking은 어디에 쓰고, 앱/서비스 메인 경로에 두면 왜 위험한가요?

runBlocking은 **현재 스레드를 블로킹**한 채 코루틴 루트를 돌리는 **브리지**용이며, 테스트·main·레거시 API 경계에서 제한적으로 쓰는 경우가 많습니다. **UI 스레드나 요청 처리 스레드**에서 호출하면 전체를 멈출 수 있으므로, 런타임 진입은 보통 suspend·스코프·애플리케이션 수명에 맡기는 것이 권장됩니다.

코루틴 안에서 Thread.sleep이나 블로킹 I/O를 호출해도 delay와 비슷하게 가벼울까요?

아닙니다. delay는 스레드를 잡지 않고 **중단**하지만, **블로킹 호출**은 그 디스패처의 **스레드를 점유**해 다른 코루틴까지 **막힐 수** 있습니다. 블로킹 코드는 withContext로 **전용 풀**(IO 등)에 옮기거나, **논블로킹 API**·다른 스레드로 격리하는 식으로 다루는 것이 이 글의 흐름과 맞습니다.

Kotlin 코루틴 vs 스레드 완벽 비교 | 비동기 처리 선택 가이드

2026년 3월 30일 · 20분 읽기 · 수정 2026년 4월 7일 중급

이 글의 핵심

Kotlin 코루틴과 스레드의 차이점을 성능, 메모리, 사용성 관점에서 비교. 실전에서 어떤 비동기 처리 방식을 써야 하는지 선택 기준과 예제를 설명합니다.

들어가며

“코루틴과 스레드 중 무엇을 써야 할까요?” Kotlin으로 비동기 처리를 할 때 자주 나오는 질문입니다. 이 글에서는 코루틴과 스레드의 차이를 명확히 이해하고, 실전에서 어떤 것을 써야 하는지 선택 기준을 제시합니다. 비유로 말씀드리면, 스레드는 직원을 한 명 더 고용하는 것이고, 코루틴은 한 직원이 작업을 번갈아 처리하되, 기다리는 동안 다른 일을 보게 하는 것에 가깝습니다. I/O 대기가 많으면 코루틴이 메모리·컨텍스트 비용에서 유리한 경우가 많습니다.

언제 코루틴을, 언제 스레드를 쓰나요?

관점	코루틴	스레드
성능	대량 생성 시 가벼운 스케줄 단위	OS 스레드마다 스택·전환 비용
사용성	`suspend`, 구조적 동시성으로 취소·에러 전파	블로킹·CPU 바운드·레거시 API와 궁합
적용 시나리오	네트워크·DB 대기	병렬 CPU 작업·JNI 등

이 글을 읽으면

코루틴과 스레드의 동작 원리를 이해합니다
성능과 메모리 사용량 차이를 배웁니다
구조적 동시성의 이점을 익힙니다
실전에서 어떤 것을 써야 하는지 판단할 수 있습니다

실전 경험에서 배운 교훈

이 기술을 실무 프로젝트에 처음 도입했을 때, 공식 문서만으로는 알 수 없었던 많은 함정들이 있었습니다. 특히 프로덕션 환경에서 발생하는 엣지 케이스들은 로컬 개발 환경에서는 재현조차 되지 않았죠.

가장 어려웠던 점은 성능 최적화였습니다. 처음엔 “동작만 하면 되겠지”라고 생각했지만, 실제 사용자 트래픽이 몰리면서 병목 지점들이 하나씩 드러났습니다. 특히 데이터베이스 쿼리 최적화, 캐싱 전략, 에러 핸들링 구조 등은 여러 번의 장애를 겪으면서 개선해 나갔습니다.

이 글에서는 그런 시행착오를 통해 얻은 실전 노하우와, “이렇게 하면 안 된다”는 교훈들을 함께 정리했습니다. 특히 트러블슈팅 섹션은 실제 장애 대응 경험을 바탕으로 작성했으니, 비슷한 문제를 마주했을 때 참고하시면 도움이 될 것입니다.

1. 빠른 비교표

특성	코루틴	스레드
무게	경량 (수천~수만 개 가능)	무거움 (수십~수백 개)
메모리	~KB	~MB (스택 크기)
생성 비용	매우 낮음	높음 (OS 호출)
컨텍스트 스위칭	빠름 (사용자 공간)	느림 (커널 공간)
취소	구조적 취소 지원	수동 구현 필요
예외 처리	자동 전파	수동 처리
디버깅	어려움	상대적으로 쉬움
권장 사용	✅ 기본 선택	특수한 경우만

2. 동작 원리

스레드: OS 레벨

// 스레드 생성
val thread = Thread {
    println("Running in thread: ${Thread.currentThread().name}")
    Thread.sleep(1000)
}
thread.start()
thread.join()
// 메모리 구조
// 각 스레드마다:
// - OS 스레드 생성 (커널 리소스)
// - 스택 메모리 할당 (보통 1-2MB)
// - 컨텍스트 스위칭 (커널 개입)

코루틴: 사용자 레벨

import kotlinx.coroutines.*
// 코루틴 생성
runBlocking {
    launch {
        println("Running in coroutine")
        delay(1000) // 중단 (스레드는 블록 안 됨)
    }
}
// 메모리 구조
// - 코루틴은 스레드 위에서 실행
// - 중단 시 상태만 저장 (수십 bytes)
// - 재개 시 다른 스레드에서도 실행 가능

3. 성능 비교

생성 비용

import kotlin.system.measureTimeMillis
// 스레드 10,000개 생성
val threadTime = measureTimeMillis {
    val threads = List(10000) {
        Thread { Thread.sleep(100) }
    }
    threads.forEach { it.start() }
    threads.forEach { it.join() }
}
println("Threads: ${threadTime}ms") // 약 5000ms (5초)
// 코루틴 10,000개 생성
val coroutineTime = measureTimeMillis {
    runBlocking {
        val jobs = List(10000) {
            launch { delay(100) }
        }
        jobs.forEach { it.join() }
    }
}
println("Coroutines: ${coroutineTime}ms") // 약 150ms (30배 빠름)

컨텍스트 스위칭

// 스레드: 커널 개입 (느림)
// - 레지스터 저장/복원
// - 스택 포인터 변경
// - TLB 플러시
// 약 1-10 마이크로초
// 코루틴: 사용자 공간 (빠름)
// - 상태 객체만 교체
// - 커널 호출 없음
// 약 0.1 마이크로초 (10-100배 빠름)

4. 메모리 사용량

스레드 메모리

// 스레드 1개: 약 1-2MB
val threads = List(1000) { Thread { Thread.sleep(1000) } }
threads.forEach { it.start() }
// 총 메모리: 1000 × 1MB = 1GB
// → 메모리 부족 가능성

코루틴 메모리

// 코루틴 1개: 약 수십 bytes
runBlocking {
    val jobs = List(100000) { launch { delay(1000) } }
    jobs.forEach { it.join() }
}
// 총 메모리: 100,000 × 50 bytes = 5MB
// → 10만 개도 문제없음

일상 비유로 이해하기: 메모리를 아파트 건물로 생각해보세요. 스택은 엘리베이터 같아서 빠르지만 공간이 제한적입니다. 힙은 창고처럼 넓지만 물건을 찾는 데 시간이 걸립니다. 포인터는 “3층 302호”처럼 주소를 가리키는 메모지라고 보면 됩니다.

5. 구조적 동시성

일상 비유로 이해하기: 동시성은 주방에서 여러 요리를 동시에 하는 것과 비슷합니다. 한 명의 요리사(싱글 스레드)가 국을 끓이다가 불을 줄이고, 그 사이에 야채를 썰고, 다시 국을 확인하는 식이죠. 반면 병렬성은 요리사 여러 명(멀티 스레드)이 각자 다른 요리를 동시에 만드는 겁니다. {#structured-concurrency}

스레드: 수동 관리

// ❌ 나쁜 패턴: 스레드 누수
fun fetchData() {
    Thread {
        val data = api.fetch()
        // 예외 발생 시 스레드가 죽지만 호출자는 모름
    }.start()
    // 스레드가 끝날 때까지 기다리지 않음
}
// 취소도 수동
val thread = Thread { /* ....*/ }
thread.start()
// 취소 방법이 없음! (interrupt는 협력적)

코루틴: 구조적 동시성

// ✅ 좋은 패턴: 자동 관리
suspend fun fetchData(): Data = coroutineScope {
    val data = async { api.fetch() }
    data.await()
    // 예외 발생 시 자동으로 상위로 전파
    // 함수 종료 시 모든 자식 코루틴 자동 취소
}
// 취소도 자동
val job = launch {
    fetchData()
}
job.cancel() // 모든 자식 코루틴도 취소됨

6. 실전 선택 가이드

코루틴을 써야 하는 경우 (대부분)

네트워크 요청

suspend fun fetchUsers(): List<User> = withContext(Dispatchers.IO) {
    api.getUsers()
}

데이터베이스 쿼리

suspend fun saveUser(user: User) = withContext(Dispatchers.IO) {
    database.insert(user)
}

동시 작업

   suspend fun fetchAll() = coroutineScope {
       val users = async { fetchUsers() }
       val posts = async { fetchPosts() }
       Pair(users.await(), posts.await())
   }

스레드를 써야 하는 경우 (드물음)

CPU 집약적 작업 (코루틴도 가능)

   // 코루틴으로도 가능
   withContext(Dispatchers.Default) {
       heavyComputation()
   }
   
   // 스레드로도 가능 (레거시)
   Thread {
       heavyComputation()
   }.start()

Java 라이브러리 통합

// ExecutorService 등 기존 Java 코드
val executor = Executors.newFixedThreadPool(4)
executor.submit { /* ....*/ }

7. 코드 비교

예제: 동시에 10개 API 호출

// 스레드 방식
fun fetchAllThreads(): List<User> {
    val results = mutableListOf<User>()
    val threads = (1..10).map { id ->
        Thread {
            try {
                val user = api.getUser(id)
                synchronized(results) {
                    results.add(user)
                }
            } catch (e: Exception) {
                // 예외 처리 복잡
            }
        }
    }
    
    threads.forEach { it.start() }
    threads.forEach { it.join() }
    
    return results
}
// 코루틴 방식
suspend fun fetchAllCoroutines(): List<User> = coroutineScope {
    (1..10).map { id ->
        async { api.getUser(id) }
    }.awaitAll()
    // 예외 자동 전파, 취소 자동 처리
}

마무리

Kotlin 비동기 처리의 핵심:

기본은 코루틴 (경량, 구조적 동시성)
스레드는 특수한 경우만 (레거시, Java 통합)
Dispatchers로 스레드 풀 관리
구조적 동시성으로 안전성 확보 핵심: 코루틴은 스레드의 상위 추상화입니다. 특별한 이유가 없다면 코루틴을 사용하세요.

키워드

Kotlin, Coroutine, 코루틴, Thread, 스레드, 비동기, 동시성, 성능, 메모리, 구조적 동시성, 비교

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「Kotlin 코루틴 vs 스레드 완벽 비교 | 비동기 처리 선택 가이드」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]

sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)

불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역	운영 관점 질문
관측성	요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성	입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성	재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능	캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포	롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량	피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「Kotlin 코루틴 vs 스레드 완벽 비교 | 비동기 처리 선택 가이드」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.

handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상	가능 원인	조치
간헐적 실패	레이스, 타임아웃, 외부 의존성, DNS	최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하	N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스	프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가	캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납	상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패	환경 변수, 권한, 플랫폼 차이, lockfile	CI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치	프로필·시크릿·기본값, 리전	스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치	비멱등 재시도, 부분 쓰기, 캐시 무효화 누락	멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git add → git commit → git push 후 npm run deploy 순서를 권장합니다.

자주 묻는 질문 (FAQ)

Q. 이 내용을 실무에서 언제 쓰나요?

A. Kotlin 코루틴과 스레드의 차이점을 성능, 메모리, 사용성 관점에서 비교. 실전에서 어떤 비동기 처리 방식을 써야 하는지 선택 기준과 예제를 설명합니다. Kotlin·Coroutine·코루틴 중심으로 설명합니다.… 실무에서는 위 본문의 예제와 선택 가이드를 참고해 적용하면 됩니다.

Q. 선행으로 읽으면 좋은 글은?

A. 각 글 하단의 이전 글 또는 관련 글 링크를 따라가면 순서대로 배울 수 있습니다. C++ 시리즈 목차에서 전체 흐름을 확인할 수 있습니다.

Q. 더 깊이 공부하려면?

A. cppreference와 해당 라이브러리 공식 문서를 참고하세요. 글 말미의 참고 자료 링크도 활용하면 좋습니다.

같이 보면 좋은 글 (내부 링크)

이 주제와 연결되는 다른 글입니다.

이 글에서 다루는 키워드 (관련 검색어)

Kotlin, Coroutine, 코루틴, Thread, 스레드, 비동기, 성능, 비교 등으로 검색하시면 이 글이 도움이 됩니다.

이 글이 도움이 되셨나요?

여러분의 피드백은 더 나은 콘텐츠를 만드는 데 도움이 됩니다

문제가 있거나 개선 제안이 있으시면 연락처로 알려주세요.

Keyboard Shortcuts