-
Chapter 04 스트림 소개책/모던 자바 인 액션 2022. 4. 7. 11:41
Chapter 04 스트림 소개
스트림이란 무엇인가?
스트림
- 자바 8 API 새로 추가된 기능으로 스트림을 이용하면 선언형으로 컬렉션 데이터를 처리할 수 있다
- 데이터를 처리하는 임시 구현 코드 대신 질의로 표현할 수 있다 (데이터 컬렉션 반복을 머싲게 처리하는 기능이라고 생각하자)
- 멀티스레드 코드를 구현하지 않아도 데이터를 투명하게 병렬로 처리할 수 있다
저칼로리의 요리명을 반환하고 칼로리를 기준으로 요릴르 정렬하는 코드를 통하여 스트림이 제공하는 유용한 기능을 알아보자
자바 7로 작성한 코드 List<Dish> lowCaloriesDishes = new ArrayList<>(); for (Dish dish: menu) { if (dish.getCalories() < 400) { lowCaloricDishes.add(dish); } } Collections.sort(lowCaloricDishes, new Comparator<Dish>() { // 익명클래스 요리 정렬 public int compare(Dish dish1, Dish dish2) { return Integer.compare(dish1.getCalories(), dish2.getCalories()); } }); List<String> lowCaloricDishesName = new ArrayList<>(); for(Dish dish: lowCaloriDishes) { lowCaloricDishesName.add(dish.getName()); // 정렬된 리스트를 처리하면서 요리 이름 선택 }
위 코드에서는 lowCaloricDishes 라는 가비지 변수를 사용했다(컨테이너 역할만 하는 중간 변수)
자바 8을 사용하면 이러한 세부적인 구현은 라이브러리 내에서 처리된다
import static java.util.Comparator.comparing; import static java.util.stream.Collectors.toList; List<String> lowCaloricDishesName = menu.stream() .filter(d -> d.getCalories() < 400) // 400 칼로리 이하의 요리 선택 .sorted(comparing(Dish::getCalories)) // 칼로리로 요리 정렬 .map(Dish::getName) // 요리명 추출 .collect(toList()); // 모든 요리명을 리스트에 저장 위 코드에서 stream()을 parallelStream()으로 바꾸면 병렬 처리가 가능하다(물론 멀키코어 아키텍쳐 환경에서의 경우..) parallelStream()을 호출하면 어던 일이 일어나며 얼마나 많은 스레드가 사용되는지는 7장에서 알아볼 것이다
스트림을 사용하면 소프트웨어공학적으로 얻을수 있는 이득
- 선언형으로 코드를 구현할 수 있다
- 루프와 if 조건문 등의 제어 블록을 사옹해서 어떻게 동작을 구현할지 지정할 필요 없이 '저칼로리의 요리만 선택하라' 같은 동작을 수행 가능하다
- 선언형 코드와 동작 파라미터화를 활용하면 변하는 요구사항에 쉽게 대응할 수 있다
- 기존 코드를 복사하여 붙여 넣는 방식을 사용하지 않고 람다 표현식을 이용해서 저칼로리 대신 고칼로리의 요리만 필터링하는 코드도 쉽게 구현할 수 있다
- filter, sorted, map, collect 같은 여러 빌딩 블록 연산을 연결해서 복잡한 데이터 처리 파이프라인을 만들 수 있다
- 여러 연산을 파이프라인으로 연결해도 여전히 가독성과 명확성이 유지된다
- filter 메서드의 결과는 sorted 메서드로 다시 sorted 결과는 map 메서드로 map 메서드의 결과는 collect로 연결된다
filter(또는 sorted, map, collect) 같은 연산은 고수준 빌딩 블록으로 이루어져 있으므로 특정 스레딩 모들에 제한되지 않고 자유롭게 어떤 상황에서든 사용할 수 있다
(내부적으로 단일 스레드 모델에 사용할 수 있지만 멀티코어 아키텍처를 최대한 투명하게 활용할 수 있게 구현되어 있다)
결과적으로 우리는 데이터 처리 과정을 병렬화 하면서 스레드와락을 걱정할 필요가 없다
스트림의 특징
- 선언형 : 더 간결하고 가독성이 좋아진다
- 조립할 수 있음 : 유연성이 좋아진다
- 병렬화 : 성능이 좋아진다
스트림 시작하기
스트림의 정의
- 데이터 처리 연산을 지원하도록 소스에서 추출된 연속된 요소
- 연속된 요소
- 컬렉션과 마찬가지로 스트림은 특정 요소 형식으로 이루어진 연속된 값 집합의 인터페이스를 제공한다
- 컬렉션의 주제는 데이터, 스트림의 주제는 계산
- 소스
- 스트림은 컬렉션, 배열, I/O 자원 등의 데이터 제공 소스로부터 데이터를 소비한다
- 정렬된 컬렉션으로 스트림을 생성하면 정렬이 그대로 유지된다
- 리스트로 스트림을 만들면 스트림의 요소는 리스트의 요소와 같은 순서를 유지한다
- 데이터 처리 연산
- 스트림은 함수형 프로그래밍 언어에서 일반적으로 지원하는 연산과 데이터베이스와 비슷한 연산을 지원한다
- 스트림 연산은 순차적으로 또는 병렬로 실행할 수 있다
스트림의 중요 특징
- 파이프라이닝
- 대부분의 스트림 연산은 스트림 연산끼리 연결해서 커다란 파이프라인을 구성할 수 있도록 스트림 자신을 반환한다
- 게으름(Jaziness), 쇼트서킷(short-circuiting) 같은 최적화도 얻을 수 있다
- 연산 파이프라인은 데이터 소스에 적용하는 데이터베이스 질의와 비슷하다
- 대부분의 스트림 연산은 스트림 연산끼리 연결해서 커다란 파이프라인을 구성할 수 있도록 스트림 자신을 반환한다
- 내부반복
- 반복자를 이용해서 명시적으로 반복하는 컬렉션과 달리 스트림은 내부 반복을 지원한다
스트림과 컬렉션
자바의 기존 컬렉션과 새로운 스트림 모두 연속된 요소 형식의 값을 저장하는 자료구조의 인터페이스를 제공한다
- 연속된이라는 표현은 순서와 상관없이 아무 값에나 접속하는 것이 아니라 순차적으로 값에 접근하는 것을 의미한다
컬렉션과 스트림의 차이
- 데이터를 언제 계산하는지가 컬렉션과 스트림의 가장 큰 차이
- 컬렉션은 현재 자료구조가 포함하는 모든 값을 메모리에 저장하는 자료구조
- 컬렉션의 모든 요소는 컬렉션에 추가하기전에 계산되어야 한다
- 컬렉션은 적극적으로 생성된다(생산자중심: 팔기도 전에 창고를 가득 채운다)
- 스트림은 이론적으로 요청할 때만 요소를 계산하는 고정된 자료구조다(스트림에 요소를 추가하거나 제거 할 수 없음)
- 사용자가 요청하는 값만 스트림에서 추출한다는 것이 핵심이다
- 사용자 입장에서는 이러한 변화를 알수가 없으며 스트림은 생산자와 소비자관계를 형성한다
- 스트림은 게으르게 만들어지는 컬렉션과 같다(사용자가 데이터를 요청할 때만 값을 계산한다)
딱 한 번만 탐색할 수 있다
반복자와 마찬가지로 스트림도 한 번만 탐색 가능하다
- 탐색된 스트림의 요소는 소비된다
- 반복자와 마찬가지로 한번 탐색한 요소를 다시 탐색하려면 초기 데이터 소스에서 새로운 스트림을 만들어야 한다
- 이렇게 하려면 컬렉션과 같이 반복 사용할 수 있는 데이터 소스여야 됨
- 만약 데이터 소스가 I/O 채널이면 소스를 반복 사용할 수 없어 새로운 스트림을 만들 수 없다
스트림은 단 한번만 소비 할 수 있다는걸 명심하자
외부 반복과 내부 반복
컬렉션 인터페이스를 사용하려면 사용자가 for-each 등을 사용해서 직접 요소를 반복해야 하는데 이걸 외부 반복이라고 한다
스트림 라이브러리는 반복을 알아서 처리하고 결과 스트림값을 어딘가에 저장해주는 내부 반복을 사용하여 함수에 어떤 작업을 수행할지만 지정하면 모든것이 알아서 처리된다
컬렉션 for-each 루플를 이용하는 외부 반복 List<String> names = new ArrayList<>(); for(Dish dish: menu) { // 메뉴 리스트를 명시적으로 순차 반복한다 names.add(dish.getName()); // 이름을 추출해서 리스트에 추가한다 }
for-each 구문은 반복자를 사용하는 불편함을 어느정도 해결해준다
for-each를 이용하면 Iterator 객체를 이용하는 것 보다 더 쉽게 컬렉션을 반복할 수 있다
컬렉션 - 내부적으로 숨겨졌던 반복자를 사용한 외부 반복 List<String> names = new ArrayList<>(); Iterator<String> itr = menu.iterator(); while(itr.hasNext()) { Dish dish = itr.next(); names.add(dish.getName()); }
스트림 - 내부 반복 List<String> names = menu.stream() .map(Dish::getName) // map 메서드를 getName 메서드로 파라미터화해서 요리명을 추출한다 .collect(toList()); // 파이프라인을 실행한다. 반복자는 필요없다
내부반복과 외부반복의 차이점을 살펴보자
외부반복(컬렉션)
- 명시적으로 컬렉션 항목을 하나씩 가져와서 처리한다
- for-each를 이용하는 외부 반복은 병렬성을 스스로 관리해야 한다
내부 반복(스트림)
- 작업을 투명하게 병렬로 처리 가능하며 더 최적화된 다양한 순서로 처리할 수 있다
- 스트림의 내부 반복은 데이터 표현과 하드웨어를 활용한 병렬성 구현을 자동으로 선택한다
스트림 연산
스트림 인터페이스의 연산을 크게 두 가지로 구분할 수 있다
- 중간연산 : 연결할 수 있는 스트림 연산
- 최종연산 : 스트림을 닫는 연산
List<String> names = menu.stream() // 요리 리스트에서 스트림 얻기 .filter(dish -> dish.getCalories() > 300) // 중간연산 .map(Dish::getName) // 중간연산 .limit(3) // 중간연산 .collect(toList()); // 스트림을 리스트로 변환 위 예제에서 연산은 아래의 두 그룹으로 되어있다 filter, map, limit는 서로 연결되어 파이프라인을 형성한다 collect로 파이프라인을 실행한 다음에 닫는다
중간연산
- filter나 sorted 같은 중간연산은 다른 스트림을 반환하기 때문에 여러 중간 연산을 연결해서 질의를 만들 수 있다
- 중간 연산의 중요한 특징은 단말 연산을 스트림 파이프라인에 실행하기 전까지는 아무 연산도 수행하지 않는다것이다(게으르다)
- 중간 연산을 합친 다음에 합쳐진 중간 연산을 최종 연산으로 한번에 처리하기 때문
- filter, map, limit, sorted, distinct 등... 스트림을 반환하며 다른 연산과 연결되는 연산이다
- 중간 연산을 이용해서 파이프라인을 구성할 수 있지만 어떤 결과도 생성할 수 없다
List<String> names = menu.stream() .filter(dish -> { System.out.println("filtering:" + dish.getName()); return dish.getCalories() > 300; }) // 필터링한 요리명을 출력한다 .map(dish -> { System.out.println("mapping:" + dish.getName()); return dish.getName(); }) // 추출한 요리명을 출력한다 .limit(3) .collect(toList()); 위 코드로 알 수 있는 건 스트림의 게으른 특성 덕분에 몇가지 최적화 효과를 얻을 수 있다는 것이다 1. 300 칼로리가 넘는 요리는 여러 개지만 오직 처음 3개만 선택되었다 - limit 연산, 쇼트서킷이라 불리는 기법 때문 2. filter와 map은 서로 다른 연산이지만 한 과정으로 병합되었다 - 루프 퓨전이라고 부른다(loop fusion)
최종연산
- 최종 연산은 스트림 파이프라인에서 결과를 도출한다
- 보통은 최종 연산에 의해서 List,Integer,void 등 스트림 이외의 결과가 반환된다
- forEach, count, collect 등... 스트림 파이프 라인을 처리해서 스트림이 아닌 결과를 반환한다
스트림 이용하기 3가지 과정
- 질의를 수행할 (컬렉션 같은) 데이터 소스
- 스트림 파이프라인을 구성할 중간 연산 연결
- 스트림 파이프라인을 실행하고 결과를 만들 최종 연산
'책 > 모던 자바 인 액션' 카테고리의 다른 글
Chapter 05 스트림 활용 작성중... (0) 2022.04.07 chapter02 동작 파라미터화 코드 전달하기 (0) 2022.03.26