Hadoop Echo System

Hadoop Echo System

YARN

YARN YARN (Yet Another Resource Negotiator)은 하둡 2부터 도입된 클러스터 리소스 관리, 애플리케이션 라이프 사이클 관리를 위한 아키텍처이다. YARN에서는 맵리듀스 기반의 애플리케이션외에도 피그, 스톰, 스파크 등 분산 애플리케이션에 대해 클러스터 리소스를 관리 할 수 있다. YARN 아키텍처의 세 가지 중요한 요소는 리소스 매니저, 노드 매니저, 애플리케이션 마스터이다. 리소스 매니저 리소스 매니저(Resource Manager)는 하둡 클러스터의 마스터 노드에 실행되는 자바 프로세서로 노드 매니저로부터 전달받은 정보를 이용하여 클러스터에서 CPU, 메모리, 디스크 등의 자원을 관리한다. 클러스터 상태 모니터링 : 클러스터 내 노드의 상태를 모니터링하고 노드 장애 발..

Hadoop Echo System

스파크 애플리케이션 제출

스파크 애플리케이션 제출 Spark bin 폴더의 spark-submit 스크립트로 사용자가 작성한 애플리케이션을 클러스터에 배포할 수 있다. spark-submit은 모든 클러스터 매니저와 같이 사용할 수 있으므로 클러스터 매니저에 따라 애플리케이션을 변경할 필요는 없다. 종속성이 있는 애플리케이션 번들링 만약 애플리케이션의 코드에 의존성이 있는 경우 의존성과 함께 코드를 패키징해야한다. 따라서 코드와 종속성을 포함하는 어셈블리 jar(또는 jber jar)을 만든다. 어셈블리 jar을 만들기 위해 sbt, maven와 같은 어셈블리 플러그인을 사용할 수 있다. 어셈블리 jar을 만들 때 Spark 및 Hadoop 종속성을 provided 종속성으로 지정한다. 클러스터 매니저가 런타임 시에 해당 종속성..

Hadoop Echo System

스파크 클러스터

스파크 클러스터 넓은 의미에서 보면, 스파크 애플리케이션은 스파크 클러스터의 병렬 작업들을 조율하는 하나의 드라이버 프로그램이다. 드라이버 프로그램은 SparkSession 객체를 초기화하고 클러스터 매니저와 통신하며 스파크 이그제큐터를 위한 필요한 자원(cpu, memory)를 요청한다. 또한 모든 스파크 작업을 DAG 연산 형태로 변환해 스케줄링하며 각 실행 단위를 태스크로 나누어 스파크 이그제큐터(Executor)에 분배한다. 자원이 할당되면 그 다음부터 드라이버 프로그램은 이그제큐터와 직접 통신한다. 스파크 2.0에서 스파크 세션은 모든 스파크 연산과 데이터에 대한 통합 연결 채널이 되었다. 이전의 SparkContext, SQLContext, HiveContext, SparkConf, Strea..

gunjoon98
'Hadoop Echo System' 카테고리의 글 목록