dataframe

Ch2. 스파크 간단히 살펴보기 2.1 스파크의 기본 아키텍처 컴퓨터 클러스터 : 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용 가능하게 함 이런 클러스터에서 작접을 조율하는 프레임워크가 필요 -> 스파크 스파크가 사용하는 클러스터 매니저 스파크 스탠드얼론 클러스터 매니저 하둡 yarn 메소스 사용자는 클러스터 매니저에 스파크 애플리케이션을 제출submit -> 제출 받은 클러스터 매니저는 애플리케이셔 실행에 필요한 자원 할당 -> 할당받은 자원으로 작업 처리 2.1.1 스파크 애플리케이션 스파크 애플리케이션 = 드라이버driver 프로세스 + 다수의 익스큐터executor 프로세스 드라이버 프로세스 : 클러스터 노드 중 하나에서 실행 main() 함수 실행 스파크 애플리케이션 정보 유지 관리, 사용..
리스트를 DataFrame으로 변환하는 방식 1. 직접 StructType 생성 EX) seq, id, firstName, lastName, email, gender, ipAddress의 컬럼을 가진 테이블 val schema = StructType(List(StructField("seq", IntegerType, true), StructField("id", IntegerType, true), StructField("name", StringType, true), StructField("email", StringType, true))) 2. 스키마를 지정 스키마 전용 파일을 생성하여 object SchemaType { case class SampleSchema( seq: Int, id: Integer, n..
2weeks
'dataframe' 태그의 글 목록