분류

2017년 1월 5일 목요일

빅데이터 분석 툴 펜타호 설치 가이드

펜타호 설치 가이드
 
펜타호란 ?
 
빅 데이터 분석 및 활용을 위한 다양한 기능을 보유하고 있는 멀티 인포테인먼트 도구입니다.
 
오픈소스 버전과 엔터프라이즈 버전이 있으며, 데이터 분석에서 설계, 구축, 통계, 리포트까지 다양한 분야를 데이터베이스의 종류에 구애되지 않고 단일 플랫폼에서 지원하므로 빅 데이터 구축에서 운영까지의 전반에 활용할 수 있는 도구라고 할 수 있습니다.
 
주요 기능으로는 데이터 분석, 정제, 이관, 분산 데이터베이스 설계, 구축, 관리 및 보고서 작성 등이 있으며 그 외에도 다양한 기능을 반자동화 하여 지원하고 있습니다.펜타호에 대한 설명은 이쯤에서 그만 두고, 일단 사용해 보는 것도 하나의 방법이기에 사용법에 대한 기록을 시작하겠습니다.
 
본 설명은 윈도우즈10 64bit 기반으로 작성되며, 최신버전의 64bit JDK를 설치하였습니다.
펜타호에는 여러 가지 모듈이 복합적으로 존재하지만, 그중 현업에서 가장 많이 사용하는 OPEN SOURCE 모듈은 아마도 ETL 모듈인 PDI인 것 같습니다. 일단 최신버전의 오픈소스를 sourceforge.net에서 다운받아야 합니다. 또한 펜타호의 SPOON은 데이터베이스 환경에서 사용되는 프로그램이기에 DB도 필요하며, 최신버젼의 JDK도 필요합니다.
 
펜타호는 상위 사이트에 접속하면 download 버튼을 클릭해 쉽게 다운로드 할 수 있으며, 약간의 설명과 함께 화면 캡쳐가 첨부되어있습니다.
ORACLEJDKORACLE에 접속해서 다운로드 받으실 수 있습니다.
 
다운로드가 완료되면 해당 파일을 적당한 경로를 만들어 압축을 해제한다. 대게의 오픈소스 프로그램의 경우 인코딩에 민감한 경우가 많으므로, 폴더 경로는 되도록 영문명을 사용하는 것이 좋습니다.

압축이 풀린 폴더를 살펴보다 보면 spoon 이라는 항목이 보일 텐데, 많은 모듈 중 이번에 사용할 모듈은 spoon입니다. (GUI인터페이스를 가진 ETL도구라고 합니다.)
data-integration 폴더 내에 들어가면 spoon.bat 파일이 보이는데 간단하게 더블클릭으로 실행한합니다.

windows10에 처음 설치해보면서 몇 가지 문제가 발생해서 좀 당황스러웠는데 그중 첫 번째는 새 노트북에 설치하고 spoon.bat를 실행하니 그냥 창이 사라지는 경우가 있었고, 두 번째는 ‘javaw를 찾을 수 없습니다라는 문구가 떴는데 jdk버전에 대한 path등록을 명확하게 해주더라도 해결되지 않아서 자바 bin 폴더를 해당 위치에 복제해주어야 했습니다. (c:\penthaho설치폴더\java\bin) 이 부분에 대한 설명이 없어 처음엔 java path설정부터 이런저런 것을 해보았으나, 영문 커뮤니티 검색결과 해당 위치에 단축 아이콘을 만드는 것을 보고 귀찮아서 복제해보았더니 해결되었습니다. 처음 받았던 버전은 pentaho 의 포터블 버전 4.0 이었고, 이후 문제를 해결 하고 나서 7.0버전으로 옮겨왔으나, 7.0에서는 java의 복제 없이 정상작동 하는 것을 보면, 포터블 버전의 문제이거나 windows10에서 java path를 정상적으로 읽어드리지 못하는 것 같습니다.
 
자 이제 설치된 pentaho ETL도구 spoon을 실행해 보겠습니다.

spoon을 실행시켜보면 매우 단순하며 직관적인 인터페이스에 접할 수 있습니다. 가장 눈에 띄는 것은 왼쪽에 있는 라는 탭인데, 기본적인 이 녀석들만 제어하면 매우 쉽게 기능을 활용할 수 있을 거란 생각이 들만큼 심플해 보입니다. 의미로 생각해보면 Transformation이 작은 단위의 작업일거고 job이 여러 Transformation을 그룹 할 수 있는 단위로 추측되었습니다. 망설임 없이 Transformation을 더블클릭 하니, 바로 디자인 화면으로 연동되었습니다.

 
메뉴가 정말 다양하고 많은데, 그중 가장 기초가 되는 것은 inputoutput이라서 인지 가장 상위에 배치되어있고, 요소들이 너무 많아 일일이 실행해 보기에 어려운 난관에 부딪칠 것 습니다. 일단은 다른 것은 제외하고, INPUT OUTPUT부터 알아보도록 하겠습니다.
 
일단 INPUT을 확장해보니 한 화면에 들어오지 않을 만큼 지원하는 하위 기능들의 리스트가 상당히 많이 있는 것을 알 수 있습니다.

 
일단 이번에 해당 도구를 사용하게 되는 이유 중 하나가 데이터 이관 작업에 이용하기 위해 찾은 만큼 테이블이라는 단어가 들어있는 아이콘을 찾았습니다. 일단 TABLE INPUT 이라는 메뉴가 눈에 들어와서 더블클릭 해보니 화면에 TABLE INPUT 이 배치되었습니다. 배치된 아이콘을 다시 더블클릭 해보니 세부 정보를 설정할 수 있는 화면이 나타났습니다.

인터페이스가 직관적이고 편리해서인지 클릭만 몇 번 함으로써 쉽게 진행되는 것 같은 기분이 든다. table input은 당연히 데이터를 연결해야 하는 부분이 있기에 해당 데이터에 대한 원천을 선택하기 위해 연결 란을 선택해 보았으나, 빈 박스만 존재할 뿐이었습니다. 그렇다면 저 위저드를 선택해보면 해당 문제를 해결해주지 않을까 하는 생각에 위저드를 클릭했습니다.

위저드에서는 원하는 database 서버를 선택해서 접속할 수 있는 인터페이스가 팝업 됐는데, 해당 인터페이스에 익숙한 오라클과 jdbc를 선택하고 다음을 누르니 접속정보를 입력하라고 나왔습니다.



로컬에 설치되어 있는 오라클의 정보를 대충 입력하고 테스트를 실행하니 오류가 잔뜩 등장합니다.

당황하지 않고 차근히 읽어 내리다 보니 눈에 띄는 문구가 있습니다.
driver class 'oracle.jdbc.driver.OracleDriver' could not be found, make sure the 'Oracle' driver (jar file) is installed. oracle.jdbc.driver.OracleDriver
 
접속할 수 있는 오라클의 jdbc드라이버 jar 파일이 없다고 합니다.

(로컬 데이터베이스를 설치했기에 해당 폴더에 가서 jdbc 파일을 복제해왔습니다. )
일단 pentaho 종료 후 오라클 JDBC 설치 폴더에 있는 모든 jar파일을 복제한 후 다시 pentaho 설치 폴더의 lib 안에 복제해주었습니다.

그런 후 테스트를 하니 정상적으로 구동됩니다.

이제 다시 input 창으로 돌아가서 sql문장 가져오기를 눌렀다. 정상적으로 데이터를 가져오는 것을 확인 할 수 있다.
 


이제 데이터베이스에 접속이 되어 정상적으로 테이블 목록을 가져오게 되었습니다. 해당 프로그램을 사용할 때 단 한번만 설정해주면 되는 부분이라서 해당 부분이 차후에 문제가 될 소지는 없어 보입니다. 대상 테이블을 선택한 후 확인을 누르면 필드 명을 sql에 가져올 것인지 여부를 확인하고 종료됩니다. (예를 누를 경우 SELECT 내의 SQL이 컬럼 명을 포함하여 완성됩니다.) 이제 테이블 하나의 설정이 완료되었습니다.
 
정상적으로 사용할 수 있는 기반을 만드는데 소요되는 시간이 2시간 남짓... ORACLE이 설치되어 있지 않았다면, 더 많은 시간이 소요되었을 것입니다. 다음 DATA베이스와의 연동은 다음 회에서 설명하도록 하겠습니다.

펜타호 스푼 사용 가이드

댓글 없음:

댓글 쓰기