소개대규모 스트리밍 분산 처리 프레임 워크배치 처리도 스트리밍처럼 처리 가능상태 기반 처리Flink 데이터 파이프 라인 예시이벤트 기반 애플리케이션하나 이상의 이벤트 스트림에서 이벤트를 수집계산, 상태 업데이트 또는 외부 작업을 실행상태 저장 처리를 통해 수집된 이벤트 기록에 따라 단일 메시지 변환 이상의 논리를 구현 가능데이터 분석 애플리케이션데이터에서 정보와 인사이트를 추출지속적인 업데이트, 쿼리 스트리밍 또는 수집된 이벤트를 실시간으로 처리결과를 지속적으로 내보내고 업데이트하여 분석데이터 파이프라인 애플리케이션한 데이터 스토리지에서 다른 데이터 스토리지로 이동할 데이터를 변환 및 강화프로세스가 지속적으로 작동하여 짧은 대기 시간으로 데이터를 다른 대상으로 이동 가능Flink의 이점구분내용비고무제한..

현재 데이터 레이크 구조로된 플랫폼을 운영하고 있다보니 자연스레 데이터 메시 아키텍쳐에 관심이 생겨 조금은 공부한 내용을 이번 포스트를 통해 정리하고자 한다. 해당 포스트에서는 데이터 메시의 개념과 등장 배경, 기존 중앙 집중형 데이터 아키텍처와의 차이점, 데이터 메시의 4대 원칙, 그리고 실무에서의 도입 방법에 대해서 정리할 생각이다.데이터 메시의 개념과 등장 배경데이터 메시(Data Mesh)는 대규모로 분산된 데이터를 효과적으로 관리하고 활용하기 위한 새로운 접근 방식이자 아키텍처이다. 기존의 중앙 집중형 데이터 아키텍처는 데이터 웨어하우스나 데이터 레이크와 같은 중앙 저장소에 모든 데이터를 모아 관리하는 방식을 취했습니다. 그러나 이러한 방식은 데이터의 양과 다양성이 폭발적으로 증가하는 현대 비즈..
NiFi jks로 인한 재기동 실패 문제 해결법Caused by: java.security.UnrecoverableKeyException: Password verification failed at sun.security.provider.JavaKeyStore.engineLoad(JavaKeyStore.java:790) ... 25 common frames omitted /nifi/conf 경로에 기존 jks 삭제keystore.jks, trustore.jks삭제 이후 재기동시 자동으로 jks 파일들 생성
Apache iceberg는 방대한 분석 데이터 세트를 위한 오픈 테이블 포맷SQL 테이블처럼 작동하는 고성능 테이블 포맷 사용Spark, Trino, PrestoDB, Flink, Impala를 포함한 컴퓨팅 엔진에 테이블을 추가주요 특징스키마 진화(Schema Evolution)추가, 삭제, 업데이트 또는 이름 바꾸기를 지원 → 테이블의 스키마를 유연하게 변경Hive와의 차이Hive에서 스키마 변경은 제한적Hive는 새로운 컬럼 추가는 가능 기존 컬럼의 삭제나 데이터 타입 변경은 어려움숨겨진 파티셔닝(Hidden Partitioning)파티션 관리 방식을 단순화하여 실수로 인한 잘못된 결과나 성능 저하를 방지 → 복잡한 쿼리에서도 잘못된 파티셔닝 회피Hive와의 차이Hive에서도는 파티셔닝을 사용자가..

Spring Boot를 통한 JSP 배포시 이슈 사항Spring Boot를 통해서는 Jar 프로젝트로 만들 수 없음Jar 프로젝트 같은 경우 웹 컨테이너 구조가 아니기에 웹 애플리케이션 요소를 미포함War 프로젝트로 가능 내장 톰캣 / 외장 톰캣성능에 대한 유의미한 차이는 없음내장 톰캣./gradlew bootWar내부/외부 서블릿 컨테이너(톰캣)에서 실행 가능한 WAR 파일 빌드외장 톰캣./gradlew war외부 서블릿 컨테이너(톰캣)에서만 실행 가능한 WAR 파일 빌드virtual host 같은 기능의 구성시 간단하게 적용 가능도메인 host에 따라서 가각의 다른 루트 컨테스트를 갖게 하는 기능하나의 웹 애플리케이션 배포만으로 여러 애플리케이션을 운영하는 것처럼 하는 기능Spring Boot Jav..

hdfs federationhadoop에서 가장 중요한 노드를 꼽으라면 당연 네임노드가 가장 중요한 노드라고 할 수 있다. 모든 사용자는 hdfs에서 접근하기 위해서 네임노드를 통해서 데이터 노드 위치를 확인하여 데이터 노드에 데이터를 읽거나 쓸 수 있다.이렇게나 중요한 네임노드는 HA를 위해서 Active, Stand by 노드로 2개 이상 노드로 구성하지만 실질적인 쓰기 작업에는 Active 네임 노드만을 사용한다.(옵저버 네임노드를 사용하면 데이터 읽기는 네임 노드 부하 분산 가능) 그렇기에 Active 네임노드에 문제가 발생하면은 hdfs 자체를 사용할 수 없는 SPOF(단일 장애 지점)이다. 적재되는 데이터 수가 작다면은 생성되는 파일 갯수가 적어 네임노드가 관리해야할 메타 데이터 적어서 괜찮..

Zabbix는 수많은 종류의 네트워크 서비, 서버 등의 네트워크 하드웨어를 감시하고 추적하여 관리자에게 장애발생을 신속히 알려주는 모니터링 서비스이다. 최근 모니터링을 그라파나와 프로메테우스를 연동하여 사용하나 수집기를 여러개로 사용하지만, 모니터링을 위해서 별도의 서버를 운영하는 관리 포인트를 최소화하기위해 프로메테우스 서버를 새로 구축하는 것이 아니라 기존 Zabbix를 활용하게 되었다. 따라서, Zabbix가 꼭 필요하지 않다면은 다양한 대쉬보드와 Exporter를 활용할 수 있는 프로메테우스를 선택하자!!! 먼저, Zabbix에서는 Template이라는게 있어 한번 만들어두면 여러 Host에서 사용할 수 있게 되어있다. 그렇기 때문에 재사용성을 위해서 Template으로 지표들을 만드는 것이 좋다..

Elasticsearch는 검색엔진으로 매일 수 많은 데이터가 범람하고 있는 세상에서 데이터들의 분석과 처리의 중심에 있다. 전문검색엔진으로 개발이 되었지만, 검색 엔진을 넘어 보안, 로그 분석, 전문 분석 등 다양한 영역에서 중요한 역할을 하고 있다. 나도 elasticseach 공부 목적이 검색이 아니라 시스템 모니터링을 위해서 공부하고 있기 때문에 다양한 영역에서 필요로 하다는 것을 몸소 체험중(?)이다.. Elasticsearch는 2004년 사이 배논이 아내를 위해서 요리 레시피 검색 프로그램을 만들기 위함이 계기가 되어 시작된다. 배논은 레시피 검색 프로그램에 루씬을 적용하려던 중 루씬이 가지고 있는 한계를 보완하기위해 새로운 검색엔지 프로젝트를 시작하게 된다. 2010년에 배논은 해당 프로젝..
- Total
- Today
- Yesterday
- exporter
- error
- Dataflow
- Nifi Architecture
- flow.xml.gz
- 빅데이터
- flink
- Item Prototypes
- zabbix
- nifi
- nifi.flowcontroller.autoResumeState
- namenode
- Nifi Service
- Discovery Rule
- hdfs
- MAT
- java8
- bigdata #data_mesh
- openjdk1.8
- spark driver
- Apache
- lld
- 설정에러
- Bigdata
- Apache Nifi
- Federation
- OOM
- prometheus
- 실시간처리
- hadoop
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |