소개대규모 스트리밍 분산 처리 프레임 워크배치 처리도 스트리밍처럼 처리 가능상태 기반 처리Flink 데이터 파이프 라인 예시이벤트 기반 애플리케이션하나 이상의 이벤트 스트림에서 이벤트를 수집계산, 상태 업데이트 또는 외부 작업을 실행상태 저장 처리를 통해 수집된 이벤트 기록에 따라 단일 메시지 변환 이상의 논리를 구현 가능데이터 분석 애플리케이션데이터에서 정보와 인사이트를 추출지속적인 업데이트, 쿼리 스트리밍 또는 수집된 이벤트를 실시간으로 처리결과를 지속적으로 내보내고 업데이트하여 분석데이터 파이프라인 애플리케이션한 데이터 스토리지에서 다른 데이터 스토리지로 이동할 데이터를 변환 및 강화프로세스가 지속적으로 작동하여 짧은 대기 시간으로 데이터를 다른 대상으로 이동 가능Flink의 이점구분내용비고무제한..
Apache iceberg는 방대한 분석 데이터 세트를 위한 오픈 테이블 포맷SQL 테이블처럼 작동하는 고성능 테이블 포맷 사용Spark, Trino, PrestoDB, Flink, Impala를 포함한 컴퓨팅 엔진에 테이블을 추가주요 특징스키마 진화(Schema Evolution)추가, 삭제, 업데이트 또는 이름 바꾸기를 지원 → 테이블의 스키마를 유연하게 변경Hive와의 차이Hive에서 스키마 변경은 제한적Hive는 새로운 컬럼 추가는 가능 기존 컬럼의 삭제나 데이터 타입 변경은 어려움숨겨진 파티셔닝(Hidden Partitioning)파티션 관리 방식을 단순화하여 실수로 인한 잘못된 결과나 성능 저하를 방지 → 복잡한 쿼리에서도 잘못된 파티셔닝 회피Hive와의 차이Hive에서도는 파티셔닝을 사용자가..
Nifi CA 차이로 인한 재기동 불가 이슈 [main] ERROR org.apache.nifi.properties.ConfigEncryptionTool - Encountered an error: Decryption Failed with Algorithm [PBEWITHMD5AND256BITAES-CBC-OPENSSL] [main] ERROR org.apache.nifi.properties.ConfigEncryptionTool - Exception: org.apache.nifi.encrypt.EncryptionException: Decryption Failed with Algorithm [PBEWITHMD5AND256BITAES-CBC-OPENSSL] at org.apache.nifi.encrypt.Ci..
flow.xml.gz 동기화로 인해 발생하는 에러로 정상적인 flow.xml.gz 파일을 복사한 후 재기동 하면된다. 2023-12-07 04:59:55,610 INFO [Process Cluster Protocol Request-459] o.a.n.c.c.node.NodeClusterCoordinator Status of nifi.io:9091 changed from NodeConnectionStatus[nodeId=nifi.io:9091, state=CONNECTING, updateId=106] to NodeConnectionStatus[nodeId=nifi.io:9091, state=DISCONNECTED, Disconnect Code=Node's Flow did not Match Cluster F..

Nifi를 운영하면서 flow.xml.gz으로 인한 재기동 이슈가 많이 발생하였다. 단일 노드에서 Nifi를 사용한다면 해당 이슈가 발생하지 않겠지만 클러스터 환경에서는 flow 변경 시 즉각 동기화가 이루어져야 하는데 여러 요인으로 인해 특정 노드가 동기화되지 못하는 이슈가 있을 수 있다. 문제 발생 시 주로 flow controller와 flow.xml.gz이 다르다는 이유로 재기동 이후에 강제로 셧다운 되는 경우가 많았다. 그래서 도대체 flow.xml.gz 안에 어떠한 내용들이 있길래 차이가 발생하는지 직접 확인해 보았다. flow.xml.gz이란? DFM(DataFlowManger)이 Nifi 사용자 인터페이스 컨버스에 모든 내용을 저장하기 위한 파일 기본적으로 nifi/conf에 디렉터리에 저..

Nifi는 Java 기반의 프로젝트로 JVM 위에서 동작한다. 운영시에는 클러스터 환경에서 Nifi를 구성하지만 단일 노드에서도 Nifi 구성 가능하다.Nifi ArchitectureWeb ServerNifi의 Http 기반의 명령과 제어 API 제공웹서버에서 데이터를 가공하고 분배하는 Flow 를 생성Flow ControllerNifi의 핵심적인 부분으로 실제 데이터를 가공하고 분배하는 작업 영역flow.xml.gz도 관리하여 모든 노드의 flow를 동기화 역할FlowFile Repository현재 만들어진 FlowFile의 Meta Data 저장소Meta DataFlow file의 위치 Flow file의 상태 (어떤 connection/queue에 존재하는지)Flow file의 AttributeC..

Nifi의 슬로건을 보면 "An easy to use, powerful, and reliable system to process and distribute data"로써 쉬운 사용이 가능하며 강력하고 신뢰성 있는 시스템으로 분산처리가 가능하다고 말하고 있다. 실제로 Nifi를 사용해 보면 직관적인 UI 덕분에 누구나 손쉽게 데이터 플로우를 구성 가능함을 알 수 있다. Nifi는 NiagaraFiles의 줄임말로써 미국국가안보국(NAS)에서 처음 개발되어 사용되었다가 Apache에 기증되면서 오픈 소스가 되어 많은 곳에서 사용할 수 있게 되었다. Nifi의 장점 실시간 처리에 적합 (파일 생성시 실시간으로 DB 혹은 FTP로 전송 가능) 확장성이 좋음 (Scale Out 방식으로 언제든지 신규 노드 증설 ..
- Total
- Today
- Yesterday
- Federation
- lld
- error
- zabbix
- hdfs
- exporter
- 설정에러
- flink
- Apache Nifi
- 실시간처리
- Apache
- spark driver
- openjdk1.8
- namenode
- MAT
- Discovery Rule
- OOM
- nifi
- Nifi Architecture
- flow.xml.gz
- Nifi Service
- java8
- Bigdata
- Dataflow
- prometheus
- bigdata #data_mesh
- hadoop
- Item Prototypes
- 빅데이터
- nifi.flowcontroller.autoResumeState
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |