라인 유튜브를 보다 보니 괜찮은 거 같아서 현재 업로드되어 있는 24개정도의 영상을 모두 봤다.
흥미로웠던 주제에 대한 내용만 요약해봤다.
< 1월 1일 0시, 라인에선 어떤 일이? >
- 9월에 대응 책임자 선출 및 대응 시1작
- 서버 증설 필요성 등 시간이 걸리는 이유에 대해 체크 후 대응
- 작년 이슈사항이 보완되었는지 체크
- 웨이팅 기능을 이용해 특정서버에 트래픽을 몰아줌으로써 벤치마크 테스트
- 12월 중순, 코드 프리징(수정X)
- 12월 31일 저녁 5시, 서버 재기동
- 온&오프라인 대응팀 대기
- 완료 후 회고 미팅.
< 라인 100명이 뽑은 인생 책 >
- 클린 코드
- 리팩토링
- 생각하는 프로그래밍
- 유지보수하기 어렵게 코딩하는 방법
- 자바의 정석
- 이펙티브 자바
- 윤성우의 열혈 C프로그래밍
- 프론트엔드 개발자를 위한 자바스크립트 프로그래밍
- 이산수학
- 헤드퍼스트 OOAD
- UNIX Network Programming
- HTTP 완벽 가이드 ( RFC 공식문서도 추천 )
- 월간 컴퓨터 학습
- 코딩 인터뷰 완전 분석
- 알고리즘 문제해결 전략
- 자바 네트워크 소녀 네티
- 토비의 스프링
< 라인 100명이 뽑은, 지금 신입으로 돌아간다면 가장 먼저 배우고 싶은 언어는? >
1위 자바
2위 자바스크립트
3위 파이썬
4위 C/C++
기타 Go, English, Swift, Scala
< 라인 보안 전문가 인터뷰 >
- CISSP 자격증 보유중, 보안기술쪽으로 가장 유명한 국제자격증. 필기만으로 진행
- 기획 단계부터 프로토콜 보안, 암호화 알고리즘 가이드라인 등
- 개발된 코드의 보안 취약점 분석, 침투 테스트
- 머신러닝을 이용해 엑세스 로그 분석 자동화, 이상 감지 및 실시간 알림
< 라인의 장애 보고 문화 >
- 철학 :
책망에 초점을 맞추지 않는다.
시스템 관점에서 더 잘 대응하는 방법을 모색하는데 초점을 둔다.
( 현재 다니고 있는 회사는 장애 나면 무조건 원인 제공자 색출해서 시말서+장애보고서 1+1작성이다. 무조건이다.
입사 3개월 된 나도 벌써 한 번 작성해봤다. 그리고 같은 사무실의 대리님, 선배님 등이 장애발생시 쓰는 것도 봤다.
확실히 이런 문화는 계속해서 기술부채를 만들어낼 수밖에 없다. 위축되기 때문이다. 그리고 숨기게 된다.
주인의식 없이, 아무것도 건들지 않고, 딱 요구사항만 어떻게든 최소한으로 넘기려 하게 되기 때문이다.
핵심 솔루션이 모노리스 구성인 게 가장 문제인 것 같은데.. 이 거대한 용을 대체 어떻게 때려잡을지..
암튼 이 라인의 장애 대응 철학 부분 읽다가 눈에서 땀이 났다...)
- 재발 방지법, 더 빠른 감지법, 영향 최소화 방법, 자동복구방법
- 사용자에게 영향을 주지 않는 장애도 보고한다.
- 선 보고 후 조치
- 정량 : CPU 사용률, 디스크 사용량, 네트워크 사용량, (메모리 사용량?)
- 정성 : 엔드투엔드 테스트, 사용자 리포트 등
- 슬랙, 라인 연동 시스템으로 자동보고
< 라인의 미디어 압축 : Antman Project >
- JPEG -> HEIF 전환
- 최신 포맷, 처리량이 많고, CPU사용량이 많음.
- GPU로 디코딩, 디코딩된 JPEG를 HEIF로 변환, 원본과 화질 비교 후 적절한 압축률 산정.
- 업로드 최초에만 사용률이 높다가 이후에는 사용률이 압도적으로 떨어짐.
- 떨어진 시점에 앤트맨이 가동. 이후에 요청했을 땐 다시 컨버팅. HEIF 재생 가능하면 그대로 주고 아니면 컨버팅 후 줌
- HEIF 압축률이 2개여서 압축률 50%를 적용했는데 코너 케이스가 발견되기 시작
- 변환 전 변환 후 화질 비교 후 화질 자동비교 후 적절한 압축률을 알아서 취득하도록 로직을 심음.
- CPU는 전혀 이 로직에 참여하지 않도록 설계하여 컴퓨테이션 리소스를 절약
- 특히 연말 등에 서버를 3배 정도 트래픽에 대응할 수 있게 증설해두는데, 이때 GPU는 트래픽 처리에 참여하지 않아 상당한 유휴 자원이 발생했고 이때 유휴되는 양 만큼을 앤트맨을 돌리는데 사용
- 적절한 압축률을 산정해내는 알고리즘 개발에 시간이 소요됨. 결과적으로 평균 60%정도 압축이 됨
- HEIF로 전환 후 CS 를 모니터링. 2달간 모니터링 후 확신이 들어 JPEG 삭제시작