본문 바로가기

linux kernel33

Virtual Memory: Transparent Huge Pages Paging Overview 운영체제를 배울때 우리는 페이징이 가상 주소를 물리 주소로 변환하는 매커니즘이고 다단계 페이지 테이블을 사용해서 어떤 가상주소를 어떤 물리주소로 매핑할지 정할 수 있다고 배웠다. 요즘엔 일반적으로 3, 4, 5단계 페이지 테이블을 사용한다. 다단계 페이지 테이블을 사용하는 이유는 fork()할 때 페이지 테이블을 복사하는 비용을 줄이기 위함이고, 페이지 테이블의 단계가 많아질수록 page table walking 비용이 늘어나는 대신 사용할 수 있는 주소의 범위가 늘어난다. 그럼 CPU가 메모리 접근을 할때마다 page table walking을 해야하는가? 그렇지는 않다. 가상 주소를 물리 주소로 변환하려면 적어도 페이지 테이블 단계 수만큼은 메모리 접근을 해야하므로 CPU.. 2022. 3. 23.
Virtual Memory: Node and Zone 이 글은 Mel Gorman의 Understanding The Linux Virtual Memory Manager의 일부를 정리한 것이다. 최신의 가상 메모리 서브시스템과는 내용이 상이할 수 있다. 하지만 기본 개념을 설명하기엔 충분하다고 생각한다. 최신 내용은 필요에 따라서 별도로 글로 정리할 생각이다. Node 메모리의 접근 속도가 균일하지 않은 시스템을 NUMA 시스템이라고 한다. 자세한 건 NUMA 글을 참고하자. NUMA 시스템에서 같은 특성(접근 속도)을 갖는 메모리를 노드라고 한다. 예를 들어서 프로세서 2개(각각 4코어)와 노드 2개가 있을 때는 프로세서에 기준으로 자신에게 가까운 노드(local node)에 접근하는 속도는 빠르고, 먼 노드(remote node)에 접근하는 속도는 느리다.. 2022. 1. 2.
perf로 CPU 샘플링하기 (feat. perf record) 얼마전에 깃헙 블로그에 SL[AUO]B 할당자의 CPU Flame Graph를 간단하게 분석해서 올렸었는데, perf에서 프로파일링 하는 방식을 제대로 모른 채 사용하다보니 결과가 왜곡됐었다. 그래서 간단하게라도 기술적인 부분을 정리하려고 한다. TMI지만 이 글 제목을 원래는 "함수 호출 스택 샘플링"이라고 하려다가, CPU 샘플링/프로파일링이라는 말을 더 많이 쓰는 것 같아서 지금의 제목이 되었다. Sampling 우리는 워크로드에서 어떤 일이 일어나는지를 분석하고 싶어한다. 뭐 캐시 미스나 사이클당 명령어와 같은 PMC (Performance Monitoring Counter)일 수도 있고, 아니면 특정 벤치마크에서 어떤 컴포넌트가 얼마나 CPU를 사용하는지가 궁금할 수도 있다. 간단한 예로 함수 .. 2021. 12. 15.
Virtual Memory: Folio in 5.16 Introduction 저번 개발 주기때 간간이 보이길래 공부했었는데, 5.16에서 folio 패치셋이 드디어 머지되었다. 간단하게 요약해보자면 커널에서 메모리는 페이지 단위로 관리된다. 종종 여러 페이지를 그룹으로 묶어서 하나의 페이지처럼 처리해야할 때가 있는데 이럴때 보통 compound page나 thp (transparent huge pages)를 사용한다. compound page 같은 경우에는 첫 번째의 페이지가 head page이고, 그 외에는 모두 tail page이다 실제로 파일시스템에 compound page를 사용해서 큰 페이지 단위로 처리할 때 성능상의 이점이 있다고 한다. 하지만 compound page를 사용하는 경우에는 이게 head page인 tail page인지 명확하지 않.. 2021. 12. 12.
[Linux Kernel] 리눅스는 얼마나 작아질 수 있을까? 리눅스는 config를 통해서 다양한 환경에서 사용하도록 커스터마이징할 수 있다. 세계 500위 슈퍼컴퓨터부터 스마트폰, 데스크탑 등 다양한 환경에서 리눅스를 실행할 수 있다. 최근 십수년간 리눅스에 상업적인 기업들이 참여하면서 비대해진 경향이 있지만, 이 글은 최대한 커스터마이징을 해서 리눅스를 최대한 작게 만들어보려고 한다. 이 글에선 v5.15 기준으로 실험해본다. 결론부터 적자면 결론부터 적자면 내가 실험했을 때는 x86_64에서는 약 29MiB의 RAM이, 32비트 ARM에서는 6.6MiB의 RAM이 필요했다. 다른 자료를 보면 4MiB에서 구동한 사례도 있고, 아니면 아예 커널의 크기를 줄이는 게 아니라 XIP(Execute In Place)라고 해서 RAM으로 커널을 불러와서 실행하는 게 아.. 2021. 12. 5.
[LWN.net] Shrinking the kernel with link-time optimization Shrinking the kernel with link-time optimization [LWN.net] Shrinking the kernel with link-time optimization This article brought to you by LWN subscribersSubscribers to LWN.net made this article — and everything that surrounds it — possible. If you appreciate our content, please buy a subscription and make the lwn.net Link Time Optimization 바로 앞 글에서는 가비지 컬렉션으로 코드를 줄이는 법을 알아봤다. 하지만 이 방법은 코드의 수정도 .. 2021. 11. 5.