모두의 AI
머신러닝AI논문

배우기

  • 논문리뷰
  • 이론·수학 기반
    • 2026
      • CPAL
        • Kernel von Mises Formula of the Influence Function
  • 모델 최적화·경량화
    • PolarQuant: Quantizing KV Caches with Polar Transformation
  • 핵심 아키텍처·알고리즘
    • 2026
      • CPAL
        • AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • 예측 모델링·정형 데이터
  • AutoML·ML 파이프라인
    • 2025
      • ICML
        • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML
      • ICLR
        • SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning
  • 컴퓨터 비전·멀티모달
  • NLP·LLM
    • 2026
      • CPAL
        • The Curse of Depth in Large Language Models
  • 신뢰성·XAI
  • 데이터 중심·특성 공학
  • 엣지·웹·서비스
  • 도메인 특화 응용
🏅내 업적
배우기/AI논문/이론·수학 기반/CPAL2026/Kernel von Mises Formula of the Influence Function

Kernel von Mises Formula of the Influence Function

이 논문은 영향 함수(IF)를 모델마다 손으로 유도해야 했던 기존 병목을, 커널과 스펙트럴 전개를 이용한 데이터 기반 계산 절차로 바꿉니다. 특히 점질량(point-mass) 섭동에서 자주 생기는 수치 불안정(ill-conditioned) 문제를 완화하고, 정규화된 추정기를 통해 실제 계산 가능성과 이론적 일관성(Consistency)을 함께 확보한 점이 핵심 기여입니다.
PDF원문 논문 PDF 보기↗
[초록 & 서론] 3줄 요약 + 문제 제기
① 기존 영향 함수 계산은 모델이 바뀔 때마다 수학 유도를 다시 해야 해서 자동화가 어렵습니다.
② 점질량(point-mass)으로 분포를 찌르는 고전 방식은 계산이 뾰족해져 수치적으로 불안정해지기 쉽습니다.
③ 논문은 데이터를 여러 개의 "부드러운 패턴"으로 나눠 각각의 영향을 계산한 뒤 다시 합쳐서, 손계산 대신 컴퓨터로 안정적으로 영향 함수를 구할 수 있게 만듭니다.
일상 비유: 아주 복잡한 마라탕 레시피가 있을 때, 건두부 한 조각이 국물 맛에 얼마나 영향을 주는지 알고 싶다고 해봅시다. 기존 방식은 냄비를 바늘로 콕 찌르듯 거칠게 자극해서 맛 변화를 재기 때문에 값이 출렁이기 쉽습니다. 이 논문은 바늘 대신 부드러운 물결처럼 여러 방향으로 살짝 흔들어 보고, 그 반응을 합쳐서 "어떤 재료가 얼마나 맛을 바꿨는지"를 더 안정적으로 계산하는 절대 미각 머신에 가깝습니다.
[배경 지식] 꼭 필요한 기초 개념
영향 함수와 스펙트럴 공식을 읽으려면, 아래 다섯 가지를 정의 → 직관(비유) → 본문에서 왜 등장하는지 순으로 잡는 것이 좋습니다.
- 영향 함수(IF, ψP\psi_PψP​)
정의: 데이터 생성 분포 PPP를 아주 조금 바꿨을 때, 관심 있는 목표량 θ(P)\theta(P)θ(P)(예: 위험 최소화 해, 평균, 일반화 오차)가 얼마나 민감하게 변하는지를 기술하는 함수입니다. 한 점 xxx에 대해 ψP(x)\psi_P(x)ψP​(x)는 "그 점이 분포에 가하는 방향으로 섭동을 줄 때 θ\thetaθ가 어떻게 반응하는가"를 요약합니다.
직관: 회귀에서 쿡 거리가 특정 관측치를 빼거나 넣을 때 피팅이 얼마나 흔들리는지 보는 것과 같은 맥락이지만, 대상이 유한차원 파라미터 하나가 아니라 분포 전체에 의존하는 함수형 목표일 수 있다는 점이 다릅니다.
본문: 고전 von Mises 식은 종종 점질량으로 PPP를 찔러 넣는데, 그러면 스펙트럼이 뾰족해져 수치적으로 ill-conditioned 해지기 쉽습니다. 논문은 IF를 부드러운 모드 합성으로 다시 쓰려 합니다.
- 함수형 파라미터 θ(P)\theta(P)θ(P))
정의: 입력이 "표본 nnn개"가 아니라 확률 분포 PPP 자체이고, 출력은 실수 벡터 등 관심량입니다. 예: PPP 하에서의 평균, ERM 해 arg⁡min⁡EP[ℓ]\arg\min \mathbb{E}_P[\ell]argminEP​[ℓ] 등.
직관: "데이터가 이런 분포에서 온다"는 전제가 바뀌면 모델이 추구하는 목표도 바뀌는 문제입니다. IF는 그 분포 수준 민감도를 다룹니다.
본문: 경로 PtjP_t^jPtj​를 따라 θ\thetaθ를 미분하는 항이 등장하는 이유가 여기 있습니다.
- 커널 / RKHS(재생 커널 힐베르트 공간)
정의: 커널 k(x,x′)k(x,x')k(x,x′)는 특징 공간에서의 내적을 재현하고, RKHS는 그 커널이 정의하는 매끄럽고 노름이 제어된 함수들의 공간입니다.
직관: "아무 함수나" 허용하면 뾰족한 섭동에 반응이 폭주하기 쉽습니다. RKHS는 너무 들쭉날쭉하지 않은 반응만 허용해 계산·해석을 안정시키는 VIP 클럽 같은 제약입니다.
본문: 거친 점질량 대신 커널이 유도하는 부드러운 방향으로 분포를 흔들며 IF를 추정합니다.
- 스펙트럴 분해와 직교기저 eje_jej​
정의: 적당한 연산자(또는 커널에서 오는 적분연산자)에 대해 고윳값 σj\sigma_jσj​·고유함수 eje_jej​를 구하면, 임의의 변화를 ∑j(⋯ ) ej\sum_j (\cdots)\,e_j∑j​(⋯)ej​ 꼴로 모드별로 쪼갠 뒤 다시 합칠 수 있습니다. eje_jej​들은 직교(정규직교)로 서로 중복 설명을 줄입니다.
직관: 신호를 푸리에 모드로 나누듯, "데이터 변화"를 저주파·고주파 성분으로 분해해 각각의 민감도를 본 뒤 합치는 그림입니다.
본문: Theorem 3.3의 ∑j=1r\sum_{j=1}^r∑j=1r​ 구조와 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​ 가중이 바로 이 해석을 수식으로 고정한 것입니다.
- 경로미분(pathwise derivative)
정의: 분포를 한 번에 뜯고 붙이지 않고, 매개변수 ttt로 매끄럽게 이어진 경로 PtjP_t^jPtj​를 따라 θ(Ptj)\theta(P_t^j)θ(Ptj​)를 보고 ddtθ(Ptj)∣t=0\left.\frac{d}{dt}\theta(P_t^j)\right|_{t=0}dtd​θ(Ptj​)​t=0​를 취합니다.
직관: "순간적으로 충격을 주는 것"이 아니라 아주 천천히 기울기를 바꾸는 것에 대한 반응을 재는 미분입니다. 수치적으로는 ODE/센서티비티 분석과 비슷한 감각입니다.
본문: 점질량의 급격한 섭동 대신 모드 방향의 부드러운 경로를 쓰기 때문에, 경로미분 항이 스펙트럴 공식의 심장입니다.
[제안 방법: 핵심 제안]
논문은 점질량 섭동을 직접 쓰지 않고, 고유함수 방향 경로 섭동 PtjP_t^jPtj​를 따라 θ\thetaθ의 경로미분을 계산해 IF를 재구성합니다. 핵심 정리는 Theorem 3.3 (Spectral von Mises formula)이며, 모드별 기여를 합산하는 형태로 IF를 표현합니다. 여기에 정규화 로딩 λ\lambdaλ를 넣어 작은 고윳값 모드의 과증폭을 억제하고, 계산 안정성을 높입니다.
[제안 방법: 핵심 수식 해부]
핵심 식은 다음과 같습니다.
ψP,λ(x)=lim⁡r→∞∑j=1r11+2λ/σj[ddtθ(Ptj)]t=0ej(x)\psi_{P,\lambda}(x)=\lim_{r\to\infty}\sum_{j=1}^{r}\frac{1}{1+2\lambda/\sigma_j}\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}e_j(x)ψP,λ​(x)=limr→∞​∑j=1r​1+2λ/σj​1​[dtd​θ(Ptj​)]t=0​ej​(x)
이 식을 아주 쉽게 읽으면, 입력 데이터 xxx가 모델 출력에 주는 총 영향력을 한 번에 구하지 않고, 여러 개의 부드러운 파동 모드로 나눠서 각각의 영향력을 계산한 뒤 다시 더하는 방식입니다. 여기서 ∑j=1r\sum_{j=1}^{r}∑j=1r​는 바로 모드별로 쪼개서 더한다는 뜻이고, 실제 계산에서는 무한합을 끝까지 계산할 수 없기 때문에 상위 rrr개 모드까지만 사용합니다. 그래서 rrr은 계산량과 정확도 사이 균형을 잡는 근사 차수로 이해하면 됩니다.
식의 가운데에 있는 [ddtθ(Ptj)]t=0\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}[dtd​θ(Ptj​)]t=0​는 그 모드 방향으로 분포를 아주 살짝 움직였을 때 모델 목표값 θ\thetaθ가 얼마나 민감하게 반응하는가를 나타내는 순간 기울기입니다. 이 값이 크면 그 모드는 모델을 크게 흔든다는 의미입니다. 여기에 ej(x)e_j(x)ej​(x)가 곱해지는데, 이 항은 입력 xxx가 해당 모드 성분을 얼마나 많이 가지고 있는지를 나타냅니다. 즉, 모델이 그 모드에 민감하고 입력 xxx도 그 모드 성분이 크면 영향 기여가 커집니다.
앞의 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​는 안전장치(감쇠 계수)입니다. 작은 고윳값 σj\sigma_jσj​를 가진 모드는 보통 노이즈에 민감해 계산을 불안정하게 만들기 쉬운데, 이 계수가 그런 모드의 기여를 자동으로 줄여줍니다. 특히 λ\lambdaλ를 키우면 감쇠가 더 강해져 결과가 더 부드러워지고 분산은 줄어들지만, 너무 크게 잡으면 중요한 신호까지 줄여 편향이 늘 수 있습니다. 그래서 이 식의 핵심은 모드별 민감도는 살리고, 불안정한 모드는 정규화로 눌러서, 전체 영향 함수를 안정적으로 재구성한다로 정리할 수 있습니다.
기호와 수식 읽기 (같은 「핵심 수식 해부」 절 안에서)
별도 박스 없이, 스펙트럴 공식에 쓰인 기호를 한 번에 짚습니다.
- θ(P)\theta(P)θ(P): 데이터 분포 PPP를 넣으면 모델이 관심 있는 통계량(예: 평균, 위험도, 계수)을 출력하는 함수형 목표값입니다. 즉, 입력이 '샘플 한 개'가 아니라 '분포 자체'라는 점이 핵심입니다.
- ψP\psi_PψP​: 영향 함수(Influence Function)로, 분포를 아주 미세하게 바꿨을 때 θ(P)\theta(P)θ(P)가 얼마나 변하는지 알려주는 민감도 함수입니다. 직관적으로는 '데이터 한 점의 영향력 지도'입니다.
- ψP,λ(x)=lim⁡r→∞∑j=1r11+2λ/σj[ddtθ(Ptj)]t=0ej(x)\psi_{P,\lambda}(x)=\lim_{r\to\infty}\sum_{j=1}^{r}\frac{1}{1+2\lambda/\sigma_j}\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}e_j(x)ψP,λ​(x)=limr→∞​∑j=1r​1+2λ/σj​1​[dtd​θ(Ptj​)]t=0​ej​(x): 논문의 핵심 스펙트럴 von Mises 공식입니다. 여러 고유모드의 영향도를 합성해 최종 영향 함수를 만듭니다.
- PtjP_t^jPtj​: jjj번째 고유함수 eje_jej​ 방향으로 크기 ttt만큼 분포를 부드럽게 변형한 경로 분포입니다. 기존의 뾰족한 점질량 섭동 대신 매끄러운 경로를 써서 수치 안정성을 높입니다.
- [ddtθ(Ptj)]t=0\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}[dtd​θ(Ptj​)]t=0​: 경로미분(pathwise derivative)입니다. t=0t=0t=0 근방에서 해당 방향으로 아주 조금 움직였을 때 θ\thetaθ의 순간 변화율을 뜻합니다.
- 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​: 정규화 감쇠 계수입니다. σj\sigma_jσj​가 작은(노이즈에 민감한) 모드일수록 더 강하게 억제되어 결과 폭주를 막습니다.
- rrr: 저랭크 근사 차수입니다. 실제 계산에서는 무한합 대신 상위 rrr개 모드까지만 사용해 계산량을 줄입니다.
- λ\lambdaλ: 정규화 강도입니다. 작으면 분산이 커질 수 있고, 크면 편향이 커질 수 있어 편향-분산 균형을 맞추는 하이퍼파라미터로 해석합니다.
- σj\sigma_jσj​: jjj번째 고윳값입니다. 각 모드의 정보량/에너지 크기를 나타내며, 감쇠 계수와 결합해 모드별 반영 비율을 결정합니다.
- ej(x)e_j(x)ej​(x): jjj번째 고유함수 값입니다. 입력 xxx가 해당 모드 패턴에 얼마나 정렬되는지를 나타내는 좌표 역할을 합니다.
- [ddtθ(Ptj)]t=0ej(x)\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}e_j(x)[dtd​θ(Ptj​)]t=0​ej​(x): '가속 페달' 항으로 볼 수 있습니다. 모델이 그 모드에 민감하고(ddt\frac{d}{dt}dtd​ 큼), 입력 xxx가 그 모드 성분을 많이 가지면(ej(x)e_j(x)ej​(x) 큼) 영향 기여가 커집니다.
- ∑j=1r(⋯ )\sum_{j=1}^{r}(\cdots)∑j=1r​(⋯): 단일 자극이 아니라 다중 모드의 누적 반응을 합산하는 구조입니다. 그래서 점질량 기반 단일 섭동보다 더 안정적으로 전체 영향도를 재구성할 수 있습니다.
[실험 및 결과]
논문은 가장 기본적인 함수형 목표인 평균(Mean) 문제를 중심으로 장난감 몬테카를로 실험을 구성해, 제안한 스펙트럴 추정기가 실제 계산 환경에서 어떻게 동작하는지 보여줍니다. 핵심 확인 포인트는 두 가지입니다.
첫째, 정규화 강도 λ\lambdaλ에 따른 편향-분산 이동입니다. λ\lambdaλ가 너무 작으면 작은 고윳값 모드까지 강하게 반영되어 추정값이 요동(분산 증가)할 수 있고, 반대로 λ\lambdaλ가 너무 크면 중요한 모드까지 과도하게 눌려 참값에서 멀어지는 편향이 커질 수 있습니다. 즉, 논문이 말하는 감쇠 계수 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​는 실제로 계산 안정성과 정보 보존 사이의 균형 손잡이 역할을 합니다.
둘째, 표본 수 nnn 증가에 따른 수렴성(Consistency)입니다. 샘플이 늘어날수록 제안 추정기가 이론적 영향 함수에 점점 가까워지는 경향을 보이며, 이는 논문에서 제시하는 이론 결과(예: Theorem 4.7)와 같은 방향입니다. 쉽게 말해 데이터가 충분해질수록 "컴퓨터가 계산한 IF"가 "수학적으로 기대되는 IF"에 수렴한다는 점을 실험적으로도 확인한 것입니다.
추가로 실무 관점에서 보면, 이 결과는 단순히 장난감 예제가 잘 맞았다는 의미를 넘어, 정규화 파라미터 선택을 통해 모델 민감도 분석을 안정적으로 재현 가능하게 만들 수 있다는 신호입니다. 즉, 어떤 데이터가 모델을 흔드는지 분석할 때 결과가 매번 들쭉날쭉하지 않고, 데이터가 커질수록 더 신뢰할 수 있는 방향으로 가는 추정기라는 점이 중요합니다.
[결론 및 한계점]
이 논문의 가장 큰 의의는 영향 함수 계산을 "연구자 개인의 수기 유도 작업"에서 "데이터와 알고리즘으로 반복 가능한 계산 절차"로 옮겼다는 데 있습니다. 기존에는 모델이 조금만 바뀌어도 IF를 다시 유도해야 해서 비용이 컸지만, 논문은 커널 기반 스펙트럴 전개와 경로미분 조합으로 공통 계산 프레임을 제시합니다. 특히 Nyström 기반 고유분해를 사용해 모드(σj,ej\sigma_j, e_jσj​,ej​)를 추정하고, 모드별 민감도를 정규화 가중합으로 재구성하는 흐름은 실무 구현 관점에서 매우 명확한 파이프라인입니다.
실무적으로는 세 가지 활용 가치가 큽니다. 첫째, 예측에 과도한 영향을 주는 데이터 포인트를 찾아 라벨 오류나 이상치를 우선 점검할 수 있습니다. 둘째, 모델 업데이트 전후로 어떤 샘플의 영향력이 얼마나 바뀌었는지 비교해 디버깅 지표로 사용할 수 있습니다. 셋째, 설명가능 AI(XAI)나 강건 학습(robust ML) 맥락에서 "이 모델이 왜 이런 결정을 했는가"를 데이터 영향 관점으로 해석하는 기반을 제공합니다.
다만 논문이 솔직하게 남겨둔 한계도 분명합니다. 가장 대표적인 것은 수렴 속도(rate)의 정밀 분석이 아직 열려 있다는 점입니다. 일관성(결국 맞는 값으로 간다)은 보였지만, "얼마나 빠르게" 가까워지는지는 별도 연구가 필요합니다. 또 하나는 경로미분 계산의 완전 자동화(autodiff 통합)입니다. 이론적으로는 경로미분 항이 핵심이지만, 이를 다양한 모델에서 안정적으로 자동 계산하는 엔지니어링 계층은 여전히 발전 여지가 큽니다. 따라서 이 논문은 "문제를 완전히 끝낸 최종 답"이라기보다, IF 계산을 실용화하는 매우 강력한 기준점이자 다음 연구를 여는 출발점으로 보는 것이 가장 정확합니다.

도식화: 한계와 제안의 극명한 대비

왼쪽 한 덩어리는 점질량·스파이크에서 민감도가 크게 출렁이는 전형적 한계를, 오른쪽 두 단계는 모드 분해와 정규화 가중합으로 곡선을 부드럽고 억제 가능하게 재구성하는 제안을 한 화면에 붙였습니다. 색과 구역을 나눠 무엇이 바뀌는지 바로 대비되게 했습니다.
기존 한계

점질량 · 스파이크 → 민감도 폭주 · 불안정

1) 기존 점질량 섭동
spike로 인해 민감도 진동이 큼
VS
논문 제안

스펙트럴 분해 → 정규화 재구성 → 안정적 IF

2) 스펙트럴 분해
모드별 (σj,ej)(\sigma_j, e_j)(σj​,ej​) 로 분해
작은 σj\sigma_jσj​ 모드는 가중치로 감쇠
→
3) 정규화 재구성
가중합으로 IF를 부드럽게 복원
11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​가 노이즈 모드 억제

관련 AI논문

  • - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML
  • - AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • - The Curse of Depth in Large Language Models