독서

[AI를 위한 필수 수학] 2. 데이터, 데이터, 또 데이터

난쟁이 개발자 2024. 11. 23. 23:23
반응형

ChatGPT가 생성한 그림

이 챕터에서는 AI에서 데이터가 얼마나 중요한지를 강조한다. 또한 구조화된 데이터와 비구조화된 데이터, 선형 모델과 비선형 모델, 실제 데이터와 시뮬레이션된 데이터, 결정적 함수와 확률 변수, 이산 분포와 연속 분포, 사전 확률과 사후 확률, 가능도 함수 등 혼동하기 쉬운 개념의 차이점을 명확히 한다. 또한 세부 사항을 다루지 않고 AI에 필요한 확률 및 통계에 대한 로드맵을 제공하며 가장 널리 사용되는 확률 분포를 소개한다.

데이터의 중요성

  • 데이터는 AI 시스템의 핵심. AI는 주로 데이터에서 학습하고 패턴을 식별하여 결론을 도출하고 결정을 내린다.
  • 데이터 과학과 AI라는 용어가 종종 같은 의미로 사용되지만, 데이터 과학은 AI의 핵심 구성 요소이지만 AI 자체와는 동일하지 않는다.

실제 데이터와 시뮬레이션된 데이터

  • 실제 데이터 : 실제 세계에서 수집되며, 종종 예상치 못한 패턴을 보여줌. 예를 들어 키와 몸무게 데이터 세트에서 키와 몸무게 사이의 관계는 처음에는 명확하지 않을 수 있다. 추가 조사를 통해 데이터 내에 숨겨진 패턴을 밝혀낼 수 있다.
  • 시뮬레이션된 데이터 : 가정된 모델 또한 함수를 기반으로 생성된다. 예를 들어 키와 몸무게의 관계가 선형이라고 가정하면 시뮬레이션된 데이터 세트는 이 선형 관계를 반영한다.

수학 모델 : 선형 모델과 비선형모델

  • 선형 모델 : 변수 사이의 간단한 관계를 가정한다. 예를 들어, 키에 대한 몸무게 선형 모델은 몸무게가 키에 따라 직접적으로 증가한다고 제안한다.
  • 비선형 모델 : 변수 사이의 더 복잡한 관계를 허용한다. 실제 데이터는 종종 비선형 관계를 나타내며, 이러한 관계를 정확하게 모델링 하기 위해 더 정교한 모델이 필요하다.

결정적 함수와 확률 변수

  • 결정적 함수 : 주어진 입력에 대해 항상 동일한 출력을 생성한다.
  • 확률 변수 : 가능한 여러 값을 가질 수 있으며, 각 값은 연관된 확률을 갖는다. AI에서 데이터의 불확실성과 무작위성을 정량화하기 위해 확률 변수를 사용한다.

확률 분포

  • 확률 분포 : 확률 변수를 취할 수 있는 다양한 값의 확률을 설명한다.
  • 이산 확률 분포 : 특정 값 집합에서 확률을 설명한다. 예를 들어 주사위 굴리기의 결과는 이산 확률 분포로 나타낼 수 있다.
  • 연속 확률 분포 : 연속적인 값 범위에서 확률을 설명한다. 예를 들어 인구의 기는 연속 확률 분포로 모델링할 수 있다.

AI에 중요한 확률 분포

  • 균등 분포 : 모든 결과의 확률이 같은 경우
  • 정규 분포 : 종 모양 곡선으로 특징지어지는 연속 분포로, 많은 자연 현상을 모델링 하는 데 사용된다.
  • 이항 분포 : 일련의 독립적인 시행에서 성공 횟수의 확률을 설명하며, 각 시행에는 성공 또는 실패의 두 가지 가능한 결과가 있다.
  • 포아송 분포 : 특정 시간 또는 장소에서 발생하는 이벤트 수의 확률을 설명한다.

베이즈 정리

  • 베이즈 정리 : 새로운 증거를 고려하여 사건의 확률을 업데이트하는 방법을 제공한다. 

A/B 테스트

  • A/B 테스트 : 분할 테스트라고도 불린다. 이는 데이터 과학자에게 중요한 주제이다. 수많은 회사가 참여, 수익 및 고객 만족도를 높이기 위해 A/B 테스트 데이터를 사용한다. Microsoft, Amazon, LinkedIn, Google 등은 매년 수천 건의 A/B 테스트를 수행한다.

 

 

반응형