본문 바로가기

혼공

혼공머신 1차시 _ 데이터 다루기

Ch.01-1 인공지능과 머신러닝, 딥러닝

인공지능 - 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술 ( 강인공지능 / 약인공지능 )

머신러닝 - 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야 ( 대표적인 라이브러리 : 사이킷런 )

딥러닝 - 인공 신경망 ( 대표적인 라이브러리 : 텐서플로, 파이토치 )

 

Ch.01-2 코랩과 주피터 노트북

코랩 - 구글 계정이 있으면 누구나 사용할 수 있는 웹 브라우저 기반의 파이썬 코드 실행 환경

노트북

 - 코랩의 프로그램 작성 단위

 - 일반 프로그램 파일과 달리 대화식으로 프로그램을 만들 수 있어 데이터 분석이나 교육에 적합

 - 코드, 코드의 실행 결과, 문서를 모두 저장하여 보관 가능

구글 드라이브

 - 구글이 제공하는 클라우드 파일 저장 서비스

 - 코랩에서 만든 노트북은 구글 드라이브의 'Colab Notebooks'폴더에 저장

 

Ch.01-3 마켓과 머신러닝

특성 - 데이터를 표현하는 하나의 성질

훈련 - 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정 ( 사이킷런의 fit() 메서드 )

k-최근접 이웃 알고리즘

 - 가장 간단한 머신러닝 알고리즘 중 하나

 - 규칙을 찾기보다는 전체 데이터를 메모리에 가지고 있는 것

모델

 - 머신러닝 프로그램에서 알고리즘이 구현된 객체

 - 종종 알고리즘 자체를 의미

정확도

 - 정확한 답을 몇개 맞혔는지 백분율로 나타낸 값

 - 정확도 = (정확히 맞힌 개수) / (전체 데이터 개수)

 

Ch.02-1 훈련 세트와 테스트 세트

지도 학습 - 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용 ( k-최근접 이웃 )

비지도 학습

 - 타깃 데이터 없음

 - 무엇을 예측하는 것이 아니라 입력 데이터에서 어떤 특징을 찾는데 활용

훈련 세트

 - 모델을 훈련할 때 사용하는 데이터

 - 보통 훈련 세트가 클수록 좋음

 - 테스트 세트를 제외한 모든 데이터

테스트 세트 - 전체 데이터에서 20~30%를 테스트 세트로 사용 ( 전체 데이터가 크면 1%로도 충분할 수 있음 )

 

Ch.02-2 데이터 전처리

데이터 전처리 - 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계 ( 많은 시간 소모되기도 함 )

표준점수

 - 훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나

 - 표준점수 = 특성의 평균을 빼고 표준편차로 나누기

 - 반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 함

브로드캐스팅 - 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능

'혼공' 카테고리의 다른 글

혼공머신 3차시 _ 다양한 분류 알고리즘  (0) 2024.07.15
혼공머신 2차시 _ 회귀 알고리즘과 모델 규제  (0) 2024.07.14
혼공파 6차시  (0) 2024.02.13
혼공파 5차시  (0) 2024.02.04
혼공파 4차시  (1) 2024.01.28