์ฌ์ฉ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
1) pandas
- ์์ /CSV์ฒ๋ผ ํ ํํ์ ๋ฐ์ดํฐ(DataFrame) ๋ฅผ ๋ค๋ฃจ๋ ๋ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ, ์ ๋ฆฌ, ๋ณํ, ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฑ์ ํ์
- ์: CSV ๋ถ๋ฌ์์ ํ์ํ ์ปฌ๋ผ๋ง ๋ฝ๊ณ ๊ฐ๊ณต ๊ฐ๋ฅ
2) numpy
- ์ํ ์ฐ์ฐ, ๋ฐฐ์ด ๊ณ์ฐ์ ๋น ๋ฅด๊ฒ ์ํํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ๋ค์ฐจ์ ๋ฐฐ์ด(ndarray) ๊ธฐ๋ฐ
- pandas, matplotlib ๋ฑ ๊ฑฐ์ ๋ชจ๋ ๋ฐ์ดํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ธฐ๋ฐ
3) scipy
- numpy ๊ธฐ๋ฐ ํ์ฅ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ๊ณผํ·๊ณตํ ๊ณ์ฐ ํนํ
- ์ ํ๋์, ์ต์ ํ, ์ ํธ์ฒ๋ฆฌ, ํต๊ณ ๊ธฐ๋ฅ ์ ๊ณต
- ์: ๊ณก์ ํผํ , ์ต์ ํ ๋ฌธ์ ํด๊ฒฐ, ํ๊ท/ํต๊ณ ํจ์ ๋ฑ
4) statsmodels
- ์ ๋ฌธ ํต๊ณ ๋ชจ๋ธ๋ง ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ํ๊ท ๋ถ์, ์๊ณ์ด ๋ถ์(ARIMA), ํต๊ณ ํ ์คํธ(T-test, ANOVA ๋ฑ)
- ํต๊ณ ์ ๋ณด(๊ณ์, ์ ์์ฑ p-value)๊น์ง ์ ํํ ๋ณด๊ณ ์ถ์ ๋ ์ฌ์ฉ
5) matplotlib
- ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐ์ดํฐ ์๊ฐํ(๊ทธ๋ํ) ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ๋ผ์ธ ๊ทธ๋ํ, ๋ฐ ๊ทธ๋ํ, ์ฐ์ ๋ ๋ฑ์ ๊ทธ๋ฆด ๋ ์ฌ์ฉ
- seaborn์ ๊ธฐ๋ฐ์ด ๋๊ธฐ๋ ํจ
6) seaborn
- matplotlib์ ๋ ์์๊ณ ๊ฐ๋จํ๊ฒ ๋ง๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ๊ณ ๊ธ ํต๊ณ ์๊ฐํ(ํํธ๋งต, ๊ด๊ณ๋, boxplot ๋ฑ)์ ์ ํฉ
7) tqdm
- ๋ฐ๋ณต๋ฌธ์ ์งํ๋ฅ (progress bar) ํ์
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ, ํ์ผ ๋ค์ด๋ก๋ ๋ฑ ์ค๋ ๊ฑธ๋ฆฌ๋ ์์ ์์ ์งํ ์ํฉ ํ์ธ ๊ฐ๋ฅ
8) bin/pip install openpyxl
9) pip install thefuzz
pip install thefuzz
ํ์ฌ์ ์ ๊ทํํ์(re)์ ์คํ๊ฐ ํ๋๋ง ์์ด๋ ๋ฐ์ดํฐ๋ฅผ ๋์น ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Levenshtein Distance(ํธ์ง ๊ฑฐ๋ฆฌ) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ thefuzz ๋ผ์ด๋ธ๋ฌ๋ฆฌ
์ํ ๋ฐฉ๋ฒ:
- pip install thefuzz ์ค์น
- ๊ณผ๋ชฉ๋ช ์ด๋ ํค์๋๋ฅผ ์ถ์ถํ ๋ 100% ์ผ์น๊ฐ ์๋, ์ ์ฌ๋ ์ ์(์: 80์ ์ด์)๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋จํฉ๋๋ค.