목록분류 전체보기 (29)
Real Late Starter
들어가며2020년에 데이터 분석가로 취업을 준비하며 경험 했던 일들을 적어 본다. 단순히 공부, 스펙 얘기 뿐만 아니라 그 때 느꼈던 감정들까지 적어 기록해본다. 두서 없이 적는 거라... 아무튼 두서 없을 것 같다...포항공대 인공지능연구원 인턴 (2020.1. - 2020.3) 1. 인턴 선발 과정 포스코 청년 AI Big Data 아카데미 8기를 고생 끝에 수료하고 운 좋게 연구소 인턴으로 근무 할 수 있는 기회가 생겼다. 어떤 기준으로 선발된지는 정확히 모르겠지만, 아카데미 때 부터 서포트 해주신 직원 분의 말로는 시험 성적과 성실성 그리고 교육 참여도 등을 기준으로 인턴을 선발했다고한다. 근데 나는 팀 프로젝트에 올인할려고 시험 공부는 거의 안했는데...? 다른 동기들 중에서는 정말 시험공부도 ..
유저 관련 지표 UV (User Value) : 유저의 고유 카운트 AU (Active User) : 접속한 유저 DAU (Daily Active User) : 일일 단위 게임에 접속한 유저 RU (Registered User) : 신규 유저 / 게임 설치 뿐만 아니라 계정 등록을 한 유저 DRU (Daily Registered User) : 일일 단위 계정 등록 유저 NPU (New Paid User) : 신규 구매(과금) 유저 NNPU : 신규 가입하여 신규 구매한 유저 RPU : 기존 가입 유저 중 구매이력이 없던 유저의 구매 전환 수 과금 관련 지표 PUR (Paid User Rate) : 접속 유저 대비 결제 유저 비율 NPUR (New Paid User Rate) : 접속 유저 대비 신규 결제..
오늘 Tableau 자격증 시험을 봤고 바로 합격과 함께 자격증을 획득하였습니다. Tableau 사용 역량에 대해 인증을 할 수 있는 Tablea Specialist 자격증 합격 후기를 알려드리도록 하겠습니다. 1. 자격증 정보 Tableau Specialist Certification은 태블로의 기초 역량을 인증할 수 있는 자격증입니다. 자격증 신청은 www.tableau.com/ko-kr/learn/certification/desktop-specialist 이 링크에서 할 수 있습니다. 시험 응시료는 100$ 이고 학생 인증을 하셨다면 80$에 시험을 응시할 수 있습니다. 얼마 전에는 코로나로 인해 이벤트?? 같이 할인을 했었는데 50$에 시험을 응시할 수 있었습니다. 때때로 반값 할인을 했던 경우도..
이번 포스트에서는 머신러닝 모델 중 분류 모델의 기본이라고 할 수 있는 결정 나무 모델에 대해 알아보겠습니다. 구조도가 잎과 가지로 구성된 나무 같다고해서 결정 나무라고 불린다고 합니다. 결정나무(Decision Tree)란? 설명변수들의 규칙, 관계, 패턴 등으로 관심 대상인 목표변수를 분류하는 나무 구조의 모델을 만들고, 설명변수의 값을 생성된 모델에 입력하여 목표변수를 분류 / 예측하는 지도학습 기법입니다. 간단히 말하자면 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 분류 규칙을 트리(Tree) 형태로 만드는 것입니다. 결정나무는 목표변수에 영향을 주는 설명변수를 탐색하고 해당 설명변수의 최적 분리기준을 제시합니다. 활용 예시 그렇다면 이 결정나무는 어떠한 상황에 활용되는지 살펴보겠습니다. 분..
근래에 가장 큰 이슈라고 할 수 있는 코로나 바이러스에 대한 프로젝트입니다. 국내에서는 2020년 초부터 국내확진자가 확인되기 시작해서 여러가지 집단감염 사태를 통해 확진자가 급증했습니다. 현재는 감염이 많이 줄고 사회적 거리두기에서 생활 속 거리두기로 변경되었는데요. 물론, 현 시점에서 이태원 클럽 집단 감염으로 인해 국내 확진자 현황이 어떻게 될지는 의문입니다. 국내 감염이 줄면서 중요하게 봐야할 것은 해외로 부터 유입되는 감염사례입니다. 해외 유입까지 완벽하게 관리할 수 있다면 국내 코로나를 종식시킬 수 있습니다. 해외유입확진자를 예측하여 미리 대비를 한다면 확실한 예방이 가능할 것 입니다. 그럼 시작해보도록 하겠습니다. 프로젝트 목표 해외유입확진자에 대한 시계열(Time-Series) 데이터를 사..
위치 추정? 데이터를 분석할 때, 데이터들이 표현하는 변수들을 수많은 값을 갖습니다. 데이터를 살펴보는 가장 기본적이고 기초적인 방법은 각 변수를 대표할 수 있는 값을 구하는 것 입니다. 이것을 '대푯값(typical value)'라고 합니다. 변수의 대부분의 값들이 어디쯤에 위치하는지를 알아보는 중심경향성을 나타내는 추정값입니다. 중요 개념정리 평균(mean) 가중평균(weighted mean) : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값 중간값(median) 가중 중간값(weighted median) : 데이터를 정렬한 후, 각 가중치 값을 더할 때, 총합의 중간이 위치하는 데이터 값 절사평균(trimmed median) : 정해진 개수의 극단값(extreame value)을 제외한 나머..
2019/12/23 - [Project/인스타그램 크롤링 프로젝트] - 인스타그램 크롤링을 통한 분석으로 나만의 아이디어 구상하기 인스타그램 크롤링을 통한 분석으로 나만의 아이디어 구상하기 1. 프로젝트 개요 이번 포스트는 인스타그램 크롤링을 통해서 내가 원하는 분야를 분석하고 분석결과를 토대로 나만의 아이디어를 구상해보는 프로젝트입니다. 가장 인기있는 SNS의 데이터를 수집하고 간단한 분.. data-panic.tistory.com 이전에 올렸던 포스트가 저의 블로그에서 가장 조회수가 많은 포스트였습니다. 생각지도 못하게 많은 관심을 받았는데 다음 포스트를 빨리 업로드하지 못해서 죄송하고 감사합니다. 이번 포스트에서는 저번 포스트에 이어 내가 원하는 검색어를 통해 검색한 결과들의 태그를 수집하고 저장하..
보이어-무어 알고리즘 - 오른쪽에서 왼쪽으로 비교, 대부분의 상용 소프트웨어에서 채택하고 있는 알고리즘입니다. - 패턴에 오른쪽 끝에 있는 문자가 불일치하고, 이 문자가 패턴 내에 존재하지 않는 경우, 이동거리는 패턴의 길이 만큼이 됩니다. - M은 전체 문자열이고 N이 찾으려는 문자열이라고 할 때.시간 복잡도는 일반적으로 O(n) 이하이고 최악의 경우에는 O(MN)가 됩니다. """ 코드 출처 : https://mungto.tistory.com/124 """ #문자열 검색하는 보이어 무어 알고리즘 def boyer_moore(pattern, text): #길이를 자주쓰므로 길이를 받아둔다. M = len(pattern) N = len(text) i = 0 #반복은 최대 긴텍스트 길이 - 작은텍스트 길이..