듀나인) 트위터 분석 방법에 대해 알고 계신 분 있으신가요?

어디에 물어봐야할지 몰라, 듀나인 하나.

 

 

제가 어떤 연구를 하고 있는데, 그 연구에 필요한 것이 트위터 분석입니다.

예를 들어서 A 라는 단어가 언급된 트윗 숫자가 2010년 1월 1일부터 오늘까지 날짜별로 몇개인지를 뽑아낼 수 있는 방법이 있을까요?

 

몇몇 분석 사이트에 가봤는데 모두 1주일 정도 기간을 제공하더군요.

근데 저는 "몇 년" 정도의 기간 동안 "아주 많은 단어수"의 자료가 필요합니다.

 

이런 분석 방법을 알고 계시는 분은 저에게 연락부탁드립니다.

크게 사례하겠습니다.

 

 

감사합니다.

 

 

 

 

뱀다리)

 

정봉주 전 의원 판결은 정말 안타깝네요.

짧은 소견을 보았을 때 이모씨는 psychopath 가 확실한 듯 합니다.

    • 트위터 API가지고 잠깐 장난쳐본 경험이 있긴한데...
      기본적으로 트위터 서버에 몇년치 트윗을 저장해두지 않는 걸로 알고있습니다.
      저장되어있는 트윗 갯수에 한계가 있거든요... 그러니까 분석을 하지 못하는 기본적인 이유가 몇년전 과거 트윗은 아예 서버에 존재하지 않아서 일수도있다는 이야기죠.. 이부분을 먼저 확인해보셔야할것 같구요.. 앞으로 몇년치를 분석하고 싶다고 하시면 그건 가능하겠지요.. 매일 오늘 올린 트윗에 대해서 자료를 축적하는건 가능할테니까요..
    • /레옴

      기업체(다음소프트)에 의뢰해서 2008년 부터 자료를 받아본 적은 있습니다. 아마 2008년 자료가 남아있다는 말이겠지요. 근데 기업체에 너무 많은 데이터를 요구하는 건 어렵더군요. 혹시 직접 이런 자료를 추출할 수 있는 방법이 있는지 궁금합니다.
    • 1. 트위터 검색 API로 제공되는 것이 일주일 단위고요. 트위터 본사 자체도 인덱싱등 여러가지 기술적인 문제로 전체 트위터의 내용을 관리하지 않는 것으로 알고 있습니다. 검색 API를 개선하고 있다고 이야기는 하는데...
      2. 이런 제한 없이 이용하려면 현시점부터 실시간으로 트위터에 갱신되는 내용을 받을 수 있는 Streaming API를 사용하셔서, 내용을 긁어모아야 합니다. (이것도 키워드, 장소등 몇가지 데이터로 제한을 두어야 하고요. 연구 차원에서 제한없이 스트리밍 할 수 있도록 제공하기도 했는데, 최근에는 제한이 꽤 까다로운 것으로 알고 있습니다.) 장기간에 트위터에 올라온 내용을 분석하는 연구는 대부분, 연구실 차원에서 수십대의 컴퓨터를 사용하여 실시간으로 트위터의 내용을 긁어모아서 일정 기간의 데이터를 확보한 후에 진행하는 것으로 알고 있습니다.
      3. 지금 시점에서 트위터의 과거 데이터가 필요하시다면 두가지 방법이 있는데, 하나는 트위터 데이터를 가공해서 돈을 받고 파는 업체를 이용하는 방법이 있습니다. 다른 하나는 일명 눈굴리기라고 개별 사용자 단위로 과거 트윗 내용에 대해서 검색이 가능하므로, 사용자를 돌아가면서 과거에 트윗한 내용을 다 모으고, 이것을 시간순으로 배열하면 어느정도 전체적인 내용이 파악가능할 것입니다. 이 방법도 사용자당 400개였던가...거슬러 올라갈 수 있는 트윗 개수에 한계가 있는 것으로 알고 있습니다.
      4. 프로그래밍을 하실줄 아신다면 "Mining the Social Web" 이라는 책이 트위터, 페이스북등 SNS의 데이터를 가공하는 방법에 대해 다루고 있으니 참고하세요.
      5. 3번 트위터 데이터를 가공해서 제공하는 업체에 관한 가이드로는 http://blog.tweetsmarter.com/twitter-search/10-ways-and-20-features-for-searching-old-tweets 이 글이 도움이 되실꺼 같네요.
    • 다음 같은 큰 기업체에서는 따로 트위터와 계약이 되어있어서 트위터 DB에 특별한 방법으로 접근하는지 그건 모르겠습니다. 그런게 가능하다면 정말 2008년 전체 자료 이런식으로 가져올 수 있을 수도 있겠죠..
      그런게 아니라면 (그리고 아마도 대부분의 트위터 분석 사이트들은) twitter api를 이용해서 데이터를 가져올 것 같습니다. https://dev.twitter.com/
      api를 사용해서 마구 데이터를 긁어오면 follower list와 following list를 이용해서 아마도 거의 대부분의 사용자의 twit을 긁어올 수 있을테고.. 분석하는 것도 가능하겠죠..
      이 경우 생각할 수 있는 한계 내지는 문제점이 있다면..
      1. 계정하나당 사용할 수 있는 api가 한시간당 300개 정도(? 부정확)로 제한이 걸려있다는 것. (계정을 여러개 만들면 되려나;;)
      2. 만약 긁어온 트윗을 조건없이 무조건 서버에 저장하고 본다면 내 서버가 터져나갈듯;; (트위터 수준의 서버 구축이 필요;;;)
      이 있을듯 합니다.
    • MoonTV님께서 더 잘써주셨네요~ 아이 부끄러워라; 호호호~ >_<
    • 레옴님, MoonTV님 감사합니다. 쉬운일이 아니군요. 기업체와 이야기를 해보는 수밖에 없을 것 같네요.
      애초에 가능한 분석방법은 없으니 답을 구할 수 없는 질문이었군요. 도움을 주셨으니 어떻게 사례를.
      밥이라도 한번 살 수 있습니다. 원하시면 쪽지를. (참고로 저는 남자입니다.)
    • 별일도 아닌데 사례는 괜찮고요. 최근 사회학쪽에서 트위터 내용으로 연구하는 것에 관심을 가지고, 얼마전 "한국사회학회 후기사회학대회"에서도 관련 내용으로 발표한 세션이 있는 것으로 알고 있습니다. 연구실 차원에서 이야기를 해보시는 것도 방법일수 있을꺼 같습니다. 왠지 아이디를 보니 관심이 있으실것도 같아서 http://www.sciencemag.org/content/333/6051/1878.full 사이언스에 실린 연구인데, 코넬대에서 트위터를 가지고 전세계 사람들의 일조량에 따른 기분 변화를 분석한 연구입니다. 좋은 결과 있기를 바라겠습니다.
    • '여보 오늘 어떤 남자가 나보고 밥사준다고 했어~' <-- 전 이걸로 충분합니다. ㅋㅋㅋㅋ (농담농담)
    • /MoonTV 아 감사합니다.
      /레옴 아 빵 터졌습니다.

게시판 2012

번호 제목 글쓴이 조회 날짜
[공지] 게시판 규칙, FAQ, 기타등등 462,407 01-31
[공지] 게시판 관리 원칙. 147,940 12-31
제 트위터 부계입니다. 3 122,151 04-01
130354 새해복 많이 받으세요 10 187 12-31
130353 아바타 3를 보고 유스포 2 192 12-31
130352 [핵바낭] 올해 잉여질 결산 잡담 14 334 12-31
130351 아바타: 불 과 재 보고 왔어요 짤막 소감 6 229 12-31
130350 [영화강추] '척의 일생' 8 249 12-31
130349 흑백요리사 2 8~10회, 싱어게인 4 탑 4 결정 6 285 12-31
130348 Lacombe Lucien(1974) 7 131 12-31
130347 [관리] 25년도 보고 및 신고 관련 정보. 15 324 12-31
130346 Isiah Whitlock Jr. 1954 - 2025 R.I.P. 2 138 12-31
130345 [왓챠바낭] 우편배달부 말고 '포스트맨은 벨을 두번 울린다' 잡담입니다 12 268 12-31
130344 [넷플] 말 많고 탈 많은 '대홍수' 드디어 봤습니다 14 453 12-30
130343 [반말주의] 다들 올해 고생 많았어!! 새해 모두 건강하고 복 터지길 바래!! 12 186 12-30