default_top_notch
default_news_top
ad37
default_news_ad1
default_main_ad3

'조국 기사 100만건' 네이버 검색 오류인가, 조작인가

기사승인 2019.09.14  12:21:06

공유
default_news_ad2

- 데이터분석으로 본 네이버 '조국 기사 검색량' 문제

조국 법무부장관 후보자에 대한 기사가 과거에 비해 너무 많이 나왔다는 주장이 더불어민주당에서 제기됐다. 9월 4일 홍익표 더불어민주당 수석대변인은 3주간 70만건의 조국 기사가 나왔다고 주장했다. 6일 조국 청문회에서 이철희 의원은 118만건의 조국 기사가 나왔다며 세월호 24만건, 최순실 11만9천건과 비교해도 과도하게 많다고 주장했다.

그런데 일부 네티즌들은 118만건 혹은 80만건보다 기사가 줄어들었다며, 언론들이 증거인멸을 위해 조직적으로 조국 기사를 삭제하고 있다는 주장을 펼쳤다. 언론이 기사를 삭제중이라는 네티즌의 주장은 정말 신뢰할만한 것인지, 그리고 문제가 된 네이버 기사량은 다른 데이터와 비교해 얼마나 정확한지 확인해 볼 필요가 있다. 앞으로 이런 사례가 반복될 때마다 언론 기사 조작 의혹과 삭제 의혹이 반복될 수 있기 때문이다.

이에 대해 반론도 제기됐다. 뉴데일리중앙일보연합뉴스JTBC미디어오늘 등 여러 언론은 실제 조국 기사가 그 정도로 많지 않으며 집계 오류이거나, 착시 현상이라고 밝혔다.  1990년부터 '조국'이라는 키워드로 나온 기사를 모두 합해야 100만건에 달한다.  검색 시점에 따라 검색량이 들쑥날쑥했고, 텍스트 기사가 아닌 사진기사 등을 모두 합쳐도 100만건에는 미달했다는 것이다. 정렬 방식을 최신순이나 관련순으로 바꾸기만 해도 기사량이 바뀌는 현상도 나타났다. 실제 검색결과를 집계해보면 118만건의 10%에도 못 미치는 수준으로 나타났다. 비슷한 기사량을 보이는 포털 다음의 '조국 기사'와 비교해도 네이버 기사가 10배 이상 집계되는 현상이 나타난 것이다. 

뉴스톱은 2019년 8월 1일부터 9월 6일까지 약 한달간 네이버의 조국 뉴스 관련 검색량 변화를 검증해 네이버 시스템 오류 및 악용 가능성을 짚어보고자 한다. 

 

1. 네이버의 '조국 기사' 검색량은 실제 얼마인가

조국 법무부장관 후보자 관련 이슈가 터졌을 때마다 네이버에 관련 기사가 얼마나 나왔는지 '일간 기사량'을 측정해 봤다. 주요 사건은 연합뉴스가 보도한 [조국 법무부장관 후보자 지명 일지]를 참고했다. 아래에 나오는 네이버와 다음 뉴스검색량은 9월 9일을 기준으로 포털에 들어가 '조국 관련 기사' 검색량을 직접 집계 분석한 것이다. 이를 표로 정리하면 아래와 같다. 

날짜

사건

당일 기사량

누적 기사량

8월 9일

조국 법무부장관 내정

네이버 1605

다음 1700

 

8월 16일

웅동학원 위장소송 의혹

네이버 1375

다음 1400

 

8월 20일

조국 딸 논문 1저자 의혹

네이버 3418 

다음 2200

 

8월 26일

9월 2~3일 청문회 합의

네이버 9067

다음 3300

 

8월 27일

검찰 30여곳 압수수색

네이버 5777

다음 3700

네이버 5만9984

다음 3만3800

9월 4일

홍익표 “조국기사 3주간 70만건”

 

네이버 77만7809

다음 6만400

9월 5일

네티즌 기사 삭제 의혹제기

한국당 네이버 항의방문

 

네이버 99만9137

다음 6만4500

9월 6일

네이버 검색결과 오류수정 공지

 

네이버 103만7900

다음 7만2200

9월 8일

 

 

네이버 12만1051

 

 

표를 보면 알 수 있지만, 실제 매일 검색된 '조국 관련' 기사량과 8월 이후 누적 '조국 관련' 기사량에는 큰 차이가 있다.  8월 초에는 네이버나 다음 모두 하루 평균 1,000여건 기사가 검색되다가 8월말에는 네이버 기준 하루 1만건, 다음 기준으로는 하루 3천여건의 조국 기사가 검색이 됐다. 그런데 9월 6일에는 조국 누적 기사가 100만건 이상 검색이 됐다. 그동안 기사생산량 속도를 봐도 '조국 관련' 누적 기사량은 10만건을 넘지 않는 게 정상이다. 그러데 갑자기 9월 8일에는 네이버 기준 '조국 관련' 누적 기사가 12만건이 됐다. 100만건이 12만건으로 크게 줄어든 것이다. 언론이 소송을 당하지 않기 위해 조국 관련 기사를 삭제했다는 근거는 바로 이런 '조국기사 전체 기사 검색량'의 극적인 차이에서 기인했다. 

 

<사진1> 인터넷에서 돌아다니고 있는 네이버 '조국 기사' 검색량. 8월 9일부터 31일까지 네이버 기사 검색창에서 검색된 '조국' 기사는 69만건이었다.

 

<사진2> 인터넷에 널리 유포된 사진. 9월 5일에 네이버에서 검색된 조국 기사(8월 9일~31일)는 12만여건이었다. 이 사진이 사실이라면 며칠 사이에 수십만건의 기사가 줄어들었다. 일부에서 '언론 조국 기사 삭제의혹'을 제기한 근거가 되었다.

그러면 9월 6일 전후로 무슨 일이 있었을까. 9월 5일 자유한국당은 경기도 성남 네이버 본사를 찾아 최근 조국 법무부 장관 후보자에 대한 실시간 검색어 조작 의혹에 대하여 항의했다. 당시에는 조 후보자의 자격 논란과 관련해 '조국 힘내세요'라는 검색어가 불과 몇 시간 만에 급상승해 검색 순위 1위를 차지하자 '조국 사퇴하세요'라는 검색어도 검색 순위가 상승하는 등 특정 세력을 중심으로 한 검색어 조작 의혹이 제기됐다.

9월 6일에는 네이버 뉴스팀이 공지사항을 발표했다.  뉴스검색시 검색결과 오류가 있어서 수정했다는 것(아래 사진 참고)이다. 정확히 어떤 오류였는지는 밝히지 않고 있다. 8월 1일부터 이날까지 '조국 관련' 누적 기사량은 100만건인 넘는 것으로 검색되었다.  같은 기간 다음의 누적기사량은 7만건이었다. 

<사진3> 9월 6일 네이버 뉴스팀의 '뉴스 검색 시스템' 오류 공지.

2019년 8월 1일부터 9월 8일까지 검색어는 '조국'에 대한 검색결과 중 '후보자'를 포함하는 상세검색결과로서 약 12만건 이었다. 9월 8일 언론사 뉴데일리의 기사를 보아도 최대 약 11만건으로 나왔다.

 

<사진4> 9월 8일 '조국 + 후보자'로 네이버에 검색한 결과 약 12만건의 기사가 나왔다.

그런데 조국 후보자가 법무부장관에 임명된 9월 9일, 전날과 동일한 방식으로 검색(8월 1일~9월 8일, 검색어 '조국+후보자')을 했는데 기사가 약 89만건이 나왔다. 

<사진5> 9월 9일 '조국+후보자'로 네이버에 검색한 결과 89만건의 기사가 검색이 됐다. 전날엔 12만건이었다. 하루만에 무려 77만건의 기사가 증가된 것이다.

결과적으로 더불어민주당 홍익표·이철희 의원, 네티즌들이 본 네이버의 '조국 기사량'은 다 틀렸다고 봐야 한다. 자세한 검증 없이 본인이 기사 검색에 '조국'을 입력했을 때 나온 기사량을 철썩같이 믿어서 생긴 결과다. 필자가 좀 더 자세한 방법으로 검색해 봐도 하루사이에 70만건의 기사가 사라졌다 생기는 일이 반복됐다.

상식적으로 보면, 다음의 '조국 관련' 기사량이 네이버 기사량보다 많아야 한다. 검색제휴 및 콘텐츠제휴 언론사 숫자는 다음은 1200여개, 네이버는 800여개로 알려져 있다. 하지만 네이버의 조국 기사가 다음보다 10배 이상 표시되는 이상한 현상이 벌어졌지만 그 누구도 크로스체킹을 해보지 않았다. 이 의문을 해결하기 위해 뉴스톱은 한국언론재단의 뉴스분석 사이트 빅카인즈와 네이버·다음의 '조국 관련 기사'를 직접 비교해 어떤 오류가 있는지 확인해봤다. 

 

2. 네이버·다음·빅카인즈·구글 데이터분석으로 확인한 '조국' 검색량

뉴스톱은 2019년 9월 9일 저녁 네이버의 뉴스 검색이 9월 6일 오류 수정 공지 이후 9일 오전부터 안정화되었다고 가정하고 스크래핑을 통하여 2019년 8월 1일~9월 6일 '조국 키워드' 관련 네이버 뉴스 검색량을 일자별로 수집 분석하였다. 비교지표군으로 포털 '다음'에서 동일 기간 동일 키워드의 뉴스량를 수집했고 54개 언론사 뉴스 및 빅데이터 서비스를 제공하는 빅카인즈에서 동일 기간 동일 키워드 뉴스량을 수집했다. 네이버는 800여개 언론사, 다음은 1200여개 언론사, 빅카인즈는 50여개 언론사의 기사량이다. 보수언론의 대명사로 일컬어지는 조선·중앙·동아일보의 기사량도 같이 분석을 했다.

<그래프1>'조국' 키워드 관련 일별 뉴스량 변화, 8월 26일까지 하루 1만여건 안팎을 보이던 네이버 기사량이 27일부터 급증해 28일에는 하루에만 23만건이 검출됐다가 다시 하루 1만건으로 줄어들었다. 반면 다음과 빅카인즈 기사량은 일정하다

<그래프1>을 보면 네이버의 뉴스검색량이 특정시점에서 갑자기 증가함을 알 수 있다. 8월 26일까지 하루 1만여건 안팎을 보이던 네이버 기사량이 27일부터 급증해 28일에는 하루에만 23만건이 검출됐다가 다시 하루 1만건으로 줄어들었다. 반면 다음과 빅카인즈 기사량은 일정하다. 하루만에 20만건 이상 기사가 늘어나는 것도 이상하지만 이런 널뛰기가 일주일 넘게 지속되는 것은 더 이상하다. 

 

<그래프2> '조국' 키워드 관련 일별 뉴스량 변화. 네이버에서는 조선·중앙·동아일보만 포함시켜 비교했다. 제휴언론사가 가장 많은 다음의 기사량이 가장 많다. 네이버에서 검색된 조중동 기사량이 큰 변동 없이 일정한 것이 눈에 띈다.

<그래프2>를 보면 네이버를 제외하면 가장 많은 언론사로 부터 뉴스를 받고 있는 포털 다음의 뉴스 검색량이 많음을 알 수 있다. 9월로 넘어오면서 '조국 관련 기사'가 포털 다음에서도 하루 7000건이 넘는 등 기사가 크게 증가했지만 총량 100만건과는 거리가 한참 있다. 조국 기사가 최대치인 7천개를 찍었을 때 다음 제휴 언론사 1200개가 모두 '조국 관련 기사'를 썼다고 가정하면 각 언론사가  5개 이상 '조국 키워드' 기사를 썼음을 유추할 수 있다. 

그런데 눈에 띄는 것은 전통적인 보수매체로 분류되는 조선·중앙·동아일보, 소위 조중동이다. 조중동의 기사량은 8월 초부터 9월초 조국 장관 임명까지 큰 차이를 보이지 않는다. 조중동은 사건 초기부터 꾸준하게 '조국 관련 기사'를 썼다고 보면 된다. 게다가 조중동 네이버 뉴스검색량과 조중동 빅카인즈 뉴스검색량은 정확하게 일치한다. 적어도 포털에서 조국 기사관련 조중동의 기사량 조작은 없다고 보면 된다.

서로 다른 규모로 변화하는 물리량(검색량)간의 상관관계와 변화 추이를 분석하기 위하여 각 데이터를 정규화(Normalization)해서 비교했다. 네이버와 다음, 빅카인즈 제휴 언론사 숫자가 다르기 때문에 실제 검색량도 다르게 나오는 문제를 해결하기 위한 방법이다. 정규화 방식은 가우시안 분포에 따른 Z-score Normalization을 사용하였다.

<그래프3> 데이터 정규화 이후 '조국 관련 기사' 추이. 서로 달라보였던 검색량들은 실은 네이버를 제외하고는 비슷한 변화 패턴을 보였다.

<그래프3>을 보면 모든 지표(빅카인즈 뉴스변화량, 네이버의 조중동 뉴스변화량, 빅카인즈의 조중동 뉴스변화량, 다음뉴스 변화량)가 상관관계 0.8이상을 기록해 상당한 유사도를 보였는데, 유독 네이버 조국 관련 뉴스 변화량(파란색 선)만 일반적이지 않은 모습을 보였다. 

그러면 네이버에서 검색된 조중동 뉴스와 빅카인즈에서 검색된 조중동 뉴스는 차이가 있을까. <그래프4>는 그런 의혹은 사실이 아님을 보여준다. 조중동은 사건 초기 하루에 20~30여건(언론사별 10건 안팎)의 '조국 기사'를 내보냈지만, 조국 장관 임명 즈음해서는 하루 230여건의 기사를 내보냈다. 언론사별로 보면 하루 70건이 넘는다. 여기에는 지면 기사, 그리고 온라인 전용 기사 그리고 조중동 사이트에로 나간 통신사 기사(연합뉴스, 뉴시스, 뉴스1 등)가 포함되어 있다. 상당수 언론들은 전재계약을 맺은 통신사 기사를 자사 홈페이지에 그대로 싣고 있다. 

<그래프4> 조중동 네이버 뉴스와 빅카인즈 뉴스. 두 지표는 동일하다. 일반적으로 생각하듯이 수천개의 조국 관련 네거티브 뉴스를 쏟아낸 것은 아니다.

그러면 뉴스가 아닌 전체 검색량을 비교해보면 어떨까. 포털에서 특정 키워드에 대한 통합 검색량 변화는 해당 키워드의 뉴스량 변화와 매우 유사한 패턴을 보인다. 뉴스검색량 수치가 아니라 실제 뉴스량이 많을수록 통합 검색량이 따라서 요동친다는 것이다. 포털에서 뉴스 콘텐츠에 공을 들이는 이유는 바로 트래픽 때문이다. 뉴스가 늘면 트래픽이 늘고 포털의 광고매출도 증가하는 구조이기 때문이다. '조국' 키워드로 동일기간 구글과 네이버 통합 검색량 변화에 대한 정규화 과정을 거친 분석은 아래 <그래프5>다. 

<그래프5> 데이터 정규화 과정을 거친. 구글과 네이버 검색 변화량. 검색엔진은 달라도 관심도가 통합 검색에 반영되는 정도는 유사하다.

<그래프5>를 보면 알 수 있듯이 미국에 본사가 있는 구글과 한국에 본사가 있는 네이버에서의 '조국' 검색은 일자별로 거의 동일한 패턴을 보임을 알 수 있다. 한국어(한글)는 사실상 전 세계에서 한국인만 쓰는 언어이기 때문에 포털의 국적과 관계없이 동일한 검색량 변화 결과가 나온 것이다. 

<그래프6>은 '조국' 키워드에 대한 구글과 네이버의 검색 변화량, 그리고 빅카인즈 뉴스 변화량, 빅카인즈 조중동 뉴스변화량, 네이버 조중동 뉴스변화량, 다음 뉴스변화량을 비교한 것이다. 여기에는 네이버 (전체) 뉴스 변화량은 빠져 있다. 

<그래프6> 네이버 뉴스변화량을 제외한 모든 지표를 정규화해 비교한 분석. 모든 지표가 유사한 변화정도를 보여 주고 있다.

그러나 네이버의 뉴스 검색변화량을 추가하면 유독 상이한 패턴을 보여준다(그래프7 참고).

<그래프7> 모든 지표가 동일한 패턴을 보이고 있으나 유독 네이버 뉴스검색량(주황색)만 다른 패턴을 보이고 있다. 네이버 기사검색량에 문제가 있음을 유추할 수 있다.

 

이를 교차 상관관계(Correlation)로 표현한 히트맵(Heatmap)이 <그래프8>이다. 히트맵은 색상 코딩 시스템을 사용해 다양한 데이터를 그림으로 표시한 것이다. 여기에서는 각 데이터 간 상관관계가 높으면 선명한 파란색으로 상관관계가 없으면 선명한 노란색으로 표시가 됐다. 유독 네이버 뉴스검색량만 다른 지표들과 상관관계가 아주 낮음을 확인할 수 있다. 

<그래프8> 각 포털의 검색량과 빅카인즈를 포함한 포털의 뉴스량을 히트맵으로 비교한 그래프. 네이버의 뉴스 검색 변화량만 동일기간 동일 키워드하에서 상관관계가 낮음을 알 수 있다.
<그래프9> 네이버 기사검색량만 다른 지표와 비교해 상관관계가 낮다. '조국 기사' 관련 네이버 기사 검색에 문제가 있음을 간접적으로 증명하는 자료다.

 

3. 네이버 '조국 관련' 뉴스 검색량변화와 통합 검색량변화의 '불일치'

앞에서 밝혔듯이 뉴스 검색과 통합 검색은 비슷한 패턴을 보이는게 일반적이다. 특정 키워드에 대한 뉴스량의 변화는 결국 통합 검색량의 변화를 가져오기 때문이다. 실시간 급상승 검색어에 특정 키워드, 예를 들면 '조국 힘내세요'나 '조국 사퇴하세요'가 올라오면, 언론들은 이 키워드로 기사를 쓴다. 독자들은 '조국 힘내세요'나 '조국 사퇴하세요'를 네이버 통합 검색창, 혹은 기사 검색창에 넣어서 검색하고 기사를 읽는다. 트래픽을 늘리기 위해 포털이 뉴스를 전면에 배치하는 이유이기도 하다. 

<그래프10> 정규화한 포털 및 빅카인즈 뉴스량과 검색량 비교. 네이버의 통합 검색 변화량은 다른 지표들의 변화정도와 유사하다
<그래프11> '조국' 관련 네이버의 뉴스(검색)량과 통합검색량. 뉴스 검색량이 통합 검색량 변화를 유도하고 있다고 보기 어렵다.

<그래프10>과 <그래프11>을 보면 확인할 수 있는 것은 '조국' 관련 네이버의 기사검색량과 네이버의 통합 검색량이 일치하고 있지 않다. 지금까지 데이터  교차분석을 통하여 유추할 수 있는 것은 네이버의 뉴스 검색 시스템이 오류이거나 뉴스 검색량을 인위적으로 조작 했다고 볼 수 밖에 없다. 전체 언론사가 합심해서 하루에 수십만건의 기사를 올리거나 삭제하는 일은 불가능하다. 언론사가 그럴 이유도 없다. 검색량과 실제 기사량이 일치하지 않을 경우 <그래프 11> 과 같은 차이가 흔히 발생하는데 만약 이것이 사실이라면  이는 의견기후(Opinion Climate)확인 측면에서 심각한 왜곡을 가져올 수 있다.
가장 확실한 방법은 네이버의 뉴스 검색량에 해당하는 모든 뉴스들을 일일이 다운받아 대조 확인하는 방법이다.  하지만 네이버 보안시스템이 이를 허용하지 않을 뿐만 아니라 우회하는 방법은 업무방해에 해당하여 시도하지 않았다.

 

결론: '조국 관련' 기사검색 의혹, 네이버가 직접 밝혀야 한다

네이버는 공지를 통해 해당 시스템 오류를 수정하였다고는 하나 여전히 조국관련 뉴스 검색량은 지나칠 정도로 높게 나오고 있다. 다른 지표들과의 비교를 통해서 봐도 유독 다른 변화 패턴을 보이고 있으며 오히려 더 많은 언론사로부터 뉴스를 공급받고 있는 포털 다음보다도 수십배 많은 뉴스 검색량을 지금도 보여주고 있다. 네이버 뉴스검색의 다양한 옵션을 통하여 날짜를 변경해 언론사별로 검색해봐도 검색량은 널뛰듯 변한다. 

앞의 간단한 데이터 분석만으로 네이버가 검색량을 조작했다고 결론내릴 수는 없다. 문제는 신뢰다. 네이버는 시사인이 실시한 '2019년 대한민국 신뢰도 조사결과'에서 가장 신뢰하는 언론매체에서 JTBC, 유튜브, KBS에 이어 네이버가 4위에 올랐다. 플랫폼 사업자가 '신뢰하는 언론 톱5'에 2개나 오른 사실은 플랫폼의 현재 위상을 보여준다. 사람들은 네이버를 단순 포털로 인식하는 게 아니라 언론으로 인식하고 있다. 네이버가 어느 언론보다 가장 정확하다고 생각하는 것이다. 네이버는 사실상 한국 언론의 게이트키핑 역할을 하고 있다. 그런데 이런 엄청난 오류가 발생했고 전국이 이런 오류 때문에 떠들썩한 상황에서 네이버가 입을 닫고 있는 것은 신뢰할만한 미디어가 취할 자세가 아니다. 

민감한 사안이 벌어질 때마다 신뢰하기 어려운 서비스 품질을 보여주고 있다. '조국 관련 기사량'에 대해 네이버가 조작을 했는지 여부는 뉴스톱 차원에서는 확인할 수 없다. 기사량에 대한 모든 데이터는 네이버가 가지고 있기 때문에 스스로 밝혀야 하는 문제다. 왜 '조국 관련' 네이버 전체 기사량만 다른 지표들과는 상이하게 나타나고 있는지 그리고 뉴스 검색량이 실제 뉴스량인지, 네이버의 공식적인 답변을 요청한다. 

다음 기사에서는 소셜미디어 상에서 '조국 사태'를 어떻게 바라보고 있는지 데이터분석을 통해 보여줄 예정이다. 

지윤성 팩트체커 saxoji@newstof.com

<저작권자 © 뉴스톱 무단전재 및 재배포금지>
지윤성   saxoji@newstof.com    최근글보기
드론/자동차/카메라 등 대한민국 남자라면 좋아할 아이템들에 관심이 많은, 게임-소프트웨어-클라우드 서비스 관련 회사의 창업자 및 임원을 지내며 정보격차 없는 낭만적인 IT 세상을 꿈꾸고 있습니다.
default_news_ad5
default_side_ad1
default_nd_ad2

인기기사

default_side_ad2

포토

1 2 3
set_P1
default_side_ad3

섹션별 인기기사 및 최근기사

default_side_ad4
default_nd_ad6
default_news_bottom
default_nd_ad4
default_bottom
#top
default_bottom_notch