Improve EstimateReadingTime's speed by a factor 7

- Refactorise the tests and add some
- Use 250 signs instead of the whole text
- Only check for Korean, Chinese and Japanese script
- Add a benchmark
- Use a more idiomatic control flow

$ # main branch
$ go test -bench=.
goos: linux
goarch: amd64
BenchmarkEstimateReadingTime-12              267           4821268 ns/op
ok     1.754s
$ # speed_up_reading_time branch
$ go test -bench=.
goos: linux
goarch: amd64
cpu: 12th Gen Intel(R) Core(TM) i7-1265U
BenchmarkEstimateReadingTime-12             1941            653312 ns/op
ok     1.342s
This commit is contained in:
jvoisin 2024-02-29 14:11:46 +01:00 committed by Frédéric Guillot
parent 31ac62f410
commit ab85d4d678
2 changed files with 63 additions and 28 deletions

View File

@ -17,15 +17,23 @@ import (
// EstimateReadingTime returns the estimated reading time of an article in minute.
func EstimateReadingTime(content string, defaultReadingSpeed, cjkReadingSpeed int) int {
sanitizedContent := sanitizer.StripTags(content)
langInfo := whatlanggo.Detect(sanitizedContent)
var timeToReadInt int
if langInfo.IsReliable() && (langInfo.Lang == whatlanggo.Jpn || langInfo.Lang == whatlanggo.Cmn || langInfo.Lang == whatlanggo.Kor) {
timeToReadInt = int(math.Ceil(float64(utf8.RuneCountInString(sanitizedContent)) / float64(cjkReadingSpeed)))
} else {
// Litterature on language detection says that around 100 signes is enough, we're safe here.
truncationPoint := int(math.Min(float64(len(sanitizedContent)), 250))
// We're only interested in identifying Japanse/Chinese/Korean
options := whatlanggo.Options{
Whitelist: map[whatlanggo.Lang]bool{
whatlanggo.Jpn: true,
whatlanggo.Cmn: true,
whatlanggo.Kor: true,
langInfo := whatlanggo.DetectWithOptions(sanitizedContent[:truncationPoint], options)
if langInfo.IsReliable() {
return int(math.Ceil(float64(utf8.RuneCountInString(sanitizedContent)) / float64(cjkReadingSpeed)))
nbOfWords := len(strings.Fields(sanitizedContent))
timeToReadInt = int(math.Ceil(float64(nbOfWords) / float64(defaultReadingSpeed)))
return timeToReadInt
return int(math.Ceil(float64(nbOfWords) / float64(defaultReadingSpeed)))

View File

@ -5,8 +5,10 @@ package readingtime
import "testing"
func TestEstimateReadingTimeInEnglish(t *testing.T) {
sampleText := `
var samples = map[string]string{
"shortenglish": `This is a short paragraph in english, less than 250 chars.`,
"shortchinese": ` 労問委格名町違載式新青脂通由。割止書円画民京般著治登門画拡下。有国同観教田美森素説砂者徴多。上治速相支存色分繰年活元事集遣逆山`,
"english": `
In turpis lacus, sollicitudin non accumsan sed, suscipit eget magna. Morbi id
neque enim. Aenean ac lacus consectetur, accumsan elit ac, suscipit dui. Donec
congue mi et nisl bibendum, venenatis fringilla orci tristique. Nullam ullamcorper
@ -35,16 +37,8 @@ func TestEstimateReadingTimeInEnglish(t *testing.T) {
turpis. Sed semper eu urna sit amet malesuada. Suspendisse blandit condimentum elit,
in scelerisque tellus convallis eu. Nunc eleifend sem et mauris vestibulum
mattis. Praesent ultricies pellentesque eros non posuere.
readingTime := EstimateReadingTime(sampleText, 200, 500)
if readingTime != 2 {
t.Errorf(`Wrong reading time, got %d instead of 2`, readingTime)
func TestEstimateReadingTimeInChinese(t *testing.T) {
sampleText := `
"chinese": `
@ -52,10 +46,43 @@ func TestEstimateReadingTimeInChinese(t *testing.T) {
"korean": `
세계 인권 선언(世界人權宣言, 영어: Universal Declaration of Human Rights, UDHR) 1948 12 10 파리에서 열린 제3회 유엔 총회에서 채택된 인권에 관한 세계 선언문이다.[1] 2 세계대전 전후로 세계에 만연하였던 인권침해 사태에 대한 인류의 반성을 촉구하고, 모든 인간의 기본적 권리를 존중해야 한다는 유엔 헌장의 취지를 구체화 하였다.[2] 시민적, 정치적 권리가 중심이지만 노동자의 단결권, 교육에 관한 권리, 예술을 향유할 권리 경제적, 사회적, 문화적 권리에 대하여서도 규정하고 있다.[1]
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
초안은 1946 험프리가 작성하였다.[3] 인권선언문은 전문과 본문의 30 조에 개인의 기본적인 자유와 함께 노동권적 권리, 생존권적 권리를 오늘날의 진보적인 국가의 헌법에서 규정하는 인권보장과 같이 자세히 규정하고 있다.[4] 프랑스 파리 샤요 (Palais de Chaillot)에서 열린 3번째 회의에서 당시 국제연합 가입국 58 국가 48 국가가 찬성하여 유엔 총회 결의 217 A (III) 승인되었다.
readingTime := EstimateReadingTime(sampleText, 200, 500)
if readingTime != 2 {
t.Errorf(`Wrong reading time, got %d instead of 2`, readingTime)
func TestEstimateReadingTime(t *testing.T) {
expected := map[string]int{
"shortenglish": 1,
"shortchinese": 1,
"english": 2,
"chinese": 2,
"korean": 5,
for language, sample := range samples {
got := EstimateReadingTime(sample, 200, 500)
want := expected[language]
if got != want {
t.Errorf(`Wrong reading time, got %d instead of %d for %s`, got, want, language)
func BenchmarkEstimateReadingTime(b *testing.B) {
for range b.N {
for _, sample := range samples {
EstimateReadingTime(sample, 200, 500)