4.3.1 Parametric Estimation using Modified Data
Teori dasar dan banyak aplikasi didasarkan pada pengamatan individu yang “lengkap” dan “tidak dimodifikasi”, seperti yang telah kita lihat di bagian sebelumnya. Bagian 3.5 memperkenalkan konsep pengamatan yang “dimodifikasi” karena dua jenis keterbatasan yang umum terjadi: penyensoran dan pemotongan. Sebagai contoh, adalah umum untuk berpikir tentang deductible asuransi sebagai menghasilkan data yang terpotong (dari kiri) atau batas polis sebagai menghasilkan data yang disensor (dari kanan). Sudut pandang ini berasal dari perusahaan asuransi utama (penjual asuransi). Sudut pandang lainnya adalah dari sudut pandang reasuradur (penanggung perusahaan asuransi) yang akan dibahas lebih lanjut di Bab 10. Reasuradur mungkin tidak melihat klaim yang lebih kecil dari suatu jumlah, hanya melihat bahwa klaim itu ada; ini adalah contoh penyensoran dari kiri. Jadi, pada bagian ini, kita akan membahas keseluruhan alternatif. Secara khusus, bagian ini akan membahas metode estimasi parametrik untuk tiga alternatif data individu, lengkap, dan tidak dimodifikasi: data tersensor interval yang hanya tersedia dalam kelompok, data yang dibatasi atau disensor, dan data yang mungkin tidak teramati karena terpotong.
4.3.1.1 Parametric Estimation using Grouped Data
Dengan mempertimbangkan sampel yang berukuran n yang diamati dari distribusi F(⋅), namun diamati dalam kelompok agar dapat mengatehui kelompok setiap pengamatan yang berbeda. Data tersebut disebut sebagai data yang dikelompokkan atau disensor interval. Contohnya adalah dengan melihat pencatatan karyawan tahunan 2 tahun berturut-turut. Orang-orang yang dipekerjakan di tahun pertama tetapi tidak di tahun kedua telah keluar pada suatu waktu selama tahun tersebut. Dengan tanggal keberangkatan yang tepat (data individu), kita dapat menghitung jumlah waktu mereka bersama perusahaan. Tanpa tanggal keberangkatan (data yang dikelompokkan), kita hanya tahu bahwa mereka keluar pada suatu waktu selama interval satu tahun.
Dengan merumuskan ide, dengan memisalkan k group atau intervals yang dibatasi oleh batas-batas \(c_0<c_1<⋯<c_k\). Dalam setiap pengamatan, hanya dapat mengamati interval yang dimana berada pada \(c_{j−1},c_j\), bukan nilai pastinya. Maka dari itu, dapat mengetahui jumlah pengamatan dalam setiap interval. Konstanta-konstanta \(({c_0<c_1<⋯<c_k})\) yang membentuk beberapa partisi dari domain F(⋅). Kemudian probabilitas dari sebuah observasi X_i yang jatuh pada interval ke-j interval ke-j adalah.
\[
\begin{align}
\Pr\left(X_i \in (c_{j-1}, c_j]\right) = F(c_j) - F(c_{j-1})
\end{align}
\]
Fungsi massa probabilitas yang sesuai untuk sebuah pengamatan adalah
\[
\begin{aligned}
f(x) &=
\begin{cases}
F(c_1) - F(c_{0}) & \text{if }\ x \in (c_{0}, c_1]\\
\vdots & \vdots \\
F(c_k) - F(c_{k-1}) & \text{if }\ x \in (c_{k-1}, c_k]\\
\end{cases} \\
&= \prod_{j=1}^k \left\{F(c_j) - F(c_{j-1})\right\}^{I(x \in (c_{j-1}, c_j])}
\end{aligned}
\]
Lalu dengan mendefinisikan n_j sebagai jumlah observasi yang berada pada interval ke-j \((c_{j-1},c_j)\). Sehingga fungsi Likelihood yang berhubungan dengan parameter θ adalah
\[
\begin{aligned}
L(\theta) = \prod_{j=1}^n f(x_i) = \prod_{j=1}^k \left\{F(c_j) - F(c_{j-1})\right\}^{n_j}
\end{aligned}
\]
Dan fungsi log-likelihoodnya adalah
\[
\begin{aligned}
L(\theta) = \prod_{j=1}^n f(x_i) = \prod_{j=1}^k \left\{F(c_j) - F(c_{j-1})\right\}^{n_j}
\end{aligned}
\]
Memaksimalkan fungsi likelihood (atau dengan kata lain, memaksimalkan fungsi log-likelihood) akan menghasilkan estimasi likelihood maksimum untuk data yang dikelompokkan.
Example 4.3.1 Actuarial Exam Question
Diberikan data : 1. Kerugian mengikuti distribusi eksponensial dengan rata-rata \(θ\). 2. Sebuah sampel acak dari 20 kerugian didistribusikan sebagai berikut:

Hitung estimasi kemungkinan maksimum dari \(θ\)
JAWABAN
\[
\begin{aligned}
L(\theta) &= F(1000)^7[F(2000)-F(1000)]^6[1-F(2000)]^7 \\
&= (1-e^{-1000/\theta})^7(e^{-1000/\theta} - e^{-2000/\theta})^6(e^{-2000/\theta})^7 \\
&= (1-p)^7(p-p^2)^6(p^2)^7 \\
&= p^{20}(1-p)^{13}
\end{aligned}
\]
di mana \(p = e^{-1000/θ}\). Memaksimalkan ekspresi ini sehubungan dengan \(p\) setara dengan memaksimalkan kemungkinan terhadap \(θ\). Maksimum terjadi pada \(p = /frac{20}{33}\). sehingga \(θ^ = /frac{-1000}{log(20/33)} = 1996.90\)
4.3.1.2 Censored Data
Penyensoran terjadi ketika kita hanya mencatat nilai yang terbatas dari sebuah observasi. Bentuk yang paling umum adalah penyensoran kanan, di mana kita mencatat nilai yang lebih kecil dari variabel dependen “benar” dan nilai penyensoran. Dengan menggunakan notasi, dengan X mewakili hasil yang diminati, seperti kerugian akibat kejadian yang diasuransikan atau waktu hingga kejadian. Dengan \(C_U\) menyatakan jumlah penyensoran. Dengan pengamatan tersensor kanan, mencatat \(X_U^* = min(X, C_U) = X∧C_U\). Lalu juga mencatat apakah penyensoran telah terjadi atau tidak. \(δ_U = I(X≤C_U)\) adalah variabel biner yang bernilai 0 jika penyensoran terjadi dan 1 jika tidak, yaitu, \(δ_U\) menunjukkan apakah X tidak disensor atau tidak.
Sebagai contoh \(C_U\) dapat merepresentasikan batas atas pertanggungan sebuah polis asuransi. Kerugian dapat melebihi jumlah \(C_U\) tetapi perusahaan asuransi hanya memiliki \(C_U\) dalam catatannya sebagai jumlah yang dibayarkan dan tidak memiliki jumlah kerugian aktual \(X\) dalam catatannya.
Sama halnya dengan penyensoran kiri, dapat mencatat yang lebih besar dari variabel yang diminati dan variabel yang disensor. Jika \(C_L\) digunakan untuk merepresentasikan jumlah penyensoran, maka mencatat \(X_L^*=max(X,C_L)\) bersama dengan indikator penyensoran \(δ_L=I(X>C_L)\).
Sebagai contoh, reasuradur akan menanggung kerugian penanggung yang lebih besar dari \(C_L\) ini berarti reasuradur bertanggung jawab atas kelebihan \(X_L^*\) pada \(C_L\). Dengan menggunakan notasi, kerugian reasuradur adalah \(Y = X_L^*L-C_L\) Untuk melihat hal ini, pertama-tama pertimbangkan kasus di mana pemegang polis mengalami kerugian \(X < C_L\). Kemudian, penanggung akan membayar seluruh klaim dan \(Y=C_L-C_L=0\) tidak ada kerugian bagi reasuradur. Sebaliknya, jika kerugian \(X≥C_L\) maka \(Y = X-C_L\) merupakan klaim yang ditahan oleh reasuradur. Dengan kata lain, jika terjadi kerugian, reasuradur mencatat jumlah sebenarnya jika melebihi batas \(C_L\) dan jika tidak, hanya mencatat akan mengalami kerugian sebesar 0.
4.3.1.3 Truncated Data
Pengamatan yang disensor dicatat untuk studi, meskipun dalam bentuk yang terbatas. Sebaliknya, hasil yang terpotong adalah jenis data yang hilang. Sebuah hasil berpotensi terpotong ketika ketersediaan pengamatan bergantung pada hasil.
Dalam asuransi, biasanya pengamatan terpotong kiri pada \(C_L\) ketika jumlahnya adalah
\[
\begin{aligned}
Y &=
\left\{
\begin{array}{cl}
\text{we do not observe }X & X \le C_L \\
X & X > C_L
\end{array}
\right.\end{aligned}
\]
Dengan kata lain, jika X kurang dari ambang batas \(C_L\) maka ia tidak teramati.
\(C_L\) dapat merepresentasikan deductible dari sebuah polis asuransi. Jika kerugian yang diasuransikan kurang dari deductible, maka perusahaan asuransi mungkin tidak mengamati atau mencatat kerugian sama sekali. Jika kerugian melebihi deductible, maka kelebihan \(X-C_L\) adalah klaim yang ditanggung oleh penanggung. Dimana dapat didefinisikan kerugian per pembayaran sebagai
\[
\begin{aligned}
Y^{P} = \left\{ \begin{matrix}
\text{Undefined} & X \le d \\
X - d & X > d
\end{matrix} \right.
\end{aligned}
\]
sehingga jika kerugian melebihi deductible, kami mencatat jumlah kelebihan \(X-d\). Hal ini sangat penting ketika mempertimbangkan jumlah yang akan dibayarkan oleh perusahaan asuransi. Namun, untuk tujuan estimasi pada bagian ini, tidak terlalu penting jika kita mengurangkan konstanta yang diketahui seperti \(C_L = d\). Sehingga, untuk variabel terpotong \(Y\) kita menggunakan konvensi yang lebih sederhana dan tidak mengurangkan \(d\).
Demikian pula untuk data terpotong kanan, jika X melebihi ambang batas \(C_U\) maka data tersebut tidak diobservasi. Dalam hal ini, jumlahnya adalah
\[
\begin{aligned}
Y &=
\left\{
\begin{array}{cl}
X & X \le C_U \\
\text{we do not observe }X & X > C_U.
\end{array}
\right.\end{aligned}
\]
Contoh klasik dari pemotongan dari kanan termasuk X sebagai ukuran jarak ke bintang. Ketika jaraknya melebihi tingkat tertentu \(C_U\) maka bintang tersebut tidak lagi dapat diamati.
Gambar dibawah ini membandingkan pengamatan yang terpotong dan tersensor. Nilai-nilai X yang lebih besar dari batas penyensoran “atas” \(C_U\) tidak teramati sama sekali (tersensor kanan), sedangkan nilai X yang lebih kecil dari batas pemotongan “bawah” \(C_L\) tetap diamati, tetapi diamati sebagai \(C_L\) daripada nilai X yang sebenarnya (tersensor kiri).

Sebagai rangkuman, untuk hasil X dan konstanta-konstanta \(C_L\) dan \(C_U\)

4.3.1.4 Parametric Estimation using Censored and Truncated Data
Untuk mempermudah, dapat diasumsikan jumlah penyensoran tidak acak dan hasil yang kontinu X . Sebagai permulaan, pertimbangkan kasus data tersensor kanan di mana merekam \(X_U^* = min(X, C_U) = X∧C_U\)) dan indikator penyensoran \(δ = I(X≤C_U)\) . Jika penyensoran terjadi sehingga \(δ=0\) maka \(X>C_U\) dan peluangnya adalah \(Pr(X>C_U)=1-F(C_U)\). Jika penyensoran tidak terjadi sehingga \(δ = 1\) maka \(X≤C_U\) dan likelihoodnya adalah \(f(x)\) . Ringkasnya, didapatkan likelihood dari sebuah pengamatan tunggal sebagai
\[
\begin{aligned}
\left\{
\begin{array}{ll}
1-F(C_U) & \text{if }\delta=0 \\
f(x) & \text{if } \delta = 1
\end{array}
\right. = \left\{ f(x)\right\}^{\delta} \left\{1-F(C_U)\right\}^{1-\delta} .
\end{aligned}
\] Ekspresi ruas kanan memungkinkan dalam menyajikan peluang dengan lebih ringkas. Sekarang, untuk sampel ke-i dengan ukuran n , peluangnya adalah
\[
\begin{aligned}
L(\theta) =
\prod_{i=1}^n \left\{ f(x_i)\right\}^{\delta_i} \left\{1-F(C_{Ui})\right\}^{1-\delta_i} = \prod_{\delta_i=1} f(x_i) \prod_{\delta_i=0} \{1-F(C_{Ui})\}
\end{aligned}
\]
dengan waktu penyensoran potensial \({(C_{U1},...,C_{Un})}\) . Di sini, notasi “\(∏_{δi} = 1\)” berarti mengambil hasil kali dari pengamatan yang tidak disensor, dan demikian pula untuk “\(∏_{δi} = 0\)”
Di sisi lain, data terpotong ditangani dalam inferensi kemungkinan melalui probabilitas bersyarat. Secara khusus, kontribusi likelihood dapat disesuaikan dengan membaginya dengan probabilitas bahwa variabel tersebut diamati. Sebagai rangkuman, kami memiliki kontribusi berikut pada fungsi likelihood untuk enam jenis hasil:

Untuk hasil yang diketahui dan data yang disensor, kemungkinannya adalah
\[
\begin{aligned}
L(\theta) = \prod_{E} f(x_i) \prod_{R} \{1-F(C_{Ui})\} \prod_{L}
F(C_{Li}) \prod_{I} (F(C_{Ui})-F(C_{Li})),
\end{aligned}
\]
di mana \("∏_E"\) adalah hasil kali pengamatan dengan nilai Exact, dan demikian pula untuk Right-,Left- and Interval-censoring.
Untuk data yang disensor kanan dan terpotong kiri, kemungkinannya adalah
\[
\begin{aligned}
L(\theta) = \prod_{E} \frac{f(x_i)}{1-F(C_{Li})} \prod_{R} \frac{1-F(C_{Ui})}{1-F(C_{Li})},
\end{aligned}
\] dan juga untuk kombinasi lainnya.
Example 4.3.2. Actuarial Exam Question
Diberikan data :
- Sebuah contoh kerugian adalah: 600 700 900
- Tidak ada informasi yang tersedia mengenai kerugian sebesar 500 atau kurang.
- Kerugian diasumsikan mengikuti distribusi eksponensial dengan rata-rata \(θ\).
Hitung estimasi kemungkinan maksimum dari \(θ\)
JAWAB
Pengamatan ini terpotong pada angka 500. Kontribusi dari setiap pengamatan terhadap fungsi likelihood adalah
\(\frac{f(x)}{1-F(500)} = \frac{\theta^{-1}e^{-x/\theta}}{e^{-500/\theta}}\)
Lalu Fungsi Likelihoodnya adalah
\(L(\theta)= \frac{\theta^{-1} e^{-600/\theta} \theta^{-1} e^{-700/\theta} \theta^{-1} e^{-900/\theta}}{(e^{-500/\theta})^3} = \theta^{-3}e^{-700/\theta}\)
Log-Likehoodnya adalah
\(l(\theta) = \log L(\theta) = -3 \log \theta - 700 \theta^{-1}\)
Memaksimalkan ekspresi ini dengan menetapkan turunan terhadap θ sama dengan 0, Maka memiliki
\(L'(\theta) = -3 \theta^{-1} + 700 \theta^{-2} = 0 \ \Rightarrow \ \hat{\theta} = \frac{700}{3} = 233.33 .\)
4.3.2 Nonparametric Estimation using Modified Data
Estimator nonparametrik memberikan tolok ukur yang berguna, sehingga akan sangat membantu untuk memahami prosedur estimasi untuk data yang dikelompokkan, disensor, dan dipotong
4.3.2.1 Grouped Data
Pengamatan dapat dikelompokkan (juga disebut sebagai interval tersensor) dalam arti bahwa pengamatan sebagai bagian dari salah satu dari k interval dalam bentuk \((c_{j-1},c_j)\) , untuk \(j = 1,...,k\) . Pada batas-batasnya, fungsi distribusi empiris didefinisikan dengan cara yang biasa:
\[
\begin{aligned}
F_n(c_j) = \frac{\text{number of observations } \le c_j}{n}
\end{aligned}
\]
Ogive Estimator
Untuk nilai lain dari \(x∈(c_{j-1},c_j)\) dapat mengestimasi fungsi distribusi dengan ogive estimator yang menginterpolasi secara linear antara \(F_n(c_{j-1})\) dan \(Fn_(c_j)\) yaitu nilai dari batas-batas \(F_n(c_{j-1})\) dan \(Fn_(c_j)\) dihubungkan dengan sebuah garis lurus. Hal ini secara formal dapat dinyatakan sebagai
\[
\begin{aligned}
F_n(x) = \frac{c_j-x}{c_j-c_{j-1}} F_n(c_{j-1}) + \frac{x-c_{j-1}}{c_j-c_{j-1}} F_n(c_j) \ \ \ \text{for } c_{j-1} \le x < c_j
\end{aligned}
\]
Sehinga Densitas yang sesuai adalah
\[
\begin{aligned}
f_n(x) = F^{\prime}_n(x) = \frac{F_n(c_j)-F_n(c_{j-1})}{c_j - c_{j-1}} \ \ \ \text{for } c_{j-1} < x < c_j .
\end{aligned}
\]
Example 4.3.4. Actuarial Exam Question
Diberikan informasi berikut ini mengenai jumlah klaim untuk 100 klaim:

4.3.2.2 Right-Censored Empirical Distribution Function
Akan sangat berguna untuk mengkalibrasi penaksir parametrik dengan metode nonparametrik yang tidak bergantung pada bentuk parametrik distribusi. Penaksir batas produk menurut (Kaplan dan Meier 1958) merupakan penaksir yang terkenal untuk fungsi distribusi dengan adanya penyensoran.
Motivasi untuk Penaksir Batas Produk Kaplan-Meier
Untuk menjelaskan mengapa product-limit bekerja dengan sangat baik dengan observasi tersensor, pertama-tama dapat melihat ke kasus tanpa penyensoran. Di sini, fungsi distribusi empiris \(F_n(x)\) adalah penaksir tak bias dari fungsi distribusi \(F(x)\) . Hal ini karena \(F_n(x)\) adalah rata-rata dari variabel indikator yang masing-masing tidak bias, yaitu, \(E [I(X_i≤x)]=Pr(X_i≤x)=F(x)\)
Sekarang misalkan hasil acak disensor di sebelah kanan dengan jumlah yang membatasi, katakanlah, CU sehingga dapat mencatat yang lebih kecil dari keduanya, \(X^* = min(X, C_U)\) . Untuk nilai-nilai \(x\) yang lebih kecil dari \(C_U\), variabel indikator masih memberikan penaksir yang tidak bias terhadap fungsi distribusi sebelum kita mencapai batas penyensoran. Artinya, \(E [I(X^∗≤x)]=F(x)\) karena \(I(X^∗≤x)=I(X≤x)\) untuk \(x<C_U\) . Dengan cara yang sama, \(E[I(X^∗>x)]=1-F(x)=S(x)\) . Tetapi, untuk \(x>C_U\) , \(I(X^∗≤x)\) secara umum bukan merupakan penaksir tak bias dari F(x). Sebagai alternatif, pertimbangkan dua peubah acak yang memiliki batas penyensoran yang berbeda. Sebagai ilustrasi, misalkan kita mengamati \(X^∗1=min(X_1,5)\) dan \(X^∗2 = min(X_2,10)\) di mana \(X_1\) dan \(X_2\) adalah undian independen dari distribusi yang sama. Untuk \(x≤5\) fungsi distribusi empiris \(F_2(x)\) adalah penaksir tak bias dari \(F(x)\). Akan tetapi, untuk \(5<x≤10\) pengamatan pertama tidak dapat digunakan untuk fungsi distribusi karena adanya batasan penyensoran. Sebagai gantinya, strategi yang dikembangkan oleh (Kaplan dan Meier 1958) adalah dengan menggunakan \(S_2(5)\) sebagai penaksir dari \(S(5)\) dan kemudian menggunakan observasi kedua untuk mengestimasi fungsi survival bersyarat pada kelangsungan hidup hingga waktu ke-5, \(Pr(X>x|X>5)=\frac{S(x)}{S(5)}\) . Secara khusus, untuk \(5<x≤10\) penaksir dari fungsi survival adalah
\[
\begin{aligned}
\hat{S}(x) = S_2(5) \times I(X_2^* > x )
\end{aligned}
\]
Kaplan-Meier Product Limit Estimator
Dengen memperluas ide dalam setiap observasi i,dengan ui menjadi batas atas penyensoran \((=∞) jikatidakadapenyensoran\). Dengan demikian, nilai yang tercatat adalah xi dalam kasus tidak ada penyensoran dan ui jika ada penyensoran. Dengan \(t_1<⋯<t_k\)menjadi k titik berbeda di mana kerugian yang tidak disensor terjadi, dan biarkan \(s_j\) adalah jumlah kerugian yang tidak tersensor \(x_i\) yang tidak tersensor pada \(t_j\). Himpunan risiko yang sesuai adalah jumlah observasi yang aktif (tidak tersensor) pada nilai yang kurang dari \(t_j\) yang dinotasikan sebagai \(R_j = \sum_{i=1}^n I(x_i \geq t_{j}) + \sum_{i=1}^n I(u_i \geq t_{j})\)
Dengan notasi ini, penaksir product-limit dari fungsi distribusi
\[
\begin{equation}
\hat{F}(x) =
\left\{
\begin{array}{ll}
0 & x<t_{1} \\
1-\prod_{j:t_{j} \leq x}\left( 1-\frac{s_j}{R_{j}}\right) & x \geq t_{1}
\end{array}
\right. .
\tag{4.6}
\end{equation}
\]
Sebagai contohnya, jika x lebih kecil dari kerugian terkecil yang tidak tersensor, maka \(x<t1\) dan \(F^(x)=0\) . Sebagai contoh lain, jika \(x\) berada di antara kerugian tersensor terkecil kedua dan ketiga, maka \(x∈(t_2,t_3]\) dan \(\hat{F}(x) = 1 - \left(1- \frac{s_1}{R_{1}}\right)\left(1- \frac{s_2}{R_{2}}\right)\) .Taksiran yang sesuai dari fungsi survival adalah \(\hat{S}(x) = 1 - \hat{F}(x)\)
Example 4.3.5. Actuarial Exam Question.
Berikut ini adalah contoh dari 10 pembayaran:

dimana + menunjukkan bahwa kerugian telah melebihi batas polis.
Dengan menggunakan estimator batas produk Kaplan-Meier, hitunglah probabilitas bahwa kerugian pada suatu polis melebihi 11, \(\hat{S}(11)\)
Terdapat empat waktu kejadian (pengamatan yang tidak disensor). Untuk setiap waktu tj kita dapat menghitung jumlah kejadian sj dan himpunan risiko \(R_j\) sebagai berikut:

Dengan demikian, estimasi Kaplan-Meier dari S(11) adalah
\[
\begin{aligned}
\hat{S}(11) &= \prod_{j:t_j\leq 11} \left( 1- \frac{s_j}{R_j} \right) = \prod_{j=1}^{2} \left( 1- \frac{s_j}{R_j} \right)\\
&= \left(1-\frac{2}{10} \right) \left(1-\frac{1}{5} \right) = (0.8)(0.8)= 0.64. \\
\end{aligned}
\]
Right-Censored, Left-Truncated Empirical Distribution Function
Selain penyensoran kanan, selanjutnya adalah memperluas kerangka kerja untuk memungkinkan data terpotong ke kiri. Seperti sebelumnya, untuk setiap observasi i , dengan \(u_i\) menjadi batas penyensoran atas ( \(=∞\) jika tidak ada penyensoran). Selanjutnya, \(d_i\) merupakan batas pemotongan bawah (0 jika tidak ada pemotongan). Dengan demikian, nilai yang tercatat (jika lebih besar dari \(d_i\) ) adalah \(x_i\) dalam kasus tidak ada penyensoran dan \(u_i\) jika ada penyensoran. Lalu untuk $t_1<⋯<t_k $menjadi \(k\) titik-titik yang berbeda di mana sebuah kejadian yang menarik terjadi, dan biarkan \(s_j\) adalah jumlah kejadian yang terekam \(x_i\) pada titik waktu \(t_j\).
Himpunan risiko yang sesuai adalah
\(R_j = \sum_{i=1}^n I(x_i \geq t_{j}) + \sum_{i=1}^n I(u_i \geq t_{j}) - \sum_{i=1}^n I(d_i \geq t_{j}).\)
Dengan definisi baru dari himpunan risiko ini, penaksir batas hasil kali dari fungsi distribusi adalah seperti pada persamaan product limit estimator.
Rumus Greenwood (Greenwood 1926) menurunkan rumus untuk estimasi varians dari penaksir batas-produk menjadi
\(\widehat{Var}(\hat{F}(x)) = (1-\hat{F}(x))^{2} \sum _{j:t_{j} \leq x} \dfrac{s_j}{R_{j}(R_{j}-s_j)}.\)
Seperti biasa, dapat mengacu pada akar kuadrat dari estimasi varians sebagai kesalahan standar, sebuah kuantitas yang secara rutin digunakan dalam interval kepercayaan dan untuk pengujian hipotesis. Untuk menghitungnya, metode survfit R mengambil sebuah objek data survival dan membuat sebuah objek baru yang berisi estimasi Kaplan-Meier dari fungsi survival bersama dengan interval kepercayaan. Metode Kaplan-Meier (type='kaplan-meier') digunakan secara default untuk membuat estimasi kurva survival. Fungsi survival diskrit yang dihasilkan memiliki massa titik pada waktu kejadian yang diamati (tanggal pelepasan) \(t_j\) dimana probabilitas suatu kejadian yang diberi ketahanan hidup pada durasi tersebut diestimasi sebagai jumlah kejadian yang diamati pada durasi sj dibagi dengan jumlah subjek yang terpapar atau ‘berisiko’ sesaat sebelum durasi kejadian \(R_j\).
Penaksir Alternatif
Dua jenis estimasi alternatif juga tersedia untuk metode survfit. Alternatif pertama (type='fh2') menangani hubungan, pada dasarnya, dengan mengasumsikan bahwa beberapa kejadian pada durasi yang sama terjadi dalam urutan yang berubah-ubah. Alternatif lain (type='fleming-harrington') menggunakan estimasi Nelson-Aalen (Aalen 1978) dari fungsi hazard kumulatif untuk mendapatkan estimasi fungsi survival. Estimasi bahaya kumulatif \(H^(x)\) dimulai dari nol dan bertambah pada setiap durasi kejadian yang diamati \(t_j\) dengan jumlah kejadian \(s_j\) dibagi dengan jumlah yang berisiko \(R_j\). Dengan notasi yang sama seperti di atas, penaksir Nelson-Äalen dari fungsi distribusi adalah
\[
\begin{aligned}
\hat{F}_{NA}(x) &=
\left\{
\begin{array}{ll}
0 & x<t_{1} \\
1- \exp \left(-\sum_{j:t_{j} \leq x}\frac{s_j}{R_j} \right) & x \geq t_{1}
\end{array}
\right. .\end{aligned}
\]
Itu merupakan hasil dari estimator Nelson-Äalen dari fungsi hazard kumulatif
\(\hat{H}(x)=\sum_{j:t_j\leq x} \frac{s_j}{R_j}\)
dan hubungan antara fungsi survival dan fungsi hazard kumulatif,
\(\hat{S}_{NA}(x)=e^{-\hat{H}(x)}\)
